Model Değerlendirme
Model Evaluation
Alper VAHAPLAR
2
1
•
CRISP-DM Aşamaları
o
Business Understanding,
o
Data Understanding,
o
Data Preparation,
o
Modeling,
o
Evaluation,
o
Deployment.
•
Modelleme aşamasında
oluşturulam nodellerin
kalite(quality) ve etkinlik
(effectiveness) açısından
değerlendirilmeleri gerekir
Alper VAHAPLAR
•
•
3
Simple Validation (Basit Geçerlilik)
o
Büyük veri setlerinde uygulanır.
o
Veri setinin rasgele olarak %5 – %35 kısmı test için ayrılır.
o
Model büyük sette kurulup, ayrılan kısımda test edilir.
Cross validation (Çapraz Geçerlilik)
o
Küçük veri setleri için uygundur (birkaç bin satırlık)
o
Veri seti rasgele 2 parçaya (%50-%50) bölünür
o
İlk kısımda model kurulur, ikinci kısımda test edilip bir doğruluk oranı
(accuracy) elde edilir,
o
İkinci kısımda bir model kurulur, ilk kısımda test edilip bir doğruluk oranı
elde edilir,
o
Gerçek model, tüm veri seti üzerinde kurulur.
o
Bu modelin geçerliliği (accuracy) önceki iki testin ortalaması olarak kabul
edilir.
Alper VAHAPLAR
4
2
•
N-fold Cross validation (n-katlı çapraz geçerlilik)
o
Veri rasgele n parçaya ayrılır,
o
1. grup test için ayrılır, geri kalan n-1 kısımda model kurulur
o
2. grup test için ayrılır, geri kalan n-1 kısımda model kurulur
o
3. grup test için ayrılır, geri kalan n-1 kısımda model kurulur
o
…
o
n. grup test için ayrılır, geri kalan n-1 kısımda model kurulur
o
Gerçek model, tüm veri üzerinde kurulur,
o
Bu modelin geçerliliği, önceki n test sonucunun ortalaması olarak kabul
edilir.
Alper VAHAPLAR
•
5
Ör: 3-fold Cross Validation
Alper VAHAPLAR
6
3
•
External Validation (Dışsal/Harici geçerlilik)
o
Geçerli (valid) model, her zaman doğru model olmayabilir.
o
Her zaman modele katılmamış dış etkenler vardır.
o
O yüzden, kurulmuş olan geçerli modeli, kullanmaya başlamadan önce,
küçük bir gerçek veri setinde denemek gerekir.
•
Yanlış bir modelin yaratacağı riskleri almamak için, modelin
sonuçlarını kontrol etmeyi sağlayacak bir deney oluşturulması
önemlidir.
Alper VAHAPLAR
7
Bilinen Sonuçlar
Data
+
+
+
Model Oluşturma
Y
N
Validation set
Final Test Set
Alper VAHAPLAR
Model
Oluşturma
Training set
Final Model
Değerlendirme
Tahminler
+
+
+
- Final Evaluation
+
-
8
4
•
•
•
•
•
Ortalama (Mean),
Varyans (Variance),
Güven Aralığı (Confidence Intervals),
Korelasyon (Correlations),
Hipotez testleri vs…
Alper VAHAPLAR
•
•
•
•
Training set ve gerçek değer (actual value) (y),
Modelin çıktı değeri (output)(ŷ)
Tahminleme Hatası (Estimation error )|y – ŷ| (residual)
o
Model değerlendirme için kullanılabilir mi?
o
Hayır çünkü residual ortalaması sıfır(0)'dır.
Mean Square Error (MSE), Mean Absolute Error (MAE)
MSE 
•
9
 ( y  yˆ )
i
2
i
i
n  p 1
Sum of Squared Errors
SSE 
MAE 
y
 yˆ i
i
i
n
  (actual  output)
2
recordsoutputnodes
Alper VAHAPLAR
10
5
Diğer ölçümler:
Root Mean-Squared Error (RMSE) = MSE
S PA
Correlation Coefficient = S S
P
S PA
 ( p  p)(a  a )

i
i
i
n 1
Sp
A
 ( p  p)

i
i
n 1
2
SA 
 (a  a )
i
2
i
n 1
– Gerçek ve tahmin edilen değerler arasındaki korelasyon.
– 1: Mükemmel korelasyon, 0:Korelasyon yok, -1: Negatif
korelasyon
Alper VAHAPLAR
11
Alper VAHAPLAR
12
6
•
Confusion Matrix – Contingency table
o
Gerçekteki ve tahmin edilen sınıf değerlerinin sayısını gösterir.
Alper VAHAPLAR
•
13
Confusion Matrix
overall error rate 
FN  FP
Total
accuracy rate  1  overall error rate 
Alper VAHAPLAR
TP  TN
Total
14
7
•
Confusion Matrix
o
Misclassification Costs – Yanlış Sınıflandırma Maliyeti
Alper VAHAPLAR
15
Accuracy = (45+38+40)/150=82%
Accuracy = (40 +38 +40)/150=79%
Alper VAHAPLAR
16
8
Accuracy = 82%
Getiri =(123 * $10) – (5 * $5) – (12 * $10) – (10 * $20) = $885
Accuracy =79%
Getiri =(118 * $10) – (22 * $5) – (7 * $10) – (3 * $20) = $940
Misc. Cost
Class A
Class B
Alper VAHAPLAR
Class
C
•
Class B
5$
10$
20$
Class C
5$
10$
10$
17
Lift Charts
lift 
•
Class A
10$
10$
20$
proportion of positive hits in positive classifica tions
proportion of positive hits
Gain Charts
Alper VAHAPLAR
18
9
Download

Sunum