Veri Madenciliği Proje Çalışması
Ders kapsamında her öğrenciye ayrı ayrı çalışabileceği bir veriseti verilmiştir. Proje
kapsamında aşağıda tanımlı işlemlerin gerçekleştirilmesi beklenmektedir. Verisetleri ile ilgili
bilgiyi http://archive.ics.uci.edu/ml/ adresinde bulabilirsiniz.
WEKA veya farklı bir program ile veri setine uygun bir şekilde aşağıdaki çalışmalar
yapılabilir.
a-Veri Analizi: Veri setinin içeriği, kullanılan özelliklerin anlamı, sınıf sayısı ve
isimleri, her sınıfa düşen örnek sayısı gibi bilgilerin çıkarılması gerekir. Veriseti içindeki
özelliklerin sınıflamada ki ayırt ediciliklerine göre sıralanması ve eksik veri varsa giderilmesi
yöntemlerinin araştırılması beklenmektedir.
b-Sınıflama: Weka içinde yer alan sınıflama yöntemlerinden en başarılı olanların
araştırılması ve 3 tanesinin seçilerek detaylı incelenmesi, sınıflama başarımlarının ve sınıf
karışıklık matrislerinin karşılaştırılması gerekmektedir.
c-Kümeleme: Weka içinde yer alan kümeleme yöntemlerinden en başarılı olanların
araştırılması ve 3 tanesinin seçilerek detaylı incelenmesi beklenmektedir. Kümeleme sonunda
değerlendirme aşamasında örneklerin sınıf etiketlerinin kullanılarak çıkan kümelerin
etiketlenmesi ve kümeleme başarılarının karşılaştırılması gerekmektedir.
Değerlendirme:
Proje kapsamında bir rapor hazırlanarak 26 Aralık 2014 gününe kadar teslim edilmelidir.
Proje raporuna öğrencino_adısoyadı_proje.docx şeklinde isim verilerek [email protected]
adresine gönderilmelidir.
Proje raporu Veri Setinin tanıtımı, kullanılan yöntemler hakkında kısa bilgiler, sonuçların
grafiksel olarak verilmesi, sonuçların karşılaştırılması ve yorumlanması gibi başlıklardan
oluşmalıdır.
Veri Setleri
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 90.502.036 90.502.046 90.502.062 100.502.005 100.502.007 100.502.011 100.502.021 100.502.022 100.502.028 100.502.038 100.502.046 100.502.052 100.502.053 100.502.062 110.502.007 110.502.009 110.502.010 110.502.011 110.502.015 110.502.016 110.502.022 110.502.023 110.502.024 110.502.027 110.502.029 110.502.031 27 28 29 30 31 32 110.502.037 110.502.039 110.502.045 110.502.047 110.502.048 120502024 33 YU1105.02001 34 35 EZGİ USTA BURAK KAYA ZEYNEP HAN ABDULLAH ÖZCAN MERYEM ÇAKIR YAHYA KOLO SEÇKİN OZAN UYAN OSMAN AKMAN MUSTAFA KAYILI ONUR CENK AKKAYA CANAN ŞİRİNOĞLU HASAN TURALIOĞLU GİZEM ÖZCAN ERTAN KANTER DİLARA ÖZSOY GİZEM DOĞAN MİRAÇ KAMER MUTLU ECEM NUR BİLİK MERVE AKIN İBRAHİM KATI CENGİZ KARA CEVAT DİLER ALİCAN YILMAZ BAHAR BANDAK DİLARA YILDIZ ENES EMRE ONAN NOYAN KÜÇÜKGÜLTEKİN UMUT TUGAY KILIÇ SACİD ERYILMAZ GÖRKEM PAKEL DOĞAN ALTUN ONUR KUZU YAZAN IHAB SHARAF TAMEMI BURAK OZGUR NURİ BURAK ÇEKİRDEKÇİ Abalone Artificial Characters Breast Cancer Breast cancer winconsin(orginal) Car Evaluation Dataset Chess (King-­‐Rook vs. King) Dataset Chess (King-­‐Rook vs. King-­‐Pawn) Dataset CMU Face Image Dataset Congressional Voting Records Dataset Connectionist Bench (Vowel Recognition -­‐ Deterding Data) Data Set Contraceptive Method Choice Dermatology Dexter Data Set Echocardiogram Echoli Dataset Flags Forest Fire Glass Identification Haberman's Survival Hayes-­‐Roth Data Set Heart Disease Hepatitis Horse Colic Dataset Image Segmentation Data Set Letter Recognition Dataset Liver Disorders Dataset Lung Cancer Data Set Magic Gamma Telescope Data Set Mammographic Mass MONK’s Problem Mushroom Thyroid Dataset Yeast Internet Advertisements Leaf 
Download

BIL459_VeriMadenciliği_Pro