Veri Ambarından Veri Madenciliğine
Yrd. Doç. Dr. Ömer Utku Erzengin1, Uzman Emine Çetin Teke2, İstatistikçi Nurzen Üzümcü3
1
Süleyman Demirel Üniversitesi Fen Edebiyat Fakültesi İstatistik Bölümü
2
Süleyman Demirel Üniversitesi Fen Bilimleri Enstitüsü
3
Süleyman Demirel Üniversitesi Sosyal Bilimler Enstitüsü
İçindekiler
Veri Ambarından Veri Madenciliğine ........................................................................................... 2
1. Eğitim İçeriği: ........................................................................................................................ 2
2. Eğitimi Verecek Eğitmenler .................................................................................................. 3
3. Eğitim Süresi ......................................................................................................................... 4
4. Eğitim Verileceği Zaman ....................................................................................................... 4
5. Eğitim Sırasında Kullanılacak Yazılımlar ve Materyal ............................................................ 4
Veri Ambarından Veri Madenciliğine
1. Eğitim İçeriği:
Isparta’da yapılacak olan 15. Uluslararası Ekonometri, Yöneylem Araştırması ve İstatistik
Sempozyumunda verilecek olan eğitimde SQL Server üzerindeki verilerin veri madenciliği
yazılımlarına nasıl aktarılacağı ve temel birkaç veri madenciliği tekniği anlatılacaktır.
Yönetimde karar destek sistemlerinin (DSS: decision support systems) bir ayağı da veri
madenciliğidir. Müşteri ilişkilerinin yönetimi (CRM: customer relationship management)
doğrudan DSS’ yi etkileyen bir olgudur. Müşterilerin davranış ve tutumlarının ölçülmesi ve
gerekli olan işlemlerin yapılabilmesi için uygun kitlenin seçilmesi gerekmektedir. Bireylerin
davranış ve tutumlarının ölçülmesi bilimin birçok alanına girmektedir. Bireylerin davranış ve
tutumlarının Likert tipi ölçeklerle ölçülerek CRM’ de kullanılır.
CRM’de bireylerin davranış ve tutumlarını ölçmek için kullanılan Likert tipi ölçeklerle toplanan
büyük
miktardaki
bilgi
veritabanlarına
aktarılır.
Toplanan
bilginin
veritabanlarında
kaydedilmesinin biçimiyle verinin veri madenciliği sürecindeki biçimi birbirinden farklı olabilir.
Yapılacak eğitimde Likert tipi ölçeğin istatistiksel teorisi anlatılacak ve veri madenciliği analizi
için veri tabanlarına nasıl kaydedilmesi gerektiğinden bahsedilecektir.
Yapılacak eğitimde eldeki veri tabanı sunucularıyla veri madenciliği yazılımları arasındaki uyum
ve uyumsuzluklar anlatılacaktır. Veri madenciliği uygulaması olarak önceden geliştirilmiş belli
bir ölçek için toplanan verilerin MySQL ve/veya PostgreSQL’den çekilmesi anlatılacaktır.
Veri tabanı sunucuları veriyi kaydederken yöneticiye bağlı veri çeşitli şekillerde kaydedilebilir.
Veritabanının en fazla bilinen yönetim şekilleri:
1) İlişkisel (RDBMS: relational database management system)
2) Hiyeraşik (Hierarchical database management system)
3) Ağ (Network database management system) sistemlerdir.
Ayrıca NoSQL denilen bütün bilginin bir tek veri tabanında tutulması da günümüzde
gerçekleşmeye başlamıştır.
Veri tabanında veri çevrimiçi (on-line) durumdayken veri madenciliği yazılımlarında durağandır
(statik). Orange, Weka, RapidMiner ve Knime GNU tabanlı veri madenciliği yazılımları analizleri
durağan veri üzerinde (veri dosyaları) gerçekleştirir. Veri madenciliği yazılımlarının analiz için
kullandığı dosya türleri birbirinden farklılık gösterebilir. Örneğin WEKA *.arff (AttributeRelation File Format) dosyasını kullanırken Orange *.tab (Tab-Delimited) veri dosyası
kullanmaktadır. Aynı veri iki farklı dosya türünde ayrı biçimlerde (format) kullanılması
gerekmektedir. Bir dosya türü bir platformda (Java, .Net, Phyton) veri tabanı sunucusundan
kolay çekilirken diğer bir platformda aynı dosyayı elde etmek bazı sorunlara yol açmaktadır.
Bu veri madenciliği yazılımlarının kullandığı veri dosyaları SQL sunucuların üzerinden de
çekilebilir. Orange, Weka, RapidMiner ve Knime yazılımlarının geliştirildiği platformlar
birbirlerinden farklıdır. Örneğin WEKA Java üzerinde geliştirilirken, Orange Phyton üzerinde
geliştirilmektedir. Veri madenciliği yazılımlarının geliştirildiği platformlara bağlı olarak veri
tabanı sunucularına ayrı arabirimlerle (IDE,…) bağlanmaktadır. Ayrıca bir yazılım veri tabanı
sunucusuna ODBC üzerinden bağlanmaktayken diğer bir yazılım Java arabirimiyle diğer bir
yazılım ise Phyton altındaki bir uygulamayla bağlanmaktadır.
Veri madenciliği eğitiminde kullanılacak veri Erzengin ve arkadaşları tarafından geliştirilen bir
ölçek aracılığıyla toplanmıştır. Eğitimde kullanılacak olan veriyi oluşturan ölçek, ulusal ve
uluslararası alanda kullanılabilecek Üniversite Öğrencilerine Yönelik Çevresel Davranış ve
Tutum Ölçeği çalışmalarına bağlı bir sürecin parçasıdır. Veri tabanı sunucusunda kullanılan
Tüketici Çevre Bilinç Endeksi verisine bağlı çalışmalar bazı ulusal ve uluslar arası kongrelerde
sunulmuştur.
Yeterli zaman kalacak olursa birkaç veri madenciliği yazılımında aykırı gözlemler, ilişki, makine
öğrenmesinin nasıl yapılacağı anlatılacaktır.
2. Eğitimi Verecek Eğitmenler
Sempozyum yöneticileri tarafından istenirse eğitmenlerin özgeçmişleri ve yaptıkları ulusaluluslar arası makaleleri gönderilebilir.
Yrd. Doç. Dr. Ömer Utku Erzengin temel eğitmendir. Emine Çetin Teke (Eğitim-Öğretim Bilim
Uzmanı) verilerin özelliklerini ve Nurzen Üzümcü (İstatistikçi) veri tabanını anlatacaktır.
Yrd. Doç. Dr. Ömer Utku Erzengin: Veri Tabanı Sunucularından veri çekilmesi, Veri Madenciliği
Yazılımları, Yazılımlardaki teorik bilgiler ve pratik uygulamaları.
E-mail: [email protected], [email protected]
Cep tel: 532 452 82 94,
İş tel: 246 211 4059
Uzman Emine Çetin Teke: Veri tabanlarında kullanılan verinin özellikleri nelerdir. Anket tabanlı
sorgulamayla ölçek nasıl geliştirilir. Ölçek geçerlik ve güvenirlik çalışmaları nelerdir ve veri
madenciliğiyle ilişkisi nedir.
E-mail: [email protected]
Cep tel: 505 883 05 32,
İş tel: 246 211 4253
İstatistikçi Nurzen Üzümcü: Veri tabanı ve veri ambarı
E-mail: [email protected]
Cep tel: 506 265 48 04
3. Eğitim Süresi
Eğitim süresi 1 günden (8 Saat) olacaktır.
Uzman Eğitmen Emine Çetin Teke ve İstatistikçi Nurzen Üzümcü 15. Uluslararası Ekonometri,
Yöneylem Araştırması ve İstatistik Sempozyumunda veri tabanı sunucusu üzerinde kullanılan
veri hakkında detaylı bilgi vereceklerdir.
4. Eğitim Verileceği Zaman
Veri Madenciliği için Veri Ambarı eğitimi Akademik Bilişim Konferansından bir gün önce
verilmesi planlanmaktadır.
5. Eğitim Sırasında Kullanılacak Yazılımlar ve Materyal
Eğitim sırasında GNU felsefesiyle oluşturulmuş MySQL ve PostreSQL yazılımları veri tabanı
sunucusu olarak kullanılacaktır. Veri madenciliği yazılımı olarak da GNU felsefesiyle
oluşturulmuş Orange, Weka, RapidMiner ve KNIME yazılımları kullanılacaktır.
Eğitimde kullanılacak verinin telif hakkı olduğundan dağıtılması söz konusu değildir.
Ücreti karşılanacak olursa katılımcılara sunu çıktıları A4 kâğıda dökümü alınıp dosyalanarak
dağıtılacaktır.Şu anda hazırlanmış 150 sayfalık sunum hazırdır.
EĞİTİM ÜCRETİ KİŞİBAŞI 150 TL'dir.
Eğitim Ücretinin Yatırılacağı Banka Hesabı
Banka Adı: TC Ziraat Bankası
Şube: Isparta Merkez Şube
Şube Kodu: 132
Hesap No: 448078965395
IBAN: TR350001000132448078965395
Alıcı Adı: SDÜ
Alıcı Soyadı: Strateji Geliştirme Daire Başkanlığı
Download

Eğitim Programının Detayları İçin Tıklayınız.