Veri Madenciliği
Giriş
Yrd. Doç. Dr. Nilgün GÜLER BAYAZIT
1
Gereksinimler buluşların kaynağıdır
Veri Patlaması
Son yıllarda ölçüm cihazlarının artmasına paralel olarak veri sayısı ve
türleri artmaktadır. Veri toplama araçları ve veri tabanı teknolojilerindeki
gelişmeler, bilgi depolarında çok miktarda bilginin depolanmasını ve
çözümlenmesini gerektirmektedir.
Veri içinde boğulmaktayız ama bilgi açlığı içindeyiz!
Çözüm: Veri ambarları ve Veri madenciliği
Data warehousing ve on-line analytical processing
Büyük veri tabanlardaki veri içinden ilgi çekici bilgi aranması (rules,
regularities, patterns, constraints)
2
Niçin Veri Madenciliği?
Hızla artan veri kayıtları (GB/saat).
Otomatik istasyonlar,
Uydu ve uzaktan algılama sistemleri,
Teleskopla uzay taramaları,
Gen teknolojisindeki gelişmeler,
Bilimsel hesaplamalar, benzetimler, modeller
Geleneksel eski tekniklerin ham verileri işlemede yetersiz
kalması.
Veri madenciliği bilim insanlarına yardım eder.
Veri sınıflandırması ve gruplandırılması,
Hipotezler oluşturma ve karar verme,
3
Çok fazla verinin depolanması
(veri ambarı=warehouse)
Web veri, e-ticaret,
Büyük marketler, holdingler, …
Bankalar, kredi kartları,
Etkin ve ucuz bilgisayarların hızla gelişimi,
Rekabet ve gücün önem arz etmesi,
Asgari maliyetle azami kalitede müşteri hizmetleri,
Müşteri memnuniyeti,
4
Veri Madenciliği Nedir?
Veri Madenciliği (veriden bilgi keşfi)
(knowledge discovery from data-KDD)
Bulunan bilgi gizli, önemli, önceden bilinmeyen ve yararlı
olmalıdır
Alternatif isimler
Büyük veri kaynaklarından yararlı ve ilginç bilgiyi bulmak
Knowledge discovery (mining) in databases (KDD), knowledge
extraction, data/pattern analysis, data archeology, data
dredging, information harvesting, business intelligence, etc.
Uyarı: Sorgulama(Query), Uzman sistemler ya da basit
istatistik yöntemler veri madenciliği değildir.
5
Veri Madenciliği Nedir? (2)
Teoride veri madenciliği bilgi keşfi işleminin
aşamalarından biridir.
Pratikte veri madenciliği ve bilgi keşfi eş anlamlı
olarak kullanılır.
Veri madenciliği teknikleri veriyi belli bir modele
uydurur.
veri içindeki örüntüleri bulur
örüntü: veri içindeki herhangi bir yapı
6
Data Mining: A KDD Process
Veri madenciliği:
Bilgi keşfinin
temel taşı
Model Değerlendirme
Veri Madenciliği
Kullanım amaçlı Veri
Veri Ambarı
Seçim
Ver Temizleme
Veri Bütünleştirme
Databases
7
Veri Nedir?
Sayılar, metinler, sesler, görüntülerdir,
Rasat parkında kayıt cihazında depolananlardır,
Otomasyonda öğrenci kayıtlarıdır,
Karar vermeye yarayan soyut simge dizileridir,
….
8
Veritabanı Nedir?
Birbiriyle ilişkili verilerin toplanması,
depolanmasıdır,
Belli bir amaç için verilerin toplanması ve
tasarımıdır,
Sistematik erişim imkanı olan, yönetilebilir,
güncellenebilir, taşınabilir, birbirleri arasında
tanımlı ilişkiler bulunabilen verilerdir,
….
Veritabanının büyüklüğü ve
karmaşıklığı değişebilir,
9
Bilgi Nedir?
Öğrenerek, deneyerek, araştırarak elde edilen her
türlü sonuçlardır,
Önceden belirlenen bir dizi sistematik kural ve işleyişe
uygun bir biçimde elde edilen verilerdir,
Sosyal varlık olan insanlar arasındaki iletişim sırasında
paylaşılan, aktarılan ve yeniden şekillendirilen
tecrübelerdir,
Belirli bir durum, sorun, ilişki, teori veya kurala ait
verilerdir,
Đçinde yaşadığımız dünyayı ve olayları yorumlamak ve
yönetmek için uyguladığımız bir dizi anlayış, kavrayış
ve genellemeler ile bize güçlü bir kavrayış ve bakış
açısı kazandıran her türlü zihni faaliyettir,
Sosyal olaylarda karşımıza çıkan eylem ve olayları
anlamamıza yardım eden işaret ve kodlamalardır,
10
Bilgi Nedir?
Kurumlar terabyte büyüklüğünde veri depolarına sahiptirler
Bunların çok azını amaçlarına uygun çözümleyebiliyorlar
??? Verilerimizin ne kadarını bilgiye dönüştürebiliyoruz ???
Toplam Bilgi deposu TB
4.000.000
3.500.000
Đncelenecek veri
aralığı
3.000.000
2.500.000
2.000.000
1.500.000
1.000.000
500.000
199
nd
ı
l
ı
5y
d
n
e
r
ba
i
t
i
an
n
a
l
o
ep
ri
e
v
an
Çözümlenen veri
değişimi
0
1995
1996
1997
1998
Kaynak: R. Grossman, C. Kamath, V. Kumar, “Data Mining for Scientific and Engineering Applications”
1999
11
Data Mining: A KDD Process
Veri madenciliği:
Bilgi keşfinin
temel taşı
Model Değerlendirme
Veri Madenciliği
Kullanım amaçlı Veri
Veri Ambarı
Seçim
Ver Temizleme
Veri Bütünleştirme
Databases
12
Bilgi Keşfinin Aşamaları
Uygulama alanını inceleme
Amaca uygun veri kümesi oluşturma: Veri
seçme
Veri ayıklama ve önişleme (Đşlemin %60’lık
kısmı)
Veri azaltma ve veri dönüşümü
incelemede gerekli boyutları (özellikleri) seçme,
boyutlar arası ilişkiyi belirleme, boyut azaltma,
Veri madenciliği tekniği seçme
Konuyla ilgili bilgi ve uygulama amaçları
Sınıflandırma, eğri uydurma, bağıntı kuralları,
demetleme
Veri madenciliği algoritmasını seçme
Model değerlendirme ve bilgi sunumu
Bulunan bilginin yorumlanması
Bulunan bilginin kullanılması
13
Veritabanı vs.Veri Madenciliği
Sorgulama
Tam tanımlı değil
yaygın sorgulama dili yok
Canlı veri
Belirli
verinin bir alt kümesi
Sorgulama
Veri
Çıkış
Tanımlı
SQL
Veri
Üzerinde işlem yapılmayan
veri
Çıkış
Belirli değil
verinin bir alt kümesi
14
Sorgulama Örnekleri
Veritabanı uygulaması:
Soyadı Gündüz olan kredi kartı sahiplerini bul.
Bir ayda 2000 YTL’den fazla harcama yapan kredi
kartı sahiplerini bul.
DVD satın alan tüm müşterileri bul.
Veri madenciliği uygulaması
Riski az olan tüm kredi kartı başvurularını bul
(sınıflandırma)
Harcama alışkanlığı benzer olan kredi kartı sahiplerini
bul (kümeleme)
DVD birlikte sıkça satın alınan ürünü bul (ilişkilendirme
kuralları)
15
Bilgi Keşfi Örnek: web kayıtları
web sitesinin yapısını inceleme
verileri seçme: tarih aralığını belirleme
veri ayıklama, önişleme: gereksiz kayıtları silme
veri azaltma, veri dönüşümü: kullanıcı oturumları
belirleme
veri madenciliği tekniği seçme: kümeleme
veri madenciliği algoritması seçme: k-ortalama,
EM, DBSCAN...
Model değerlendirme/yorumlama: değişik
kullanıcı grupları için sıkça izlenen yolu bulma
Uygulama alanları: öneri modelleri,
kişiselleştirme, ön belleğe alma
16
Veri madenciliği ve Đş Zekası
Increasing potential
to support
business decisions
Making
Decisions
Data Presentation
Visualization Techniques
Data Mining
Information Discovery
End User
Business
Analyst
Data
Analyst
Data Exploration
Statistical Analysis, Querying and Reporting
Data Warehouses / Data Marts
OLAP, MDA
Data Sources
Paper, Files, Information Providers, Database Systems, OLTP
DBA
17
Tipik Veri Madenciliği Sistem Mimarisi
Graphical user interface
Pattern evaluation
Data mining engine
Knowledge-base
Database or data
warehouse server
Data cleaning & data integration
Databases
Filtering
Data
Warehouse
18
Veri madenciliği: Kullanılan Veri Türleri
Relational database
Data warehouse
Transactional database
Gelişmiş veri tabanları ve bilgi Ambarı
Object-relational database
Spatial and temporal data
Time-series data
Stream data
Multimedia database
Heterogeneous and legacy database
Text databases & WWW
19
Veri Madenciliğinin Uygulama Alanları
Veritabanı analizi ve karar verme desteği
Pazar araştırması
Hedef Pazar, müşteriler arası benzerliklerin
saptanması, sepet analizi, çapraz pazar incelemesi
Risk analizi
Kalite kontrolu, rekabet analizi, öngörü
Sahtekarlıkların saptanması
Diğer Uygulamalar
Belgeler arası benzerlik (haber kümeleri, e-posta)
Sorgulama sonuçları
20
Pazar Araştırması (1)
Veri madenciliği uygulamaları için veri kaynağı
Hedef pazarlar bulma
Benzer özellikler gösteren müşterilerin bulunması:
benzer gelir grupları, ilgi alanları, harcama alışkanlıkları
Müşterilerin davranışlarında zaman içindeki
değişiklik
Kredi kartı hareketleri, üyelik kartları, ucuzluk
kuponları, pazar anketleri
Tek kişilik banka hesabının ortak hesaba
çevrilmesi:evlilik
Çapraz pazar incelemesi:
Ürün satışları arasındaki ilişkiyi bulma
21
Pazar Araştırması (2)
Müşteri profili
Hangi özellikteki müşterilerin hangi ürünleri aldıkları
(kümeleme veya sınıflandırma)
Müşterilerin ihtiyaçlarını belirleme
Farklı müşterilerin o anki ilgisine yönelik ürünü bulma
Yeni müşterileri hangi faktörlerin etkilediğini bulma
22
Sahtekarlık Đncelemesi
Sigorta, bankacılık,telekominikasyon alanlarında
Geçmiş veri kullanılarak sahtekarlıkyapanlar için bir
model oluşturma ve benzer davranış gösterenleri
belirleme
Örnek:
Araba sigortası
Sağlık Sigortası
Kredi kartı başvurusu
23
Risk Analizi
Finans planlaması ve bilanço değerlendirmesi
Kaynak planlaması
nakit para akışı incelemesi ve kestirimi
talep incelemesi
zaman serileri incelemesi
kaynakların incelenmesi ve uygun olarak dağıtılması
Rekabet
rakipleri ve pazar eğilimlerini takip etme
müşterileri sınıflara ayırma ve fiyat politikası belirleme
24
Bütün Bulunan Örüntüler Önemli mi?
Verimadenciliği binlerce örüntü yaratabilir.Bunların
hepsi önemli değildir:
Bulunan örüntünün önemli olması için:
Đnsan merkezli, Query tabanlı v.b.
insanlar tarafından kolayca anlaşılabilir
test(sınama) verisi veya yeni veriler üzerinde belli
oranda geçerli
yararlı ve kullanılabilir
yeni
nesnel / öznel Đlginçlik metrikler
nesnel: istatistikve örüntünün yapısına bağlı
örn:destek(support), güven(confidence)
öznel: kullanıcının data üzerindeki inanışına bağlı
örn:yenilik, beklenmediklik
25
Bütün önemli örüntüler Bulunabilirmi?
Bütün önemli örüntülerin bulunması: Bütünlük
Veri Madenciliğinde önemli bütün örüntüler bulunabilir
mi?
Heuristic vs. Ayrıntılı arama
Association vs. classification vs. clustering
Sadece önemli örüntünün aranması: optimizasyon problemi
Veri madenciliği sistemi Sadece önemli örüntüleri bulunabilir mi?
Yaklaşım
Bütün örüntüler bulunduktan sonra önemsiz olanların
ayıklanması
Sadece önemli örüntülerin yaratılması—mining query
optimization
26
Veri Madenciliği: Farklı Disiplinlerin Birleşimi
Veri Tabanı
Teknolojisi
Makina
Öğrenmesi
Algoritmalar
Đstatistik
Veri
Madenciliği
Görselleştirme
Teknikleri
Diğer
Disiplinler
27
Veri Madenciliği Algoritmaları
amaç: veriyi belli bir modele uydurmak
tanımlayıcı
En iyi müşterilerim kimler?
Hangi ürünler birlikte satılıyor?
Hangi müşteri gruplarının alışveriş alışkanlıkları
benzer?
kestirime dayalı
Kredi başvuralarını risk gruplarına ayırma
Şirketle çalışmayı bırakacak müşterileri öngörme
Borsa tahmini
seçim: veriye uyan en iyi modeli seçmek için kullanılan
kriter
arama: veri üzerinde arama yapmak için kullanılan
teknik
28
Veri Madenciliği Modelleri
29
Veri Madenciliği Đşlevleri
Sınıflandırma: Veriyi önceden belirlenmiş
sınıflardan birine dahil eder.
Eğiticili öğrenme
Örüntü tanıma
Kestirim
Eğri uydurma: Veriyi gerçel değerli bir
fonksiyona dönüştürür.
Zaman serileri inceleme: Zaman içinde değişen
verinin değerini öngörür.
30
Veri Madenciliği Đşlevleri
Kümeleme: Benzer verileri aynı grupta toplama
Özetleme: Veriyi altgruplara ayırır. Her altgrubu
temsil edecek özellikler bulur.
Genelleştirme
Nitelendirme
Đlişkilendirme kuralları
Eğiticisiz öğrenme
Veriler arasındaki ilişkiyi belirler
Sıralı diziler: Veri içinde sıralı örüntüler bulmak
için kullanılır.
31
Örnek Sınıflandırma
32
Sınıflama
al
al
us
c
c
i
i
o
or
or
nu
i
g
g
t
ss
e
e
t
n
t
a
l
c
ca
ca
co
Tid Refund Marital
Status
Taxable
Income Cheat
1
Yes
Single
125K
No
2
No
Married
100K
No
3
No
Single
70K
No
4
Yes
Married
120K
No
5
No
Divorced 95K
Yes
6
No
Married
No
7
Yes
Divorced 220K
No
8
No
Single
85K
Yes
9
No
Married
75K
No
10
No
Single
90K
Yes
60K
Married
MarSt
NO
Single,
Divorced
Refund
No
Yes
NO
TaxInc
< 80K
NO
> 80K
YES
10
33
Örnek:Kümeleme
Doküman Kümeleme:
Amaç:
Yaklaşım:
Döküman içinde geçen terimlere göre aynı konudaki
dokümanları gruplama
Her doküman içinde sık geçen terimleri bul. Bu
terimlerden ve ağırlıklarından yararlanarak bir benzerlik
ölçütü geliştir. Bu ölçüte göre demetleme yap
Kullanımı:
Yeni bir dokümanın hangi dokümanlarla benzer olduğu
terimlere göre arama yapıldığında bu terimleri içeren
dokümanları bulma
34
Örnek:Đlişkilendirme Kuralları
35
Veri Madenciliğinde Temel Sorunlar(1)
Veri madenciliği yöntemi
Farklı tipte veriler üzerinde çalışabilme (örn:web, bio,
stream v.b.)
Farklı seviyelerde kullanıcı ile etkileşim halinde
olabilme
Uygulama ortamı bilgisini kullanabilme
Veri madenciliği ile elde edilen sonucu anlaşılır şekilde
sunabilme
Gürültülü ve eksik veri ile çalışabilme (ve iyi sonuç
verebilme)
Değişen veya eklenen verileri kolayca kullanabilme
Örüntü değerlendirme: önemli örüntüleri bulma
36
Veri Madenciliğinde Temel Sorunlar(2)
Başarım ve ölçeklenebilirlik
Kullanabilirlik ve ölçeklenebilirlik
Zaman karmaşıklığı ve yer karmaşıklığı kabul edilebilir
Örnekleme yapabilme
Paralel ve dağıtık yöntemler
Artımlı veri madenciliği
Parçala ve çöz
37
Veri Madenciliğinde Temel Sorunlar(3)
Kullanıcı Arabirimi
Görüntüleme
Sonucun anlaşılabilir ve yorumlanabilir hale getirilmesi
Bilginin sunulması
Etkileşim
Veri madenciliği ile elde edilen bilginin kullanılması
Veri madenciliği yöntemine müdahele etmek
Veri madenciliği yönteminin sonucuna müdahele
etmek
38
Veri Madenciliğinde Temel Sorunlar(4)
Gizlilik ve sosyal haklar
Kişilere ait verilerin toplanarak, kişilerden habersiz ve
izinsiz olarak kullanılması
Veri madenciliği yöntemleri ile bulunan sonuçların
izinsiz olarak açıklanması (/paylaşılması)
Gizlilik ve veri madenciliği politikalarının düzenlenmesi
39
Uyarı
Veri madenciliği yöntemleri bilinçsiz olarak
kullanılmamalı
Veri madenciliği yöntemleri geçmiş olaylara bakarak
örüntüler bulur: Gelecekteki olaylar geçmiştekilerle aynı
değildir
Đlişkiler her zaman nedenleri açıklamaz
David Heckerman’ın verdiği örnek (1997)
hamburger, hot-dog, barbecue sauce
40
41
A Brief History of Data Mining Society
1989 IJCAI Workshop on Knowledge Discovery in Databases (PiatetskyShapiro)
Knowledge Discovery in Databases (G. Piatetsky-Shapiro and W. Frawley, 1991)
1991-1994 Workshops on Knowledge Discovery in Databases
Advances in Knowledge Discovery and Data Mining (U. Fayyad, G. Piatetsky-Shapiro, P. Smyth,
and R. Uthurusamy, 1996)
1995-1998 International Conferences on Knowledge Discovery in Databases
and Data Mining (KDD’95-98)
Journal of Data Mining and Knowledge Discovery (1997)
1998 ACM SIGKDD, SIGKDD’1999-2001 conferences, and SIGKDD
Explorations
More conferences on data mining
PAKDD (1997), PKDD (1997), SIAM-Data Mining (2001), (IEEE) ICDM (2001), etc.
42
Recommended Reference Books
R. Agrawal, J. Han, and H. Mannila, Readings in Data Mining: A Database Perspective, Morgan
Kaufmann (in preparation)
U. M. Fayyad, G. Piatetsky-Shapiro, P. Smyth, and R. Uthurusamy. Advances in Knowledge Discovery
and Data Mining. AAAI/MIT Press, 1996
U. Fayyad, G. Grinstein, and A. Wierse, Information Visualization in Data Mining and Knowledge
Discovery, Morgan Kaufmann, 2001
J. Han and M. Kamber. Data Mining: Concepts and Techniques. Morgan Kaufmann, 2001
D. J. Hand, H. Mannila, and P. Smyth, Principles of Data Mining, MIT Press, 2001
T. Hastie, R. Tibshirani, and J. Friedman, The Elements of Statistical Learning: Data Mining,
Inference, and Prediction, Springer-Verlag, 2001
T. M. Mitchell, Machine Learning, McGraw Hill, 1997
G. Piatetsky-Shapiro and W. J. Frawley. Knowledge Discovery in Databases. AAAI/MIT Press, 1991
S. M. Weiss and N. Indurkhya, Predictive Data Mining, Morgan Kaufmann, 1998
I. H. Witten and E. Frank, Data Mining: Practical Machine Learning Tools and Techniques with Java
Implementations, Morgan Kaufmann, 2001
43
Download

Veri Madenciliği Giriş Yrd. Doç. Dr. Nilgün GÜLER BAYAZIT