 Database, data warehouse, OLAP
 Data mining process, CRISP-DM
 Data mining process, data preparation (veri hazırlama)
 Unsupervised learning (Denetimsiz öğrenme)
Clustering, hierarchical clustering (Kümeleme)
 k-means, density based clustering
 Supervised learning (Denetimli Öğrenme)
 classification methods (Sınıflandırma)
 k-nearest neighbor method
 Decision tree algorithms, CART, C4,5, CHAID, QUEST
 Neural networks (Yapay Sinir Ağları)
 Association rules (Birliktelik Kuralları)
 Model evaluation (Model geçerliliği)
Proje Sunumları
Alper VAHAPLAR
Veri Madenciliğine Giriş
2
1
Knowledge Discovery
Motivation
Alper VAHAPLAR
•
Veri Madenciliğine Giriş
3
"We are drowning in information, but starved for
knowledge." (John Naisbitt)
•
Çok fazla veri…
NASA Yeryüzü Gözlem Uyduları her gün 1 Tbyte (109 bytes) veri
o
gönderiyor…
•
o
Web data, e-commerce
o
Market, hastane, ulaşım, turizm, vs…
o
Banka, kredi kartı, vergiler, alım-satım…
Gelişen Teknoloji…
o
Bilgisayarlar ve veri saklama birimleri
• Daha ucuz,
• Daha yüksek kapasiteli, daha hızlı
Alper VAHAPLAR
Veri Madenciliğine Giriş
4
2
 2014
 2008…
 1993…
 Core i7 4770 3.4
 Core2 Duo 2.4 GHz
 80386 DX 40







GHz
16 GByte RAM
1 TByte Hard Disk
20’’ LED Monitor
NVIDIA GeForce
GTX 645
Wireless Modem
Blu-Ray Disc
Windows 8 or Mac
OS X Lion
 1 GByte RAM
 320 GByte Hard Disk

 19 ‘‘ TFT Monitor

 512 Mbyte Display
Adapter
 Wireless Modem
 DVD-RW
 Windows Vista or XP





Alper VAHAPLAR
MHz
512 KByte RAM
100 MByte Hard
Disk
14 ‘‘ CRT Monitor
32 KByte Display
Adapter
56 Kbit/sn Modem
Floppy Disk Driver
MS DOS +
Windows 3.1
Veri Madenciliğine Giriş
5
Bilgi Keşfi
(Knowledge Discovery)
Veri Madenciliği (Data Mining)
Alper VAHAPLAR
Veri Madenciliğine Giriş
6
3
•
Data nedir?
◦ Datum (tekil hali)
◦ Bilginin işlenmemiş hali…
◦ Belirli bir nesneye ait bir özelliğin ölçüm ya da gözlem yoluyla elde
edilen o anki değeri.
◦ a collection of facts from which conclusions may be drawn;
"statistical data”. (üzerinde karar verilebilecek gerçekler topluluğu)
◦ known facts, worth to record. (Kaydetmeye değer bilinen gerçekler)
◦ Ör: göz rengi, fiyat, tarih, kandaki eritrosit miktarı vs.
•
Neden veri gereklidir?
Alper VAHAPLAR
•
Veri Madenciliğine Giriş
7
Information Nedir?
◦ Verinin işlenmiş hali… 
◦ verilerden çıkarılmış anlam ya da yorum
◦ Üzerinde karar verilebilecek gerçekler topluluğu
◦ Statistically analysed data.
◦ Ör: eritrositin artışının gözlemlenmesi, aylık satış ortalamaları
Alper VAHAPLAR
Veri Madenciliğine Giriş
8
4
•
•
•
•
•
Accurate and Reliable (Tam/kesin ve Güvenilir)
Relevant and Timely (İlişkili ve Zamanında)
Understandable and Transferable (Anlaşılabilir ve Dönüştürülebilir)
“Expensive” to collect (Elde etmesi maliyetli, güç)
Provide power and/or advantage (Güç ve avantaj sağlaması)
Alper VAHAPLAR
•
Veri Madenciliğine Giriş
9
«Information»ı tecrübe, yetenek ve eğitim ile birleştirip farklı
yorumlarla daha kullanışlı hale getirme
Data
Information
Knowledge
Alper VAHAPLAR
Veri Madenciliğine Giriş
10
5
•
•
•
Data
o
Gözlemler, sayılar, bir olay ya da nesnenin ilişkilendirilmemiş durumu
o
Ör: Yağmur yağıyor.
Information
o
Kullanışlı hale getirilen veri
o
Bir ilişkinin anlaşılması, sebep ve sonuç tespiti
o
Ör: Sıcaklık 12 derece düştü ve yağmur başladı.
Knowledge
o
Data ve information ın uygulaması; «nasıl» sorusuna cevap arama
o
Ör: Yüksek nem oranı ve ani sıcaklık düşüşü gözlemlenirse %71 olasılıkla yağmur
yağabilir.
Knowledge
Information
Data
Alper VAHAPLAR
•
Information + rules
Data + context
Veri Madenciliğine Giriş
11
Veri madenciliği (Data Mining) büyük hacimli verilerden
«knowledge» çıkarma/bulma işlemidir.
•
•
“Mining” yanlış isimlendirme.
o
Knowledge Mining,
o
Knowledge Extraction,
o
Data Archaeology,
o
Data Dredging,
o
Data Fishing
Data
Data Mining
Knowledge
Knowledge Discovery in Databases (KDD)
Alper VAHAPLAR
Veri Madenciliğine Giriş
12
6
•
Data
Bir marketteki 10 yıllık satışlar
•
Knowledge
Bebek bezi satın alan erkeklerin bira da satın alması.
Bebek bezi reyonunun yanına bira
ve fıstık yerleştirme
Fıstık satışlarında %27
artış
Alper VAHAPLAR
Veri Madenciliğine Giriş
13
Alper VAHAPLAR
Veri Madenciliğine Giriş
14
7

Knowledge Discovery is the non-trivial extraction of valid,
novel, previously unknown and potentially useful
knowledge from large databases.
 Bilgi Keşfi, büyük veri tabanlarından anlamlı, geçerli,
alışılmışın dışında, önceden bilinemeyen ve potansiyel
olarak kullanışlı bilginin çıkarılması.
 Data mining is an interdisciplinary field bringing together
techniques from machine learning, pattern recognition, statistics,
databases, and visualization to address the issue of information
extraction from large databases.
Alper VAHAPLAR
•
•
•
•
•
•
Veri Madenciliğine Giriş
Database Systems, Data Warehouse and OLAP
İstatistik
Machine Learning / AI
Visualization
Information science
High Performance Computing
15
Statistics/
AI
Machine Learning/
Pattern
Recognition
Data Mining
Database
systems
•
Diğer:
o
Neural Networks, Mathematical Modeling, Information Retrieval, Natural Language
Processing ...
Alper VAHAPLAR
Veri Madenciliğine Giriş
16
8
Entegrasyon
Değerlendirme
__ __ __
__ __ __
__ __ __
Veri
Ambarı
Alper VAHAPLAR
Hedef
Data
Desenler
Ve
Kurallar
Organize
Data
Veri Madenciliğine Giriş
17
Integration
Evaluation
Alper VAHAPLAR
__ __ __
__ __ __
__ __ __
Target
Data
Organized
Data
Veri Madenciliğine Giriş
Patterns
&
Rules
Information
Understanding
Raw
Data
Data
Warehouse
Özümseme
Ham
Veri
Information
18
9
Graphical user interface
Pattern evaluation
Knowledge
Base
Data mining engine
Data Warehouse
Data Preprocessing
Database
Data
Mart
Alper VAHAPLAR
•
•
•
•
•
•
Web
Pages
Files
Veri Madenciliğine Giriş
…
19
Pazarlama
Bankacılık, Finans ve Sigortacılık
Telekomünikasyon
Sağlık, İlaç Endüstrisi, Biyoinformatik
Sapan değer ve Hile tespiti
Bilim ve Mühendislik
o
Astronomi,
o
Endüstri,
o
Kimya,
o
Spor,
o
Bilgisayar Ağları
o
…
Alper VAHAPLAR
Veri Madenciliğine Giriş
20
10
•
5A by SPSS
o
•
SEMMA by SAS
o
•
Assess, Access, Analyze, Act and Automate
Sample, Explore, Modify, Model, Assess
CRISP-DM by DaimlerChrysler, SPSS (IBM), NCR (1996)
o
Cross Industry Standard Process for Data Mining
Alper VAHAPLAR
Veri Madenciliğine Giriş
Business
Understanding
Deployment
21
Data
Understanding
DATA
Data
Preparation
Modeling
Evaluation
Alper VAHAPLAR
Veri Madenciliğine Giriş
CRISP-DM Life Cycle
22
11
1. Business understanding (İşi Anlama)
•
•
•
Proje hedefleri ve gereksinim analizi
Veri madenciliği problem tanımı
Bu hedefler için strateji belirleme
2. Data understanding (Veriyi Anlama)
•
•
•
Başlangıç verisi toplama
Açıklayıcı veri analizi (Exploratory data analysis)
Veri kalitesi problemlerinin belirlenmesi
Alper VAHAPLAR
Veri Madenciliğine Giriş
23
3. Data preparation (Veri Hazırlama)
•
•
•
•
•
Son veri setini hazırlama
Analiz edilecek kayıt ve değişkenlerin seçimi
Belirli değişkenlerin dönüşümü
Ham verinin temizlenmesi
Clean the raw data
4. Modeling (Modelleme)
•
•
•
•
Uygun modellerin seçimi ve uygulanması
Sonuçları inceleyerek model parametrelerinin düzenlenmesi
Aynı problem için farklı modellerin denenmesi
Gerek görülürse veri hazırlama evresine dönüş
Alper VAHAPLAR
Veri Madenciliğine Giriş
24
12
5. Evaluation (Değerlendirme)
•
•
•
Modelleri kalite ve doğruluk açısından ölçme
Modelin hedefleri yakalayıp yakalamadığı
Doğru modele karar verme
6. Deployment (Konuşlanma)
•
Seçilen modellerin gerçek hayatta uygulanması
Alper VAHAPLAR
•
•
•
•
•
•
Veri Madenciliğine Giriş
25
Description (Tanımlama)
Clustering (Kümeleme)
Estimation (Tahminleme)
Prediction (Kestirim)
Classification (Sınıflandırma)
Association (Birliktelik)
Alper VAHAPLAR
Veri Madenciliğine Giriş
26
13
Data Mining
Giriş
Data, Database, Data Warehouse, OLAP, etc.
Alper VAHAPLAR
•
•
•
•
•
•
Veri Madenciliğine Giriş
27
Taşlar,
Mağara Duvarları
Hayvan Derileri
Papyrus Yaprağı
Kağıt (Paper)
Bilgisayar
o
Düz Dosyalar, Sıradan erişim, rasgele erişim
o
Biçimli dosyalar (Excel, Minitab,…)
o
Veri tabanları
o
Data Marts, Data Warehouses
Alper VAHAPLAR
Veri Madenciliğine Giriş
28
14
•
1960’lar:
Veri toplulukları, ilkel dosya işleme
•
1970’ler:
İlişkisel veri modeli, Veritabanı Yönetim Sistemleri (DBMS)
•
1980’ler:
Gelişmiş veri modelleri (extended-relational, OO, deductive, etc.)
Uygulama tabanlı DBMS (spatial, scientific, engineering, etc.)
•
1990’lar:
Veri ambarları, veri madenciliği, multimedia databases, web databases
•
2000’ler
Stream data management
Data mining uygulamaları
Web technology (XML, data integration) küresel bilgi sistemleri
Alper VAHAPLAR
•
•
Veri Madenciliğine Giriş
29
İlgilendiğimiz nesne evreni (universe of objects)
o
Dünyadaki tüm insanlar,
o
Türkiye'deki hastanelerdeki tün hastalar,
o
İngilteredeki tüm köpekler,
o
Internetteki tüm web sayfaları
Nesne evreni normalde çok büyüktür ve sadece küçük bir kısmına
ulaşabiliriz.
•
Eldeki verilerden yola çıkarak görmediğimiz verilerle ilgili bilgi
edinmek isteriz.
Alper VAHAPLAR
Veri Madenciliğine Giriş
30
15
•
•
İlgilendiğimiz nesne evreni (universe of objects)
Her nesne belirli sayıda değişkenle (variables/attributes)
tanımlanır.
•
o
Her değişken o nesnenin bir özelliğinin değerini ifade eder,
o
Nesneden nesneye ya da zaman içinde değişebilir
o
Ör: Göz rengi, yaş, sıcaklık, çocuk sayısı, vs.
Her bir nesneyi temsil eden değişkenler kümesine kayıt (record) ya
da örnek (instance) adı verilir.
•
Uygulama için kullanılacak kayıtlar kümesine veri seti (dataset)
denir.
o
Tablolar şeklide ifade edilir (satırlarda kayıtlar, sütunlarda değişkenler)
Alper VAHAPLAR
•
31
Veri Madenciliğine Giriş
32
Kategorik (Categorical)
o
•
Veri Madenciliğine Giriş
Nitel (Qualitative )
Nümerik
o
Nicel (Quantitative)
Alper VAHAPLAR
16
•
•
Nominal (Sınıflayıcı) değişken
o
Nesneleri kategorilere ayıran değişken
o
Ör: Renk, TC Kimlik No, cinsiyet
Ordinal (Sıralayıcı) değişken
o
Nominal değişkenle aynı özelliklerde ancak kategorilerin belirli bir
düzene göre sıralanabildiği değişken
o
Ör: Beden (small, medium, large, x-large), sınıf, .
Alper VAHAPLAR
•
Veri Madenciliğine Giriş
33
Interval Scaled (Aralıklı) değişken
o
Belirli bir başlangıç noktasından eşit aralıklarla nümerik değerler alan
değişken
•
o
Ölçüm birimini sahip
o
Sıfır (ya da başlangıç noktası) yokluk belirtmez
o
İki değer arasındaki fark (interval) anlamlı.
o
Ör: Sıcaklık (Celcius), saat (00:00)
Ratio Scaled (Oransal) değişken
o
Aralıklı ölçek ile benzer
o
Sıfır yokluk ifade eder.
o
Ex: Moleküler ağırlık, gelir (TL), çocuk sayısı(adet).
o
İki değer arasındaki oran (ratio) anlamlı.
Alper VAHAPLAR
Veri Madenciliğine Giriş
34
17
Numeric
(Quantitative)
Categorical
(Qualiatative)
Attribute Type
Nominal
Ordinal
Interval
Description
Examples
The values of a nominal attribute are
just different names, i.e., nominal
attributes provide only enough
information to distinguish one object
from another. (=, )
zip codes, employee ID
numbers, eye color, sex:
{male, female}
mode, entropy,
contingency
correlation, 2 test
The values of an ordinal attribute
provide enough information to order
objects. (<, >)
hardness of minerals,
{good, better, best},
grades, street numbers
median, percentiles,
rank correlation, run
tests, sign tests
For interval attributes, the differences
between values are meaningful, i.e., a
unit of measurement exists.
(+, - )
calendar dates,
temperature in Celsius
or Fahrenheit
mean, standard
deviation, Pearson's
correlation, t and F
tests
For ratio variables, both differences
and ratios are meaningful. (*, /)
temperature in Kelvin,
monetary quantities,
counts, age, mass,
length, electrical current
geometric mean,
harmonic mean,
percent variation
Ratio
Alper VAHAPLAR
•
•
•
•
•
•
•
•
Operations
Veri Madenciliğine Giriş
35
Relational Databases (İlişkisel Veritabanları)
Data Warehouses (Veri Ambarları)
Transactional Databases (İşlemsel Veritabanları)
Object Oriented Databases (Nesne Tabanlı Veritabanları)
Spatial Databases (Uzaysal Veritabanları)
Time Series Databases (Zaman Serisi Veritabanları)
Text and Multimedia Databases (Metin ve Multimedia verileri)
World Wide Web
Alper VAHAPLAR
Veri Madenciliğine Giriş
36
18
•
•
•
İlişkisel veritabanı
o
Satırlarında kayıtlar olan
o
Sütunlarında o kayıta ait özelliklerin değerlerinin tutulduğu
o
Birbirleriyle ilişkili
Tablolar bütünüdür.
Tablodaki her satır bir anahtar ile ifade edilen bir nesneyi temsil
eder.
•
•
Verilere SQL sorgularıyla ulaşılabilir.
Bazı işlemler: Seçme (Selection), Birleştirme (Join)
Alper VAHAPLAR
•
•
Veri Madenciliğine Giriş
37
Farklı veri kaynaklarından elde edilen ve belirli bir düzende
saklanan veri deposudur.
Yönetime karar verme sürecinde yardımcı olacak konu merkezli,
birleşik, zaman değişimli veri topluluğudur.
Alper VAHAPLAR
Veri Madenciliğine Giriş
38
19
•
•
On Line Analytical Processing
Kullanıcının veriyi farklı açılardan görmesini sağlayan bilgisayar
süreçleri
•
Geleneksel sorgu ve raporlama araçları veritabanında ne olduğunu
tanımlar
•
•
•
OLAP ile neden olduğu araştırılır.
Kullanıcının oluşturduğu hipotezin doğruluğu araştırılır.
OLAP işlemleri
o
Drill Down
o
Roll Up
Alper VAHAPLAR
Veri Madenciliğine Giriş
39
Alper VAHAPLAR
Veri Madenciliğine Giriş
40
20
•
OLAP ile öne sürülen hipotezlerin sorgular yolu ile doğrulanması ya
da çürütülmesi gerçekleştirilir.
•
OLAP analizi tümdengelim sürecidir (deductive process).
•
Data mining hipotezleri doğrulamak yerine verinin içinde
bulunabilecek hipotezleri araştırır.
•
Bu yüzden tümevarım sürecidir (inductive process).
Alper VAHAPLAR
Veri Madenciliğine Giriş
41
Alper VAHAPLAR
Veri Madenciliğine Giriş
42
21
Download

Sunum