UNIVERZITA MATEJA BELA V BANSKEJ BYSTRICI
EKONOMICKÁ FAKULTA
VOĽNE DOSTUPNÉ NÁSTROJE PRE DATA MINING
BAKALÁRSKA PRÁCA
ac237019-eca3-4791-8da1-e9ad842ecb99
2011
Michaela Krkošová
UNIVERZITA MATEJA BELA V BANSKEJ BYSTRICI
EKONOMICKÁ FAKULTA
VOĽNE DOSTUPNÉ NÁSTROJE PRE DATA MINING
Bakalárska práca
ac237019-eca3-4791-8da1-e9ad842ecb99
Študijný program: Financie, bankovníctvo a investovanie
Študijný odbor : 3.3.6. - financie, bankovníctvo a investovanie
Pracovisko (katedra/ústav): Katedra financií a účtovníctva
Vedúci bakalárskej práce: Doc. RNDr. Juraj Pančík
Stupeň kvalifikácie: bakalár (v skratke „Bc.“)
Dátum odovzdania práce: 3. jún 2011
Dátum obhajoby: .........
V Banskej Bystrici 2011
Michaela Krkošová
ČESTNÉ VYHLÁSENIE
Prehlasujem, že som bakalársku prácu „Voľne dostupné nástroje pre data mining“
vypracovala samostatne, pod odborným vedením Doc. RNDr. Juraja Pančíka, CSc. a
s použitím uvedenej literatúry.
V Banskej Bystrici, dňa 30. mája 2011
Michaela Krkošová
POĎAKOVANIE
Ďakujem doc. RNDr. Jurajovi Pančíkovi, CSc. za pomoc, odborné vedenie, rady
a pripomienky pri vypracovaní mojej bakalárskej práce.
ABSTRAKT
KRKOŠOVÁ, Michaela : Voľne dostupné nástroje pre data mining [Bakalárska práca]. –
Univerzita Mateja Bela, Ekonomická fakulta, Katedra financií a účtovníctva. – Vedúci
bakalárskej práce: Doc. RNDr. Juraj Pančík, PhD., stupeň odbornej kvalifikácie: bakalár. –
Banská Bystrica 2011, 45 strán
Predkladaná bakalárska práca sa snaží vymedziť pojem data mining a popísať jeho
využitie vo verejnom sektore a verejných financiách. Tiež sa snaží poukázať na možnosti a
význam voľne dostupných softvérových nástrojov pre riešenie úloh dataminingu a pre
hĺbkovú analýzu údajov.
Bakalárska práca má teoreticko-empirický charakter a je rozdelená na tri časti.
Prvá kapitola má 5 podkapitol. Hlavnou úlohou prvej kapitoly je oboznámiť čitateľa so
základnými pojmi súvisiacimi s data miningom, jeho históriou, metodikou, využitím
a technikami.
Druhá kapitola má 2 podkapitoly, v ktorých sa na rôznych príkladoch snaží priblížiť
možnosti využitia techník data miningu vo verejnom sektore a verejných financiách.
V praktickej časti zloženej z 2 podkapitol je naším cieľom na skúšobnom datasete
prakticky poukázať na rôzne možnosti využitia voľne dostupného nástroja RapidMiner
a vyhodnotiť získané výstupy.
KĽÚČOVÉ SLOVÁ
Data mining. Dataset. Hĺbková analýza dát. CRISP-DM. Verejný sektor. RapidMiner
ABSTRACT
KRKOŠOVÁ, Michaela : Free tools for data mining [Bachelor thesis]. –Matej Bel
University, Faculty of Economics, Department of Finance and Accounting. – Consultant:
Doc. RNDr. Juraj Pančík, PhD., degree: bachelor. – Banská Bystrica 2011, 45 pages
The presented bachelor’s thesis tries to define the concept of data mining and describe its
use in the public sector and public finances. It also tries to highlight the potential and
importance of freely available software tools for solving data mining tasks and data
mining.
Bachelor’s thesis has theoretical and empirical character and it is divided into three parts.
The first chapter has 5 sections. The main task of the first chapter is to inform the reader
with the basic concepts related to data mining, its history, methodology, usage and
techniques.
The second chapter has 2 sections, where it tries to bring near the possibility of using data
mining techniques in the public sector and public finances on various examples.
In the practical part, which has 2 sections, our goal is to show different possibilities of
using freely available tool RapidMiner and evaluate obtained outputs on test dataset.
KEY WORDS
Data mining. Dataset. An in-depth data analysis. CRISP-DM. Public Sector. RapidMiner
OBSAH
Úvod ................................................................................................................................. 9
1
Teoretické vymedzenie pojmu data mining .............................................................. 10
1.1
História s súčasnosť data miningu ..................................................................... 10
1.2
Metodika hĺbkovej analýzy dát .......................................................................... 12
1.2.1
Porozumenie problematike (Business Understanding) ................................ 14
1.2.2
Pochopenie dát (Data Understanding)......................................................... 14
1.2.3
Príprava dát (Data Preparation) .................................................................. 15
1.2.4
Modelovanie (Modeling) ............................................................................ 16
1.2.5
Vyhodnotenie výsledkov (Evaluation) ........................................................ 17
1.2.6
Využitie výsledkov a ich nasadenie (Deployment)...................................... 17
1.3
Využitie data miningu v praxi ........................................................................... 18
1.4
Úlohy data miningu .......................................................................................... 19
1.4.1
Popis (description) ..................................................................................... 19
1.4.2
Klasifikácia (classification) ........................................................................ 19
1.4.3
Odhad (estimation) ..................................................................................... 20
1.4.4
Predpoveď (prediction) .............................................................................. 20
1.4.5
Zhlukovanie (clustering) ............................................................................ 21
1.4.6
Združovanie (Association) ......................................................................... 21
1.5
2
Techniky data miningu ...................................................................................... 22
1.5.1
Rozhodovacie stromy ................................................................................. 22
1.5.2
Regresia ..................................................................................................... 22
1.5.3
Neurónové siete ......................................................................................... 22
1.5.4
Metóda najbližšieho suseda ........................................................................ 23
1.5.5
Bayesovské klasifikovanie (Naive Bayes) .................................................. 23
Analýza využitia data miningu vo verejnom sektore a vo verejných financiách ........ 24
2.1
Verejný sektor a verejné financie ....................................................................... 24
2.2
3
Možnosti využitia data miningu vo verejnom sektore a verjných financiách ...... 24
2.2.1
Verejné financie - detekcia (odhaľovanie) podvodov .................................. 25
2.2.2
Zdravotníctvo - lekárske diagnostikovanie.................................................. 25
2.2.3
Školstvo – zvyšovanie úrovne vysokých škôl ............................................. 26
2.2.4
Bezpečnosť –odhaľovanie teroristických aktivít ......................................... 26
Voľne dostupný nástroj pre data mining RapidMiner ............................................... 28
3.1
Prostredie RapidMinera a jeho možnosti ........................................................... 28
3.2
Tvorba data mainingového projektu metodológiou CRISP-DM v programe
RapidMiner ................................................................................................................. 30
3.2.1
Porozumenie problematike ......................................................................... 30
3.2.2
Pochopenie dát ........................................................................................... 30
3.2.3
Príprava dát ................................................................................................ 33
3.2.4
Modelovanie .............................................................................................. 33
3.2.5
Vyhodnotenie výsledkov ............................................................................ 41
3.2.6
Využitie výsledkov a ich nasadenie ............................................................ 41
Záver ............................................................................................................................... 43
Bibliografia ..................................................................................................................... 44
Zoznam príloh ................................................................................................................. 46
ÚVOD
V dnešnej dobe plnej moderných technológií je podstatné efektívne využívanie
dostupných zdrojov nielen v súkromnej, ale aj vo verejnej sfére. Spoločnosti vlastnia
mnoho rokov budované databázy, ktoré majú pre ne obrovský potenciál, ktorý doteraz
nebol plne využitý. Až vyspelá hĺbková analýza dát- data mining priniesla možnosť ako
pomôcť spoločnostiam z týchto databáz vyťažiť relevantné informácie, vďaka ktorým
môžu získať na trhu náskok pred konkurenciou. Aj vo verejnej sfére a verejných financiách
môže byť táto technika plnohodnotne využitá, keďže môže zvýšiť efektívnosť alokácie
voľných zdrojov.
Cieľom tejto bakalárskej práce je vymedziť pojem data mining a popísať jeho využitie
vo verejnom sektore a verejných financiách, rovnako ako poukázať na možnosti a význam
voľne dostupných softvérových nástrojov pre riešenie úloh data miningu a pre hĺbkovú
analýzu dát. K dosiahnutiu tohto cieľa budeme postupovať prostredníctvom čiastkových
cieľov. Najskôr si ozrejmíme pojem data mining a možnosti využitia techník data miningu
vo verejných financiách, neskôr analyzujeme možnosti voľne dostupného nástroja
RapidMiner a v nakoniec pomocou tohto nástroja analyzujeme vybraný dataset a
vyhodnotíme získané údaje.
V prvej časti práce sa budeme venovať už spomínanému teoretickému vymedzeniu data
miningu. Najskôr poukážeme na históriu a súčasné trendy data miningu (kapitola 1.1). Tiež
si vysvetlíme metodiku CRISP-DM a jej fázy (kapitola 1.2), pozrieme sa ako sa data
mining dá aplikovať do praktického využitia (kapitola 1.3), aké plní úlohy (kapitola 1.4)
a aké techniky sú na plnenie týchto úloh využívané (kapitola 1.5).
V druhej kapitole bude čitateľovi objasnené využitia data miningu vo verejnom sektore
a verejných financiách. Najskôr však bude poukázané na rozdiel medzi týmito dvoma
pojmami (kapitola 2.1). Až potom bude možné poukázať na možnosti využitia data mingu
v jednotlivých sférach verejného sektora a verejných financií (kapitola 2.2).
Posledná, tretia kapitola je venovaná ukážke praktického využitia techník data miningu
na skúšobnom datasete prostredníctvom voľne dostupného nástroja RapidMiner. Najskôr
je potrebné sa s týmto nástrojom zoznámiť (kapitola 3.1). Až neskôr sa môže pristúpiť k
tvorba data mainingového projektu metodológiou CRISP-DM v programe RapidMiner
(kapitola 3.2).
9
1 TEORETICKÉ VYMEDZENIE POJMU DATA MINING
Dnešná doba je charakteristická vysokým stupňom informatizácie vo všetkých
oblastiach života. Takmer na všetky procesy sa využívajú informačné systémy. S tým je
spojený aj vznik a uskladňovanie veľkého množstva dát. S postupným zvyšovaním tohto
objemu vzrástli aj nároky na vznik databáz, ktoré by uľahčovali orientáciu a prácu s týmito
dátami. Vznikli nové oblasti, ktoré sa zamerali na prácu s databázami a analýzu získaných
dát. Jednou z nich je aj hĺbková analýza dát- data mining (ďalej len DM).
DM je charakterizovaný (GÁLA, a iní, 2009) ako proces extrakcie relevantných,
vopred neznámych alebo nedefinovaných informácií z veľmi rozsiahlych databáz. Podľa
autorov je dôležité, že pri DM sa jedná len o analýzy odvodzované z obsahu dát, ktoré nie
sú špecifikované užívateľom alebo implementátorom. DM slúži manažérom na
objavovanie nových skutočností, vďaka čomu môžu zamerať svoju pozornosť na podstatné
faktory podnikania, môžu testovať hypotézy, odhaľovať skryté korelácie (závislosti) medzi
ekonomickými premennými a iné. Z uvedeného je zrejmé, že na zistenie potrebných faktov
potrebujeme hlavne vhodné dáta. Pokiaľ užívateľ dokáže využiť DM a porozumieť jeho
výstupom, môže získať veľkú výhodu oproti konkurencií.
„Cieľom DM je dáta automaticky alebo poloautomaticky analyzovať a nachádzať
v nich podstatné informácie o vzájomných závislostiach medzi vývojom hodnôt určitých
ukazovateľov alebo o štruktúrach chovania (napr. nákupné preferencie zákazníkov). Tieto
je potom možné použiť napr. ako podklad na zmenu marketingovej stratégie (napr. pre
stanovenie skupín výrobkov pre krížový predaj- cross-selling).“ (NOVOTNÝ, a iní, 2005
s. 205) Tento pohľad uvádza, že pokiaľ v množstve získaných dát dokáže užívateľ
pomocou DM nájsť informácie, môže ich využiť v prospech podniku.
1.1 História s súčasnosť data miningu
DM je pomerne mladou disciplínou, no jeho rýchly rozvoj je podmienený vývojom
iných techník. Rozvoj týchto techník ide ruka v ruke s rýchlym napredovaním
informačných technológií celkovo.
Techniky DM sú výsledkom dlhého výskumného a vývojového procesu. Tento vývoj
začal už vtedy, keď boli podnikové dáta po prvý raz uložené v počítačoch. Ďalší vývoj sa
rozmohol so zlepšením prístupu k dátam a nedávno, vďaka technológiám, ktoré umožňujú
užívateľom prechádzať svoje dáta v reálnom čase. DM je pripravený pre použitie v
podnikateľskej sfére, pretože je podporovaný tromi technológiami, ktoré sú už dostatočne
10
zrelé a rozvinuté. Sú to masívny zber dát, výkonné viacprocesorové počítače a DM
algoritmy.
Obrázok 1: Technológie stojace za vznikom DM
Zdroj: (THEARLINK, 2010)
Počty komerčných databáz rastú závratným tempom. Už v roku 1996 podľa prieskumu
spoločnosti META Group bolo zistené, že veľkosť dátových skladov 19% respondentov už
v tej dobe presahovala 50 GB, zatiaľ čo ďalších 59% respondentov očakávalo, že túto
kapacitu prekročí v druhom štvrťroku daného roka. V niektorých sektoroch, ako je
maloobchod, môžu tieto čísla byť oveľa väčšie.
Ďalšou z podmienok bolo zlepšeniu výpočtového procesu. V dnešnej dobe vďaka
počítačom s viacerými procesormi je možné vykonávať DM procesy nákladovoefektívnym spôsobom bez extrémne vysokých počiatočných investícií.
Algoritmy dolovania dát predstavujú techniky, ktoré existujú už viacero rokov. Avšak
len nedávno sa potvrdilo, že tieto algoritmy sú ako nástroje dostatočne spoľahlivé, zrelé
a zrozumiteľné, aby natrvalo prekonali staršie štatistické metódy.
Pri získavaní informácií z dát musí každý nasledujúci krok nadväzovať na krok
predchádzajúci. Iba takýto postup zabezpečí, že vytvorený model bude konzistentný
a výstup z neho relevantný. Nie je možné kroky ľubovoľne preskakovať alebo meniť ich
poradie, treba striktne dodržiavať daný postup.
V tabuľke 1 sú uvedené štyri kroky, ktoré sú z užívateľského pohľadu revolučné,
pretože umožnili rýchle a presné odpovede na položené otázky.
11
Tabuľka 1: Vývojové kroky DM
Vývojový krok
Odpoveď na otázku
Technológie
Charakteristika
"Aké boli moje
Počítače,
Retrospektívny
celkové tržby za
pásky,
pohľad, statické
posledných 5 rokov?"
disky
poskytovanie údajov
„Aký bol jednotkový
Relačné databázy,
predaj na Slovensku
Structured Query
vlani v júni?“
Language (SQL)
Dátové skladiská
„Aký bol jednotkový
OLAP databázy (On-
a podpora
predaj na Slovensku
line analytic
rozhodovania
vlani v júni? Detailné
processing), dátové
(90. roky 20. storočia)
porovnanie s Prahou.“
skladiská
Zber dát
(60. roky 20. storočia)
Prístup k dátam
(80. roky 20. storočia)
„Čo sa stane
Data mining
s jednotkovým
(súčasnosť)
predajom v Prahe
budúci rok? Prečo?“
Retrospektívny
pohľad, dynamické
poskytovanie údajov
na úrovni zápisu dát
Retrospektívny
pohľad, dynamické
poskytovanie údajov
na viacerých
úrovniach
Masívny zber dát,
výkonné
Prospektívny pohľad,
viacprocesorové
predvídanie
počítače, pokročilé
poskytovaných údajov
algoritmy
Zdroj: Vlastné spracovanie podľa (THEARLINK, 2010)
V dnešnej dobe môžu techniky DM preniesť výhody automatizácie na existujúce
softvérové a hardvérové platformy. Ak sú DM nástroje zavedené na vysokovýkonnom
systéme s paralelným spracovaním, môžu zanalyzovať masívne databázy behom
niekoľkých minút. Rýchlejšie spracovanie znamená, že používatelia môžu automaticky
experimentovať s viacerými modelmi a teda pochopiť aj zložité dáta. Vysoká rýchlosť je
pre používateľov praktická, pretože vďaka nej môžu analyzovať obrovské množstvo dát.
Väčšie databázy zas prinášajú lepšie predpovede (THEARLINK, 2010).
1.2 Metodika hĺbkovej analýzy dát
Viacerí autori sa zhodujú na tom, že v DM sa vyskytujú dva druhy metodík, ktoré
popisujú tento proces (napr. (BERKA, 2003), (CRISP, 2011)). Jedná sa za prvé o metodiky
12
založené na technologickom pohľade, kde sa väčšinou postupuje podľa nasledujúcich
krokov: selekcia dát, predspracovanie dát, transformácia dát, dolovanie dát a interpretácia
dát. Druhá sada metodík je založená na manažérskom pohľade. V týchto metodikách sa
obvykle postupuje po krokoch: porozumenie problematike (business understanding),
pochopenie dát (data understanding), príprava dát (data preparation), modelovanie
(modeling), vyhodnotenie výsledkov (evaluation), využitie výsledkov (deployment). Tento
postup je prevzatý z metodiky CRISP-DM.
CRISP-DM v preklade znamená CRoss Industry Standard Process for Data Mining.
Metodológia CRISP-DM vznikla ako projekt financovaný Európskou komisiou a nie je
teda majetkom žiadnej z komerčných spoločností. Súčasný procesný model pre DM
poskytuje prehľad o životnom cykle projektu DM, ako zobrazuje obrázok 2. Sú tu
zobrazené zodpovedajúce fázy projektu, ich úlohy a vzťahy medzi týmito úlohami (CRISP,
2011). V nasledujúcej časti mojej práce sa budem pridržiavať tejto metodiky.
Obrázok 2: Fázy CRISP-DM procesného modelu a vzťahy medzi nimi
Zdroj: (CRISP, 2011)
Metodika CRISP-DM má nesporne mnoho výhod. Najvýznamnejšími sú však
nezávislosť na riešenej úlohe, nezávislosť na DM software, projekcia obecných krokov do
konkrétnych akcií, dostatočné overenie časom a tradícia, ale hlavne dostupnosť
(SHEARER, 2000).
13
1.2.1 Porozumenie problematike (Business Understanding)
„Prvým krokom v procesu je definícia problému alebo príležitosti, na ktorú sa máme
zamerať. Úspešná DM iniciatíva je vždy zahájená dobre definovaným projektom. Aby sme
si overili, že bude vytvorená určitá nová hodnota, malo by byť v tejto fáze zahrnuté aj
vyhodnotenie status quo1 v danej oblasti.“ ( (NOVOTNÝ, a iní, 2005 s. 207)
Táto počiatočná fáza sa zameriava na pochopenie cieľov projektu a požiadaviek z
obchodného hľadiska. Následne sú tieto poznatky prevedené na definovanie DM problému
a vytvorenie predbežného plánu dosiahnutia cieľov. V skratke by sme prvú fázu mohli
zhrnúť do nasledujúcich piatich činností:
-
Pochopiť potreby podnikových procesov
-
Pochopiť problém
-
Naplánovať, ako vyriešiť problém pomocou dostupných zdrojov
-
Stanoviť si zámery a ciele, ktoré chceme dosiahnuť
-
Určiť miery, pomocou ktorých bude výsledný model hodnotený
1.2.2 Pochopenie dát (Data Understanding)
„Fáza
pochopenia dát začína počiatočným zozbieraním dát. Následne pokračuje
činnosťami s cieľom oboznámiť sa s údajmi, identifikovať problémy s kvalitou údajov,
ktoré neboli zrejmé na prvý pohľad alebo objaviť zaujímavé podskupiny k formovaniu
hypotéz pre skryté informácie.“ (CRISP, 2011) Fáza pochopenia dát zahŕňa teda štyri
kroky:
-
Zozbieranie počiatočných dát- analytik získava potrebné dáta, vrátane ich načítania
a integrácie v prípade potreby
-
Popis dát- analytik získava údaje o vlastnostiach získaných dát, skúma
problematiku formátu dát, množstva dát, počtu záznamov a iné
-
Skúmanie dát- táto časť rieši otázky DM, ktoré môžu byť riešené pomocou
dopytovania, vizualizácie a vykazovania
-
Overovanie kvality dát- v tomto bode analytik skúma kvalitu dát, ich hodnovernosť
a úplnosť, to znamená chýbajúce atribúty a prázdne polia, alebo či sú všetky
zastúpené hodnoty možné
1
lat. súčasný stav
14
1.2.3 Príprava dát (Data Preparation)
Časovo najnáročnejšou časťou (NOVOTNÝ, a iní, 2005) každého projektu DM je
proces prípravy dát, nakoľko podľa týchto autorov vyžaduje až 80% z celkového času. DM
vyžaduje, aby dáta, ktoré budeme analyzovať boli pripravené v jednoduchej a prehľadnej
tabuľke (každý záznam, ktorý bude modelovaný, obsahuje mnoho stĺpcov).Vďaka tejto
metóde je možné vytvoriť až stovky resp. tisíce premenných, ktoré budú vstupovať do
modelovania. Autori tiež upozorňujú, že táto projektová fáza je najkritickejšia, pretože
platí pravidlo, že výsledné modely sú také dobré, aké dobré boli dáta použité na ich tvorbu.
Autori taktiež poznamenávajú, že významné zlepšenie výsledkov môže byť dosiahnuté
zlepšením metodológie prípravy dát.
„Aby bola databáza užitočná na DM účely, musí podstúpiť predspracovanie v podobe
čistenia a transformácie dát. V DM sa často využívajú dáta, ktoré nikto nepoužíval mnoho
rokov, takže v databáze môžu byť hodnoty, ktoré už stratili platnosť, sú irelevantné alebo
chýbajú. Prvoradým cieľom je minimalizovať GIGO (garbage in, garbage out), tz.
minimalizovať „smeti“, ktoré sa dostanú do nášho modelu a vďaka tomu minimalizovať
„množstvo odpadkov“, ktoré z nášho modelu vychádzajú.“ (LAROSE, 2005 s. 28)
Výber dát
„Výber dát, ktoré budú použité pre nasledovnú analýzu je založený na niekoľkých
kritériách, vrátane významu dát pre DM ciele, rovnako ako kvalita a technické
obmedzenia, ako napríklad limity objemu dát alebo typu dát. Napríklad adresa jednotlivca
môže byť použitá na určenie regiónu, odkiaľ je dotyčná osoba, avšak údaj o ulici môže byť
odstránený aby sa znížil objem dát, ktoré musia byť vyhodnotené.“ (SHEARER, 2000)
Čistenie dát
Bramer (BRAMER, 2007) sa domnieva, že aj keď majú dáta dodržanú štandardnú
formu, nezaručuje to, že sú bez chýb. V reálnych datasetoch existuje viac príčin pre
zadanie chybných hodnôt. Môžu to byť napríklad chyby merania, subjektívne úsudky a
nesprávna funkcia alebo nesprávne použitie automatických záznamových zariadení.
Niektoré zo závažných nedostatkov, ktoré by mali byť odstránené počas fázy čistenia dát
sú nesúlad medzi hodnotami zaznamenanými u rôznych atribútov, ktoré však majú
rovnaký význam, ďalej duplicita dát, chýbajúce údaje alebo existencia neprípustných
hodnôt.
15
Transformácia dát
V priebehu fázy transformácie dát prebehnú ďalšie konverzie dát na zaistenie
homogenity a integrácie s ohľadom na rôzne dátové zdroje. Je prirodzené, že rôzne
premenné sa navzájom výrazne líšia. Zoberme si napríklad výšku dospelého človeka
v metroch. U väčšiny jedincov bude táto hodnota v rozmedzí od 1,5 do 2,1 metra. Avšak
premenná váha dospelého človeka v kilogramoch môže nadobúdať hodnoty od 40 do 150.
U niektorých algoritmov DM môžu takéto výrazné rozdiely v rozsahu viesť k tomu, že
premenné s vyšším rozsahom budú mať neprimeraný vplyv na výsledky. Analytici by teda
mali normalizovať ich numerické premenné, čím by vlastne štandardizovali rozsah účinku
každej z premenných na celkový výsledok. Na normalizáciu existuje niekoľko rôznych
techník,
pričom
prevládajúcimi
sú
normované
normálne
rozdelenie
(z-score
standardization) a min-max normalizácia.
1.2.4 Modelovanie (Modeling)
Ďalšia z nevyhnutných fáz pri tvorbe DM modelu je modelovanie. V tejto fáze je
možné vybrať a použiť široké spektrum modelovacích techník pre rovnaký problém. Je
však potrebné upozorniť, že niektoré techniky majú špecifické požiadavky na to, v akej
podobe budú vstupné dáta.
Metodológia CRISP-DM uvádza, že prvý krok v modelovaní by mal predstavovať
výber techniky modelovania, ktorá by mala byť použitá. Mnoho modelovacích techník má
špeciálne požiadavky ohľadom dát (napr. nesmú sa vyskytnúť žiadne chýbajúce hodnoty,
všetky atribúty musia mať rovnaký formát rozdelenia, klasifikačný atribút musí byť zadaný
symbolicky a iné), ktoré musia byť dodržané.
Pokiaľ sme si techniku modelovania vybrali, môžeme prejsť na ďalší krok, ktorým je
vygenerovanie návrhu testovania. To v praxi znamená, že pred tým, ako vytvoríme
konečný model, musíme vygenerovať postup na otestovanie kvality a platnosti modelu.
Napríklad pri klasifikácií je zvyčajne meradlom kvality DM modelu chybovosť dát. Preto
sa obvykle dátová sada delí na dve podskupiny- sadu trénovaciu a sadu testovaciu. Model
sa vytvára na dátovej sade trénovacej a jeho kvalita sa určuje na dátovej sade testovacej.
Ďalším krokom je samotné vytvorenie modelu. Po otestovaní modelu môžeme pristúpiť
k aplikácií modelovacieho nástroja na pripravené dáta a k vytvoreniu jedného alebo
viacerých modelov. Výstupom sú taktiež použité nastavenia parametrov pri danej technike
modelovania, spolu s odôvodnením ich výberu. Treba si však uvedomiť, že výsledkom sú
modely vytvorené modelovacím nástrojom a nie reporty (hlásenia) (CRISP, 2011).
16
Posledným krokom vo fáze modelovania je ohodnotenie modelu. „Ohodnotenie modelu
spočíva v interpretovaní výsledkov modelovania v kontexte kritérií úspechu DM
(stanovených v rámci prvej fázy) a navrhnutého testovania (vyššie). Typicky ide o použitie
štatistických vyhodnotení a iných dostupných mechanizmov pre danú úlohu DM. Výsledné
ohodnotenie
modelov
sumarizuje
výsledky
tejto
úlohy
a
obsahuje
rebríček
vygenerovaných modelov usporiadaných podľa ich kvality. Výsledkom môže byť aj zmena
nastavených parametrov a následná nová iterácia (opakovanie krokov) tejto úlohy.“
(PARALIČ, 2003 s. 8)
1.2.5 Vyhodnotenie výsledkov (Evaluation)
Pokiaľ sme úspešne prešli celo fázou modelovania, môžeme vyhodnotiť dosiahnuté
výsledky. Predošlé hodnotiace kroky na hodnotenie používali faktory ako presnosť a
obecná platnosť modelu. Avšak tento krok hodnotí úroveň, s akou model dosahuje
obchodné ciele a snaží sa určiť, či je prítomný nejaký dôvod, pre ktorý by mal byť tento
model nedostatočný. Vytvorený model je tiež možné ohodnotiť tak, že ho implementujeme
na reálnu situáciu a sledujeme, aká je úroveň jeho kvality.
Ak sa domnievame, že je model schopný uspokojiť obchodné potreby, nasleduje ďalší
krok- dôkladné preskúmanie celej DM úlohy. Tu sa určuje, či nebola prehliadnutá nejaká
dôležitá úloha alebo faktor. V tomto preskúmaní sa taktiež môžeme uistiť o vyhovujúcej
kvalite (o správnom zostavení modelu, o použití atribútov dostupných aj pre budúce
analýzy).
S ohľadom na výsledky hodnotenia a preskúmania procesu je potrebné určiť, ako
chceme pokračovať ďalej. Musíme sa rozhodnúť, či tento projekt ukončíme a prejdeme na
fázu využitia (nasadenia) získaných výsledkov. Môžeme sa však rozhodnúť, že prevedieme
ďalšie opakovanie niektorých DM fáz alebo dokonca začneme s novým DM projektom.
(CRISP, 2011)
1.2.6 Využitie výsledkov a ich nasadenie (Deployment)
Tvorba modelu nie je záverečnou fázou a ukončením projektu. Znalosti, ktoré boli
získané musia byť usporiadané a prezentované tak, aby ich používateľ mohol využiť
v praxi ako „živý“ model v rámci organizácie pri rozhodovacom procese. V závislosti na
požiadavkách, môže byť v tejto fáze vytvorená jednoduchá správa (report) alebo celý
návod na opakovanie DM procesu v rámci podniku, keďže užívateľom týchto výsledkov,
ktoré sú nasadené do prostredia podniku, je často manažér a nie DM analytik. Preto je
dôležité aby užívateľ dopredu pochopil, aké kroky musia byť prijaté, aby vytvorené
17
modely boli skutočne využité. Kľúčovými krokmi v tejto fáze sú plánu nasadenia, plán
monitorovania a údržby, vytvorenie záverečnej správy a posúdenie celého projektu
(SHEARER, 2000).
Prvou úlohou je vypracovať plán nasadenia výsledkov DM do praxe. Výstupom je tu
plán nasadenia popisujúci nevyhnutné kroky a ich uskutočnenie. Plán monitorovania a
údržby pomáha vyhnúť sa zbytočne dlhým obdobiam nesprávneho používania výsledkov
DM. Keďže účelom je monitorovanie zavedenia výsledkov DM do praxe, projekt potrebuje
podrobný plán na monitorovanie tohto procesu. Tento plán zohľadňuje špecifický typ
nasadenia. Na konci projektu je spísaná záverečná správa. Tá môže obsahovať celkový
sumár projektu a skúseností, alebo finálnu prezentáciu výsledkov DM, alebo oboje. Na
konci projektu je záverečná správa, kde sú zhromaždené všetky súvislosti. Rovnako ako
vyhodnotenie získaných výsledkov by táto správa mala poukázať na to, aké vznikli
výdavky. Tiež by mala definovať prípadné odchýlky od pôvodného plánu, popísať
vykonávacie plány a samozrejme určiť odporúčania pre budúcu prácu. Skutočný podrobný
obsah správy však závisí od skutočnosti, pre koho je táto správa zhotovená. Posledným
krokom celého DM projektu je jeho posúdenie- čo bolo dobré a čo zlé, čo je potrebné
zlepšiť. V tejto fáze je potrebné zhrnúť dôležité skúsenosti z priebehu projektu, napr.
úskalia, zavádzajúce prístupy alebo rady pre výber najlepšej techniky DM (CRISP, 2011).
1.3 Využitie data miningu v praxi
„V podstate akýkoľvek proces je možné študovať, pochopiť a vylepšiť s použitím DM.
Tieto techniky sa aplikujú vo vzájomne veľmi odlišných oblastiach, ako je napríklad
riadenie procesu výroby, ľudské zdroje, a iné. DM je užitočný všade tam, kde je možné
zhromažďovať údaje. V súčasnosti je DM s výhodou a úspešne aplikovaný v rezortoch,
ktoré:
-
sú orientované na služby zákazníkom
-
poskytujú finančné služby
-
majú výrobný charakter
Typické problémy riešené s využitím DM sú napríklad segmentácia zákazníkov do
skupín s podobnými vzormi správania sa, efektívna profilácia zákazníkov pre riadenie
individuálnych vzťahov s nimi, identifikácia zákazníkov, ktorí prinášajú najväčší zisk a
identifikácia dôvodov prečo, identifikácia príčin prechodu zákazníkov ku konkurencii,
zistenie faktorov, ktoré významne ovplyvňujú nákupné správanie (vzory), plánovanie
efektívneho riadenia a správania informačných systémov, predikcia neoprávnených
18
transakcií s (odcudzenými) platobnými kartami, alebo hlásení pochybných poistných
udalostí, plánovanie potrieb energie, dodávok vody, telekomunikačných služieb,
pochopenie budúceho správania zákazníkov na základe ich histórie a charakteristík,
zistenie kritických faktorov vo výrobe (letectvo, automobily, elektronika, hutnícky
priemysel).“ (SAS, 2011)
1.4 Úlohy data miningu
DM môže riešiť stovky problémov. Na základe povahy týchto problémov, môžeme
podľa Larosa (LAROSE, 2005) tieto základné úlohy DM rozdeliť na:
-
popis (description)
-
klasifikácia (classification),
-
odhad (estimation),
-
predpoveď (prediction),
-
zhlukovanie (clustering),
-
združovania (association).
1.4.1 Popis (description)
Berry a Linoff (BERRY, a iní, 2004) sú toho názoru, že niekedy môže byť účelom DM
len jednoducho popísať „o čo ide“ v zložitých databázach tak, aby sa zvýšila naša miera jej
pochopenia. Ak je popis správania dostatočne vyhovujúci, môže nám poskytnúť aj
vysvetlenie. Alebo nám dobrý popis môže minimálne navrhnúť, kde takéto vysvetlenie
hľadať. Rodový rozdiel v americkej politike môže byť príkladom, ako jednoduchý popis
„ženy podporujú demokratov vo väčšom množstve ako muži,“ môže vyvolať veľký záujem
o ďalšiu štúdiu zo strany novinárov, sociológov, ekonómov a politológov, nehovoriac
o kandidátoch do verejných úradov.
1.4.2 Klasifikácia (classification)
Podľa amerického autora Berryho (BERRY, a iní, 2004) je klasifikácia jedna z
najbežnejších úloh DM, ktorá je pre ľudí nevyhnutná. S cieľom pochopiť a komunikovať
človek neustále klasifikuje, kategorizuje a triedi. Klasifikácia predstavuje skúmanie
vlastností novo predstavených objektov a ich priradenie do jednej z preddefinovaných
množín tried. Klasifikovanie je charakterizované presne vymedzenou definíciou tried
a cvičnej množiny pozostávajúcej zo vzorov, ktoré už boli klasifikované. Úlohou je
vytvoriť model, ktorý by bolo možné použiť na ešte neklasifikované údaje, a tým ich
jednoducho roztriediť. Tu sú uvedené príklady takýchto klasifikačných úloh:
19
-
klasifikácia žiadateľov o úver ako nízko-, stredne- a vysokorizikových,
-
výber obsahu zobrazeného na webovej stránke,
-
odhalenie podvodných poistných udalostí, a iné.
1.4.3 Odhad (estimation)
„Odhad je podobný klasifikácií s tým rozdielom, že cieľová premenná je numerická
namiesto nominálnej. Modely sú vytvorené pomocou úplných záznamov, čo znamená že
sú dané hodnoty cieľových premenných, rovnako aj predpovedaných. Potom sú pre nové
pozorovania odhady hodnôt cieľovej premennej založené na hodnotách predpovedí.
Napríklad, mali by sme záujem o odhad systolického krvného tlaku hospitalizovaného
pacienta, ktorý by bol založený na veku pacienta, pohlavií, BMI a hladine sodíka v krvi.
Vzťah medzi systolickým krvný tlak a predpovedanou premennou v trénovacej množine by
nám poskytol model odhadu. Potom môžeme aplikovať tento model na nových
pacientoch.“ (LAROSE, 2005 s. 12)
1.4.4 Predpoveď (prediction)
Predpoveď je podobná klasifikácii a odhadu s tým rozdielom, že pri predpovedi
získavame výsledky dosiahnuté v budúcnosti. Pri predikcií je jedinou možnosťou ako
skontrolovať jej presnosť počkať a uvidieť skutočné dosiahnuté hodnoty. Autori Berry
a Linoff (BERRY, a iní, 2004) uvádzajú, že aj niektorá z techník používaných pre
klasifikáciu a odhad môže byť prispôsobená pre použitie v predpovedi, a to pomocou
trénovacích vzoriek. Vtedy sa predpovedá hodnota premennej, ktorá je už známa, pomocou
historických údajov v týchto vzorkách. Historické dáta použité na vytvorenie modelu teda
vysvetľujú súčasné pozorované správanie. Keď sa tento model aplikuje na súčasné vstupy,
výsledkom je predpoveď budúceho správania.
Obrázok 3: Predpovedanie ceny akcie tri mesiace dopredu
Zdroj: (LAROSE, 2005)
20
1.4.5 Zhlukovanie (clustering)
Zhlukovanie, nazývané aj segmentácia, sa používa na identifikáciu prirodzených
zoskupení založených na množine znakov. Zhlukovanie sa zaoberá zoskupovaním
objektov, ktoré sú si navzájom podobné a zároveň sa líšia od objektov patriacich do iných
skupín. Ako uvádza vo svojej publikácií Bramer (BRAMER, 2007), v mnohých oblastiach
je výhodné zoskupovať objekty s rovnakými ukazovateľmi, napríklad:
-
v ekonómii môže byť užitočné hľadanie krajín, ktorých ekonomiky sú podobné,
-
vo financiách by sme mohli nájsť zoskupenia firiem, ktoré majú podobnú
finančnú výkonnosť,
-
pri žiadosti o registráciu by sme mohli nájsť skupiny zákazníkov, ktorí majú
podobné nákupné správanie,
-
v medicíne vy sa dalo zhlukovanie využiť na vytvorenie skupín pacientov
s podobnými symptómami.
Obrázok 4: Zhlukovanie
Zdroj: Vlastné spracovanie
1.4.6 Združovanie (Association)
Združovanie (2010) je ďalšia z obľúbených DM úloh. Nazýva sa tiež analýzou
nákupného košíka (market basket analysis). Typickým problémom, ktorý združovanie rieši
je analýza predajných transakcií a identifikácia tých produktov, ktoré sú často nakúpené
v rovnakom nákupnom košíku. Obecné využitie združovania je identifikovanie skupín
tovarov
nakupovaných
spoločne
(itemsets)
a pravidiel
cieleného
cross-sellingu.
Združovanie má dva ciele- nájsť časté „itemsets“ a nájsť asociačné pravidlá.
21
1.5 Techniky data miningu
Úlohy DM pokrývajú široké spektrum oblastí. Preto je tiež nutné, aby boli
pre riešenie týchto úloh dostupné mnohé techniky ich riešení. Len to zabezpečí, že
vytvorený model bude pre jeho užívateľa nápomocný a efektívny. V nasledujúcom texte si
priblížime základné techniky DM, z ktorých niektoré budú využité aj v praktickej časti
tejto práce.
1.5.1 Rozhodovacie stromy
„Rozhodovacie stromy sú jednou zo základných techník používaných v DM. Ich
štruktúra podobná stromu sa využíva pri klasifikácií, zhlukovaní, predikcií. Rozhodovacie
stromy sú ľahko pochopiteľné a intuitívne pre človeka. Sú vhodné pre viac-dimenzionálne
aplikácie. Rozhodovacie stromy sú rýchle a zvyčajne produkujú vysoko-kvalitné riešenia.
Ciele rozhodovacích stromov sú v súlade s cieľmi DM a objavovania poznatkov.“
(OMITAOMU, 2005 s. 39)
1.5.2 Regresia
„Regresia je štatistická metóda schopná popísať stupeň významnosti vstupných
premenných na výstupe. Jej sila sa ukrýva v teoretickej prepracovanosti odhadu chýb
modelu a možnosti hľadať aj závislosť kombinácie vstupných premenných. Dobre sú
prepracované metódy regresie pre odhad binárneho výstupu (logická regresia) či regresia
pracujúca s dátami nadobúdajúcimi iba diskrétne (i nečíselné) hodnoty. Použitie regresie je
limitované prácnosťou a časovou náročnosťou vývoja zložitejších modelov.“ (POSPÍŠIL, a
iní, 2006)
1.5.3 Neurónové siete
Neurónové siete (SAS, 2011) sú všeobecným nástrojom pre modelovanie. Pre aplikáciu
neurónových sieti je charakteristická fáza učenia sa na konkrétnej množine údajov a fáza
ich aplikácie na vytvorenie žiadaného modelu. Použitie neurónových sietí je veľmi
efektívne zvlášť pri spracovaní komplexných údajov (detekcia nelineárnych závislostí).
Protikladom tejto efektívnosti sú ťažkosti pri interpretácii modelov a pri preukázaní toho,
že výsledný model je optimálny vzhľadom na spracované údaje. Pre použitie neurónových
sietí jestvujú určité špecifické obmedzenia týkajúce sa údajov, napríklad na spracovanie sú
vhodné iba numerické údaje.
22
1.5.4 Metóda najbližšieho suseda
Keď si jednotlivé hodnoty predstavíme ako body v dátovom priestore, môžeme
zadefinovať susedstvo ako koncept, v ktorom sú jednotlivé hodnoty blízko ostatným, ktoré
sú v každom susedstve. Na takomto pohľade je založený jednoduchý ale účinný algoritmus
k-najbližší sused. Základným predpokladom k-najbližšieho suseda je „rob to, čo robí
sused“. Ak chceme predpovedať správanie sa určitého indivídua, mali by sme sa najskôr
pozrieť na to, ako sa správa jeho sused. Písmeno k značí počet susedov, ktorých správanie
budeme skúmať. (SUMATHI, a iní, 2006)
1.5.5 Bayesovské klasifikovanie (Naive Bayes)
Triedenie podľa Naive Bayes klasifikátora je založené na pravdepodobnosti a aplikuje
Bayesovu teorému, ktorá predpokladá silnú nezávislosť medzi atribútmi (naivitu). Takéto
triedenie predpokladá že všetky atribúty sú rovnako dôležité a navzájom nezávislé.
Zjednodušene Naive Bayes klasifikátor predpokladá, že prítomnosť (alebo neprítomnosť)
špecifického znaku množiny nesúvisí s prítomnosťou (alebo neprítomnosťou) iného znaku.
Napríklad, ovocie môžeme považovať za jablko ak je červené, guľaté a má priemer
približne 10 cm. Aj keď môžu byť tieto znaky navzájom závislé alebo podstatné pre
existenciu iných znakov, Naive Bayes klasifikátor uvádza, že každý z týchto znakov
nezávisle prispieva na pravdepodobnosti, že daným ovocím je jablko. (BHAGVI, a iní,
2009)
23
2 ANALÝZA
VYUŽITIA DATA MININGU VO VEREJNOM SEKTORE A VO
VEREJNÝCH FINANCIÁCH
2.1 Verejný sektor a verejné financie
V ekonomike existujú určité oblasti, o ktoré nejaví súkromný sektor žiadny záujem. Sú
to oblasti, v ktorých nie je možné naplniť hlavné ciele podnikania a to maximalizáciu zisku
pri čo najnižších nákladoch. Existujú aj oblasti, ktoré štátne nechce alebo nemôže
prenechať súkromnému sektoru a tiež sa musí starať o nevyhnutné priority akými sú
zdravie, vzdelanie alebo základný výskum. Tieto dôvody vytvárajú priestor pre verejný
sektor. Podľa Baileyho (BAILEY, 1995) je možné verejný sektor charakterizovať ako
plánované netrhové poskytovanie služieb. Rozsah poskytovania týchto služieb sa určuje
kolektívne demokratickou voľbou. Alokácia vytvorených statkov sa realizuje podľa
odhadu potrieb koncového spotrebiteľa. Strecková (STRECKOVÁ, 1998) však definuje
verejný sektor ako „časť národného hospodárstva, ktorá je financovaná z verejných
financií, riadená a spravovaná verejnou správou, rozhoduje sa v nej verejnou voľbou
a podlieha verejnej kontrole.“ Do verejného sektora patria orgány štátnej moci a správy,
miestna samospráva a jednotlivé odvetvia verejného sektora ako sú napríklad
zdravotníctvo, školstvo, obrana, kultúra, veda, telovýchova a iné.
Verejné financie môžeme charakterizovať „ako súhrn vzťahov medzi ekonomickými
subjektmi, prostredníctvom ktorých sa prerozdeľujú peňažné prostriedky za účelom
zabezpečenia fungovania verejného sektora, uspokojenia spoločných potrieb obyvateľstva
pri uplatnení zásady nenávratnosti, jednostrannosti a vynútenosti“ (BORZOVÁ, a iní, 1997
s. 155)
„Financie môžeme definovať ako sústavu ekonomických vzťahov ktoré nadobúdajú
formu peňažných operácií, pomocou ktorých sa tvorí, rozdeľuje a používa peňažná masa v
ekonomike tak, aby došlo k rozdeleniu a znovurozdeleniu hrubého domáceho produktu, a
tým aj k jeho realizácií. Z tejto definície je zrejmé, že verejné financie majú svoje
nezastupiteľné miesto v sústave financií, pretože okrem iných úloh sú hlavným nástrojom
prerozdelenia HDP“ (MERIČKOVÁ, 2007 s. 14)
2.2 Možnosti využitia data miningu vo verejnom sektore a verjných
financiách
„Verejný sektor prežíva obdobie podstatných zmien, snahy o obmedzenie verejných
výdavkov. To znamená obmedzenie finančných nákladov na sociálne zabezpečenie vrátane
24
dôchodkov a zdravotníckej starostlivosti a zabezpečenie maximálnej hodnoty peňazí. Na
prekonanie týchto problémov verejné služby používajú stále viac a viac techník, akými sú
napr. riadenie kvality a zmluvné služby. V mnohých krajinách sa správne orgány verejného
sektora privatizujú a stretávajú sa po prvýkrát s konkurenčným prostredím. Na jednej
strane sa verejné výdavky obmedzujú, na strane druhej verejnosť očakáva, že úroveň
služieb v školstve, zdravotníctve a v infraštruktúre sa zachová alebo dokonca zvýši.
Orgány verejného sektoru musia veľmi starostlivo uvážiť každú položku výdavkov.
Verejný sektor je nútený prijímať také riadiace techniky, ktoré zabezpečia zvýšenie
efektívnosti a kvality služieb pri neustále väčších rozpočtových obmedzeniach.
Produktivita sa musí zvyšovať a preto úspešní manažéri potrebujú prístup k správnym
informáciám, na ktorých by mohli založiť svoje rozhodnutia. Verejné orgány potrebujú
zlepšovať komunikáciu a sústrediť sa na verejnosť. Vlády a správne orgány sú nútené
používať stále dômyselnejšie metódy, aby mohli riadiť ekonomiku, predpovedať tempo
rastu a plánovať služby.“ (SAS, 2011)
2.2.1 Verejné financie - detekcia (odhaľovanie) podvodov
Ako uvádza Háva vo svojom článku „Data mining okolo nás“ (HÁVA, O., 2010),
škody zapríčinené podvodným chovaní a následne náklady spojený s odhaľovaním
takéhoto chovania sú veľkou záťažou štátnych aj súkromných organizácií. Odhadnúť
pravdepodobnosť podvodu pri každej z akcií môže nielen zefektívniť budúce
prešetrovanie, ale už vopred dokáže zabrániť podvodu. Metódy DM dokážu využiť
k odhaľovaniu týchto podvodov dáta poisťovní, bánk, telekomunikácií, daňových a iných
úradov. Príkladom je situácia, keď štátna organizácia prideľuje rôzne granty. Pri ich
prideľovaní zistila, že v niektorých prípadoch nie sú tieto dotácie použité na účel, na ktorý
boli poskytnuté. Takéto podvodné chovanie je potrebné minimalizovať. Keby sa mali
osobne preveriť všetky alebo aj náhodne vybrané dotácie, bolo by to náročné
a neefektívne. Preto je potrebné vybudovať systém, ktorý by sám vyberal žiadosti
o dotácie, ktoré sú podozrivé alebo pri nich vzniká riziko zneužitia pridelených finančných
prostriedkov. Následne by boli osobne preverené len takéto žiadosti.
2.2.2 Zdravotníctvo - lekárske diagnostikovanie
Podľa Gorunescu (GORUNESCU, 2008) je diagnostikovanie s pomocou počítačov
(Computer-Aided Diagnosis - CAD) čoraz dôležitejšia oblasť pre inteligentné počítačové
systémy. Je tu obrovská príležitosť pre DM metódy ako pomôcť lekárom, ktorí skúmajú
množstvo informácií o pacientoch aj najnovšie vedecké objavy. DM by mohol pomôcť
25
všetkým lekárom mnohými spôsobmi, napríklad pomáhaním pri interpretácií komplexných
diagnostických testov, kombinovaním informácií z rôznych zdrojov (obrázkov, klinických
údajov, proteomiky2, vedeckých poznatkov a iných), poskytovaním podpory pri
diferenciálnej diagnostike alebo špecifických prognózach pre pacienta.
2.2.3 Školstvo – zvyšovanie úrovne vysokých škôl
Data mining je považovaný (DELAVARI, a iní, 2008) za technológiu, ktorá je
najvhodnejšia na podávanie dodatočného náhľadu na edukačné jednotky, ako napríklad na
študentov, prednášajúcich, personál, absolventov školy a aj jej riadenie. DM sa správa ako
automatický asistent a pomáha škole robiť lepšie rozhodnutia ohľadom ich vzdelávacieho
procesu. Ukryté vzory, zoskupenia a odchýlky objavené technikami DM môžu pomôcť
preklenúť rozdiely vo vedomostiach študentov rôznych vysokoškolských inštitúcií.
Objavovanie znalostí pomocou techník DM by mohlo umožniť vysokým školám robiť
lepšie rozhodnutia, využívať dokonalejšiu tvorbu rozvrhov pre študentov, predpovedať
správanie sa jednotlivca s vysokou presnosťou a využívať zdroje a personál efektívnejšie.
Výsledkom je potom vylepšenie rozhodovacieho procesu v inštitúciách vysokoškolského
vzdelávania, čo môže priniesť rôzne zlepšenia, napríklad rast úrovne študentov, ktorí
ukončili školu a miery udržania študentov, nárast podielu študijných zlepšení, viac
študentských úspechov a výsledkov vzdelávania sa študentov, maximalizáciu efektívnosti
systému vzdelávania a znižovanie nákladov na systémové procesy.
2.2.4 Bezpečnosť –odhaľovanie teroristických aktivít
V kontexte bezpečnosti krajiny, DM môže byť využitý k odhaľovaniu teroristických
aktivít (GARSON, a iní, 2008), ako napríklad prevody peňazí a komunikácia, ale tiež na
určovanie a stopovanie samotných teroristov, napríklad prostredníctvom cestovateľských
a imigračných záznamov. Niektoré z aplikácií DM na zabezpečenie obrany vlasti
predstavujú značné rozšírenie množstva a dosahu údajov, ktoré sú analyzované. Ďalšou
možnosťou je sledovanie a detekcia teroristov a prejavov terorizmu na webe, pretože
teroristi často využívajú internet na vzájomnú komunikáciu alebo nábor nových členov.
Data mining môže tiež slúžiť (MENA, 2003) ako nástroj kriminálnej analýzy. Jeho
cieľom je odhaľovanie a predchádzanie zločinu. Na rozdiel od kriminológie, ktorá zločin
rekonštruuje za účelom jeho vyriešenia, kriminálna analýza využíva historické údaje, aby
objavila riešenie a predchádzala zločinom. Vykonávajú sa tu rôzne štatistické skúmania
2
Veda zaoberajúca sa štúdiom proteínov
26
frekvencií špecifických zločinov. Kriminálna analýza zahŕňa veľmi detailné vyhodnotenie
lokality, času a typu zločinu, ktorý bol spáchaný v budove, susedstve, obvode, meste, kraji
atď. Štatistiky zločinnosti, riziká a pravdepodobnosti predstavujú to, čo zahŕňa kriminálna
analýza.
27
3 VOĽNE DOSTUPNÝ NÁSTROJ PRE DATA MINING RAPIDMINER
Keďže DM je progresívne a rýchlo sa rozvíjajúce odvetvie, aj ponuka nástrojov na
analýzu dát a DM je veľmi pestrá. Na jednej strane stoja vyspelé nástroje od známych
spoločností a na strane druhej sú rôzne voľne dostupné nástroje. Rozdiely by sme našli
hlavne v užívateľskom prostredí, palete možných procesov a hlavne webovej podpore.
Medzi jeden z vydarenejších voľne dostupných nástrojov pre DM patrí aj RapidMiner
(dalej len RM). Vďaka širokej palete techník a priateľskému užívateľskému prostrediu si
RM obľúbilo mnoho užívateľov na celom svete. Program môžeme zaradiť do skupiny
open-source, čo znamená, že jeho zdrojový kód je pre programátorov voľne dostupný.
Presnejšie sa za open-source pokladajú také aplikácie (ŠŤEDROŇ, 2009), ktoré sú šírené
so zachovaním určitých práv a slobôd pre ich koncového užívateľ (nadobúdateľa licencie).
Ide o právo spúšťať program za akýmkoľvek účelom, študovať ako program pracuje
a prispôsobiť ho svojím potrebám (predpokladom k tomu je prístup k zdrojovému kódu),
redistribuovať svojvoľne kópie, program vylepšovať a tieto zlepšenia zverejňovať.
RapidMiner má oproti konkurenčným softvérom niekoľko nesporných výhod (RAPIDI, 2010). Okrem toho, že je to open-source softvér je tiež možné ho spustiť na všetkých
bežných platformách a operačných systémoch (okrem Windows 32 bit a 64 bit aj na
Linuxe, Macu a akomkoľvek operačnom systéme s nainštalovaným Java Runtime
Environment). Viacvrstvový koncept pohľadu na dáta pomáha zabezpečiť efektívne
spracovanie dát. Treba tiež spomenúť široké spektrum možností grafického zobrazenia.
Veľkým plusom je tiež komplexnosť riešenia- RM ponúka viac než 500 operátorov pre
integráciu dát a ich transformovanie, DM, vyhodnocovanie a vizualizáciu. Je schopný
pracovať s dátami v rôznych formátoch alebo ich načítať priamo s databáz (Excel, Access,
Oracle, IBM DB2, a mnoho iných). Vďaka týmto a aj mnohým ďalším pozitívam využíva
RM mnoho spokojných užívateľov.
3.1 Prostredie RapidMinera a jeho možnosti
K programu RM sa jednoducho dostaneme cez stránku jeho vývojárskej spoločnosti
Rapid-I GmbH- www.rapid-i.com. Tu si v sekcií „Download“ vyberieme z ponúkaných
produktov RM. Ako si môžeme všimnúť, je ponúkaný v dvoch variantoch- Community
Version a Enterprise Version. Rozdiel s programe nie je žiadny, avšak pri platenej
Enterprise Version ponúka spoločnosť Rapid-I aj servis a záruku. Po kliknutí na odkaz
„Download the RapidMiner Community Edition“ sa nám otvorí nová stránka, kde si
vyberieme verziu podľa požadovaného operačného systému a tlačidlom „Download“ ju
28
stiahneme. Pred samotným začatím sťahovania však musíme vyplniť krátky dotazník
kde zadáme meno a e-mailovú adresu. Po tomto úkone nám už nič nebráni v samotnom
stiahnutí a nainštalovaní programu.
Po správnej inštalácií softvéru RM môžeme prejsť k jeho prvému spusteniu. Prvý úkon,
ktorý bude od nás RM požadovať je výber miesta na ukladanie dát- skladiska (Repository
location). Tento úkon by sme mali bez problémov zvládnuť a môžeme pokračovať
výberom nového projektu. Ten si ihneď uložíme a objaví sa pred nami základná pracovná
obrazovka (obrázok 5).
Obrázok 5: Základné rozostavenie pracovnej plochy v programe RapidMiner,
Zdroj: Vlastné spracovanie podľa RapidMiner
Samotné rozostavenie pracovnej plochy je intuitívne a podobné rozostaveniu v balíku
kancelárskych nástrojov.
Poďme si teda popísať, čo na základnej obrazovke RapidMiner 5 nájdeme a bez čoho
sa v našej práci neobídeme. Majoritnú časť našej pracovnej plochy tvorí tzv. process viewzobrazenie okna nášho procesu (1). V tomto okne môžeme zadefinovať postup našich
procesov jednoducho pomocou metódy „drag and drop“. Nad týmto oknom nájdeme dve
záložky- Process a XML (2). Základné zobrazenie je Process a zobrazuje spomínané okno
procesu. XML záložka dáva možnosť zobraziť náš proces v programovacom jazyku XML
(eXtensible Markup Language).Vľavo od týchto záložiek sa nachádza prehľad (Overview)
celého okna procesu (3). Pod ním máme opäť dve záložky- skladiská a operátory
29
(Repositories a Operators) (4), ktoré budeme často využívať. Záložka skladiská nám dáva
možnosť načítať uložené procesy alebo dáta. Na záložke operátorov sa nachádza množstvo
operátorov (algoritmov) na import a export dát, ich transformáciu, modelovanie a aj
vyhodnotenie. Pod oknom proces sa nachádzajú opäť dve záložky. Pokiaľ sa vyskytne
nejaký problém, ktorý bráni vykonaniu procesu, bude zobrazený pod záložkou Problems
(5) aj s možnými riešeniami, pokiaľ sú dostupné. Na pravej časti základnej obrazovky
RapidMiner-a je záložka parametrov (Parameters) (6). V tejto záložke môžeme nastavovať
rôzne parametre a kritériá pre jednotlivé operátory. Pod touto zložkou je nápoveda (Help)
(7), kde sa okrem iného môžeme dozvedieť viac o jednotlivých operátoroch a ich
parametroch. Pokiaľ máme vytvorený celý proces, spustíme ho, pozastavíme alebo celkovo
zastavíme pomocou tlačidiel Run, Pause s Stop (8), ktoré sú vo vrchnej časti obrazovky.
Napravo od nich sú opäť tri tlačidlá pre zmenu zobrazenie- návrhové zobrazenie,
výsledkové zobrazenie a úvodné zobrazenie (Design workplace, Result workplace
a Welcome screen) (9). Okrem týchto spomínaných prvkov sa tu nachádzajú ďalšie prvky,
známe aj z práce v programoch kancelárskeho balíka.
3.2 Tvorba data mainingového projektu metodológiou CRISP-DM
v programe RapidMiner
3.2.1 Porozumenie problematike
Ako bolo už spomenuté v predchádzajúcej časti našej práce, prvým krokom
k vytvoreniu úspešného
DM projektu
je dôkladné naštudovanie a porozumenie
problematike. V našej práci sa pozrieme na to, aké atribúty môžu mať vplyv na príjem
osôb. Predpokladáme, že tento príjem by mohol závisieť od vzdelania, pohlavia, rasy ale aj
iných atribútov. V ďalšej časti práce sa dozvieme viac o veľkosti vplyvu rôznych atribútov
na príjem. Následne vytvorený model by mohla využívať napríklad cestovná kancelária
ponúkajúca plavby okolo sveta, ktorá by svoje ponuky zasielala len vyššie príjmovým
osobám.
Tiež je potrebné stanoviť si ciele, ktoré chceme našim výskumom dosiahnuť. My si
môžeme zadefinovať ako cieľ zistenie základných štatistických údajov o rozličných
atribútoch a ich vplyv na celkový príjem osôb.
3.2.2 Pochopenie dát
Na pochopenie dát je nevyhnutné najskôr nejaké dáta získať. Náš dataset je z UCI
Machine Learning Respository (UCI, 2011). Obsahuje mnoho atribútov ako vek osoby, jej
30
zamestnávateľ, dosiahnuté vzdelanie, manželský status, rodinu, rasu, pohlavie, počet
odpracovaných hodín týždenne, krajinu pôvodu a indikátor ročného príjmu- či je väčší
alebo menší ako 50 tisíc dolárov ročne. Náš dataset je rozdelený na dva rôzne sadytrénovaciu (s 24 858 skúmanými osobami) a testovaciu (s 16 282 skúmanými osobami). Je
však nevyhnutné dodať, že nakoľko je tento dataset veľmi obsiahly, niektoré údaje v ňom
chýbajú. Tento problém však vyriešime v ďalších fázach nášho projektu.
Typy hodnôt atribútov v RapidMiner
Teraz si popíšeme jednotlivé atribúty a typy hodnôt, ktoré ich vyjadrujú. Atribút vek a
numerické vzdelanie zastupuje číselná hodnota (numeric), zamestnávateľ, vzdelanie,
status, pracovná pozícia, rodina, rasa a krajina pôvodu sú zas všetko atribúty polynomickévýber pozostáva z viac ako dvoch rôznych hodnôt (polynomic). Pohlavie a príjem sú zas
binomickými atribútmi- nadobúdajú jednu z dvoch hodnôt (binomic). V nasledujúcej
tabuľke (tabuľka 2) sú zobrazené typy hodnôt, ktoré môžu atribúty v RM nadobúdať.
Tabuľka 2: Typy hodnôt v RapidMiner
Zdroj: (RAPID-I, 2010)
Najlepším spôsobom na pochopenie dát je ich grafické zobrazenie. Software RM
ponúka široké spektrum možností, ako tieto dáta zobraziť. Na to však potrebujeme naše
dáta načítať do programu RM.
31
Načítanie dát
Otvoríme si program RM, vytvoríme si nový projekt kliknutím na „New“, pomenujeme
ho a vyberieme miesto uloženia. Na záložke Respositories sa nám kliknutím na šípku
vedľa ikony na načítanie dát zobrazí na výber paleta formátov na import dát, z ktorých
vyberieme formát nášho datasetu. Naše dáta sú uložené vo formáte .xls (zošit programu
Excel 97-2003), preto vyberieme možnosť Import Excel sheet (načítať excelovský hárok).
Spustí sa Data import wizard, ktorý nás prevedie celým procesom načítania dát. Po výbere
dát z disku počítača v kroku 1 sa presunieme ku kroku 2. Tu sa nám zobrazí prehľad
celého datasetu v excelovskej tabuľke. Pokiaľ je v danom súbore viac hárkov, v tomto
kroku si vyberieme ten, s ktorým chceme ďalej pracovať. V kroku 3 môžeme každému
riadku prideliť krátky popis- anotáciu (annotation). Keďže náš dataset obsahuje vo
vrchnom riadku názov stĺpcov, jeho anotácia bude meno (name). Na výber máme ešte
možnosť popis (comment) alebo jednotka (unit). Asi najvýznamnejším krokom importu
dát je krok 4. V tomto kroku sa nám zobrazia všetky stĺpce. Práve tu máme možnosť
odobrať stĺpce, s ktorými nechceme pracovať. Každý stĺpec je definovaný tromi
špecifikáciami. Prvou z nich j názov, ktorý tu môžeme zmeniť. Pod názvom je scorllovacie
okienko na určenie a zmenu typu hodnoty v danom stĺpci. Môžeme vybrať z mnohých
číselných aj nečíselných charakteristík, ako sme už spomínali. Poslednou charakteristikou
je zadefinovanie role atribútu tiež pomocou scrollovacieho okna, ktoré ponúka na výber
širokú paletu rolí. Môžeme si vybrať napríklad rolu identifikátora (ID), váh (weight),
klastra (cluster) a iných. Pokiaľ atribút nemá žiadnu špeciálnu rolu a len popisuje
premennú, ostane len atribútom (attribute). Špeciálnu úlohu má rola cieľovej premennej
(label), ktorá popisuje premennú a musí byť predikovaná premennými, ktoré ešte nie sú
charakterizované. V každom datasete je nevyhnutné zadefinovať, ktorá premenná
nadobudne úlohu tejto cieľovej premennej. Samozrejme, cieľovú premennú je možné
v ďalšom priebehu práce jednoducho zmeniť. Na spodnom riadku je tiež zobrazené, koľko
náš dataset obsahuje chýb. V poslednom 5. kroku už iba vyberieme miesto, kam chceme
importované dáta uložiť a dokončíme import.
Vizualizácia dát
Keď sme dokončili import dát, pod záložkou Respositories by sme mali nájsť náš
dataset. Ten prenesieme myšou do okna procesu. Zobrazí sa nám operátor Retrieve. Jeho
output (out) spojíme s výsledkom procesu (res) a klikneme na Run. Po dotazoch na
uloženie procesu a zatvorenie predchádzajúcich výsledkov sa nás program opýta, či sa
32
chceme prepnúť do zobrazenia výsledkov, čo chceme. Záložka Result Overview zobrazuje
všetky doterajšie procesy, ich trvanie, dátum a čas spustenia. ExampleSet (Retrieve) nám
ponúka zaujímavejšie informácie. Máme na výber z rôznych možností pohľadov. Meta
Data View ponúka prehľadné zobrazenie všetkých atribútov, ich rolu, názov a typ. Tiež sú
tu uvedené základné štatistické údaje, interval či počet chýbajúcich hodnôt. Data View zas
ponúka zobrazenie podobné Excel tabuľke so všetkými údajmi ako to zobrazuje príloha 1.
Nás však zaujíma už spomínaná vizualizácia. Tú získame po kliknutí na Plot View.
Toto zobrazenie ponúka širokú paletu grafov (Scatter, Pie, Histogram,...). Napríklad
príloha 2 nám zobrazuje závislosť počtu odpracovaných hodín týždenne a rasy. Tiež
môžeme vidieť, aký majú tieto premenné vplyv na celkový ročný príjem.
Vidíme, že najviac pracovných hodín týždenne odpracujú ľudia bielej rasy. Najmenej
naopak pôvodný obyvatelia Ameriky- Indiáni a Eskimáci.
Ďalším zobrazeným grafom (príloha 3) je blokový graf, ktorý nám pomôže pochopiť
ako navzájom súvisia pohlavie, zamestnávateľ a dosiahnuté vzdelanie.
Môžeme vidieť, že najvyššie dosiahnuté vzdelanie majú ženy pracujúce v štátnej sfére.
Vzdelanie mužov, ktorých zamestnáva štátna sféra zaostáva za vzdelaním žien a je
priemerné. Pomocou takéhoto zobrazenia môžeme zobraziť vzájomné súvislosti viacerých
atribútov.
3.2.3 Príprava dát
V tejto fáze nášho projektu by sme mali pripraviť naše dáta na ich ďalšie spracovanie.
Vďaka tomu, že získaný dataset máme v prehľadnej excelovskej tabuľke, môže priamo
prejsť k čisteniu dát. Nakoľko však nedokážeme overiť, či sú získané dáta v tabuľke
správne, neostáva nám iná možnosť ako s nimi pracovať. V následujúcej časti si tiež
ukážeme, ako doplniť chýbajúce údaje v datasete priamo v programe RapidMiner. Tiež
v tomto programe dokážeme dáta znormovať a tým spojiť modelovaciu fázu s fázou
prípravy dát.
3.2.4 Modelovanie
Prvým krokom vo fáze modelovania je výber techník, ktoré použijeme. Na naše účely
si
ukážeme
techniky
stromového
modelu,
predikciu
pomocou
bayesovského
klasifikovania, korelačnú maticu a zhlukovanie pomocou k-priemerov. Následne overíme
rozhodovací stromový model na testovacom dataste.
33
Metódy sme si vybrali, môžeme pristúpiť k modelovaniu. Ako je spomenuté
v predchádzajúcom texte, model sa vytvára na datasete trénovaciom a kvalitu overíme na
datasete testovacom.
Rozhodovací stromový model (Decision Tree)
Prvým modelom, ktorý zostrojíme je rozhodovací stromový model. Zo záložky
Respositories si vyberieme naše dáta a prenesieme ich do okna procesu. Následne sa
prepneme na záložku Operators, v zložke Modeling si vyberieme podzložku Classification
and regression. Tu už rozklikneme Tree induction a vyberieme operátor Decision tree.
Operátory však nespájame.
Ako bolo už spomenuté, niektoré z údajov v našom datasete chýbajú. Preto ich
pomocou operátora Replace missing values doplníme. Tento operátor nájdeme v zložke
Data transformation, v podzložke Data cleansing. Po prenesení do okna procesu môžeme
na záhlavie operátora kliknúť, po čom sa nám objaví vpravo možnosť nastaviť rôzne
parametre tohto operátora. Attribute filter type nám dáva možnosť doplniť hodnoty len do
vybraných atribútov. Pomocou možnosti Default si zas môžeme určiť, aké hodnoty majú
byť doplnené na miesto chýbajúcich, napr. nula, minimum, maximum, priemer, ručne
zadaná hodnota alebo iné(v našom prípade necháme tento parameter na predvolenej
hodnote- priemere). Tento operátor spojíme s operátorom Retrieve.
Ďalej je potrebné nastaviť rolu cieľovej premennej pre jeden z atribútov. V našom
datasete rolu cieľovej premennej nadobúda atribút „prijem“. Pre zadefinovanie tohto
atribútu ako cieľovej premennej nám poslúži operátor Set role. Nájdeme ho v záložke Data
transformation, v podzložke Name and role modification. Najskôr tento operátor spojíme
s operátorom Replace missing values. Vďaka tomuto spojeniu si po rozkliknutí tohto
operátora môžeme v nastavení parametrov vybrať v ponuke Name z našich atribútov.
Target role zas dáva výber z rôznych rolí, my si vyberieme Label. Môžeme tiež doplniť aj
role iných atribútov pomocou Set additonal roles. Operátor Set role teraz môžeme spojiť
s Decision tree. Jeho parametre necháme zatiaľ nezmenené a spustíme proces tlačidlom
Run.
Po zobrazení výsledkového zobrazenia na zložke Tree (Decision Tree) môžeme vidieť
náš veľmi rozsiahly strom. Keďže je veľmi nepriehľadný, môžeme sa zamyslieť nad tým,
ktoré operátory sú pre náš projekt podstatné a ostatné môžeme vynechať. Pre
zjednodušenie nášho modelu budú postačujúce len atribúty príjem, vek, numerické
vzdelanie a pohlavie. Na výber týchto atribútov využijeme operátor Select attributes zložky
34
Transformation, ktorý sa nachádza v podzložke Attribution set Reduction and
transformation v Selection. Operátor zapojíme za Set Role pred Decision tree. V jeho
parametroch nastavíme Attribute filter type na Subset. Toto nastavenie nám umožňuje
vytvoriť z celej množiny atribútov podmnožinu s nami vybranými atribútmi. Je tiež možné
si
vybrať
len
jeden
z atribútov
(Single),
atribút
bez
chýbajúcich
hodnôt
(No_missing_values), s číselnou podmienkou (Numeric_value_filter) a iné. Parameter
Attributes nám dáva možnosť vybrať si konkrétne atribúty do našej podmnožiny.
Po vytvorení tejto podmnožiny sa ešte pozrieme na parametre operátora Decision tree.
Dôležitým parametrom je kritérium (Criterion), ktoré špecifikuje použité kritérium na
výber atribútov a delenie čísel. Na výber máme opäť viacero možností. Predvoleným je
Gain_ratio- koeficient nárastu. Môžeme si vybrať aj Information_gain- koeficient nárastu
znalosti, ktorý je často vyžívaný na rozhodnutie, ktoré z atribútov sú najviac významné
a mali by byť testované blízko koreňa stromu, Gini_index- giniho koeficient využíva na
výpočet štatistický rozptyl alebo Accuracy- presnosť. My využijeme giniho koeficient.
Ďalšími parametrami, ktoré nastavíme sú Minimal split size na 2 (minimálna veľkosť uzlu,
aby bolo povolené ďalšie rozdelenie), Minimal leaf size na 2 (minimálna veľkosť každého
z listov), Minimal gain na 0,1 (minimálny nárast, ktorý musí byť dosiahnutý, aby došlo
k rozštiepeniu), Maximal depth na 20 (maximálny počet úrovní stromu) a Confidence na
0,1 (interval spoľahlivosti).
Obrázok 6: Process view stromového modelu v RapidMiner
Zdroj: Vlastné spracovanie podľa RapidMiner
Po spustení celého procesu sa nám zobrazí výsledkové zobrazenie a na zložke Tree
(Decision Tree) môžeme opäť vidieť náš strom, rovnako ako v prílohe 4. Teraz je menší
a prehľadnejší. Čo nám však tento model hovorí?
Pozrime sa na „list stromu“, ktorý je úplne napravo. Vypovedá o tom, že ak numerické
vzdelanie osoby je viac ako 11,5 (teda aspoň 12 ukončených ročníkov), jej vek je viac ako
31,5 roka a touto osoba je ženou a s minimálne 15 ukončenými školskými ročníkmi, má
35
najväčší predpoklad aby zarábala viac ako 50 tisíc dolárov ročne. Zo všetkých 105 žien,
ktoré spĺňajú tieto kritéria zarába 64 z nich viac ako 50 tisíc dolárov (61%). Naopak úplne
ľavý list nám hovorí, že ak nemá niekto ukončených ani 12 školských ročníkov, nebude
s vysokou pravdepodobnosťou zarábať viac ako 50 tisíc dolárov ročne (84% z 17 909
respondentov).
Bayesovské klasifikovanie (Naive Bayes)
Ďalším modelom, ktorého zostrojenie si ukážeme je Bayesovský model (Naive bayes).
Proces bude pozostávať z podobných operátorov ako v predchádzajúcom modeli. Prvým
operátorom bude načítanie dát (Retrieve), ďalej vyčistíme dataset od chýbajúcich hodnôt
(Replace missing values) a určíme cieľovú premennú (Set role). Operátor Select attributes
vynecháme a budeme pracovať s celým datasetom so všetkými atribútmi. Aby sme mohli
kasifikovať náš dataset, je potrebné vložiť operátor Naive bayes. Ten nájdeme v záložke
Modeling, Classification and regession a Bayesian modelling. Vložíme ho do okna procesu
a spojíme so Set role. Ako môžeme napravo vidieť, nie je možné nastavovať množstvo
parametrov. Jediný, ktorý môžeme nastaviť je Laplace correction, ktorý zabráni
nadmernému vplyvu nulových pravdepodobností. My ho však necháme nezaškrtnutý.
Tlačidlom Run spustíme proces a presunieme sa do Result view na záložku
SimpleDistribution (Naive bayes).
Obrázok 7: Process view bayesovského klasifikovania v RapidMiner
Zdroj: Vlastné spracovanie podľa RapidMiner
Máme možnosť viacerých zobrazení. Najskôr sa pozrieme na Plot View. V tomto
grafickom zobrazení (príloha 5) vidíme distribučnú funkciu rozloženia atribútov
v závislosti od cieľovej premennej. Najskôr sa pozrieme na atribút pracovné hodiny
(prac.hod.). Vidíme, že premenná je spojitá a rozdelenie pracovných hodín u osôb
s prímom nad 50 tisíc dolárov je špicatejšie, ako rozdelenie u osôb zarábajúcich menej. Je
tiež viac posunuté doprava, keďže priemerný počet týždenných odpracovaných hodín viac
36
príjmových osôb je okolo hodnoty 45 hodín týždenne, kým u menej príjmových osôb je to
približne 40 hodín týždenne. Z grafu pohlaví zas vidíme, že 85% z osôb dosahujúcich
príjmy nad 50 tisíc dolárov sú muži a len 15% ženy. U osôb zarábajúcich menej je to 61%
mužov a 39 % žien.
Okrem grafického zobrazenia v Plot view si môžeme pozrieť výsledky aj v tabuľke
(Distribution table). V prílohe 5 tiež môžeme vidieť priemerné hodnoty jednotlivých
atribútov, ich smerodajné odchýlky a u polynomických a binomických atribútov aj podiel
jednotlivých znakov v závislosti na cieľovej premennej.
Korelačná matica (Correlation Matrix)
V ďalšom modelovaní si priblížime proces tvorby korelačnej matice (Correlation
matrix). Táto matica na základe štatistických výpočtov vypočíta závislosti medzi
jednotlivými atribútmi a ich váhy. Opäť začneme rovnakými operátormi ako
v predchádzajúcich prípadoch- Retrieve, Replace missing values a Set role. Následne
posledný spomínaný operátor spojíme s operátorom Correlation matrix, ktorý je
umiestnený v záložke Modeling, v podzložke Correlation and dependency computation.
Tento operátor má tri výstupy. Prvým je ExampleSet (jeho výstup je nám už známy), ďalej
Correlation Matrix, ktorý je výstupom samotnej matice a posledným je AttributeWeights,
ktorý vypočíta váhy jednotlivých atribútov. Nastaviť môžeme len dva rôzne parametre- či
chceme znormovať váhy (Normalize weights) a či chceme vypočítať druhú mocninu
korelácie, tzv. koeficient determinácie (Squared correlation). V našom modeli využijeme
normovanie váh, no nepoužijeme koeficient determinácie. Pre spresnenie ešte pomocou
operátora Select attributes vyjmeme atribút numerické vzdelanie, nakoľko vyžijeme len
atribút vzdelanie s polynomickými hodnotami. Spustíme proces a prepneme sa do
zobrazenia výsledkov.
Obrázok 8: Process view korelačnej matice v RapidMiner
Zdroj: Vlastné spracovanie podľa RapidMiner
37
Najskôr si pozrieme výsledok určovania váh (AttributeWeights) (príloha 6).
Vidíme, že najväčší podiel na výške príjmu a teda aj najvyššie váhy s hodnotou 1
(maximálna možná hodnota 1 kvôli použitému normovaniu) má atribút počet
odpracovaných hodín. Najmenšie váhy 0 má naopak atribút status.
Ďalej sa zameriame na získanú korelačnú maticu. Z nej môžeme vyčítať silu a smer
závislostí medzi jednotlivými atribútmi. Hodnoty korelačnej matice sa pohybujú
v intervale <-1,1>. Čim viac sa hodnota blíži k 1, tým je silnejšia priama lineárna závislosť
medzi atribútmi, naopak keď sa hodnota blíži k -1, silnie nepriama lineárna závislosť
medzi atribútmi. Nulová hodnota vypovedá, že medzi premennými nie je lineárna
závislosť. Z matice teda vidíme, že medzi statusom a vekom je stredne silná priama
lineárna závislosť, teda môžeme očakávať, že s rastom veku sa bude meniť aj status.
Tabuľka 3: Korelačná matica v RapidMiner
Zdroj: Vlastné spracovanie podľa RapidMiner
Zhlukovanie podľa k-priemerov (k-means)
V tejto časti našej práce vyskúšame operátor na zhlukovanie podľa k-primerov.
Rovnako ako v predchádzajúcom modeli začneme rovnakými operátormi, a to Retrieve,
Replace missing values a Set role. Následne vložíme samotný operátor k-Means
nachádzajúci sa v zložke Modeling a podzložke Custering and segmentation. Keď tento
vložený operátor (Clustering) spojíme s operátorom Set role na spodnej časti obrazovky
zistíme, že sa vyskytol problém. k-Means nevie spracovať binomické atribúty. Samotný
program nám ponúka možnosti na vyriešenie tohto problému, po dvojkliku na navrhované
riešenia (Fixes) vidíme, že celý proces bol doplnený operátorom Nominal to numerical.
Tento operátor prevádza všetky nenumerické atribúty na atribúty s reálnymi hodnotami.
Prázdnym hodnotám je pridelená nula, binomické atribúty majú pridelené hodnoty 0 alebo
1. U polynomických atribútov zas závisí od počtu rôznych hodnôt, ktoré môžu nadobúdať
(0,1,2,3,...).
38
Pred samotným spustením procesu ešte nastavíme parametre operátora Clustering. Nás
zaujíma hlavne parameter k, ktorým určíme, koľko klastrov má byť detekovaných
(nastavíme na 5). Ďalej nastavíme parameter Max runs- maximálne množstvo opakovaní kMeans s náhodným nastavením hodnôt, ktoré sú vykonané (necháme na predvolenej
hodnote 10). Posledným z nastavovaných parametrov je parameter Max optimization
steps- maximálne množstvo opakovaní prevedených počas jedného procesu k-Means (tiež
necháme na predvolenej hodnote 100).
Obrázok 9: Process view k-Means v RapidMiner
Zdroj: Vlastné spracovanie podľa RapidMiner
Teraz môžeme pristúpiť k spusteniu procesu. Vo výsledkovom zobrazení sa prepneme
na Cluster Model (Clustering). V textovom zobrazení Text view vidíme, že sa celý dataset
rozdelil na 5 tried s rôznymi početnosťami. Centroid table je prehľadná tabuľka, ktorá
udáva parametre centroidu (stredu) každého z klastov. Podobne ako pri ostatných
modeloch je tiež možné z tabuľky vykresliť prehľadný graf.
Tabuľka 4: Tabuľka centoidov k-Means modelu v RapidMiner
Zdroj: Vlastné spracovanie podľa RapidMiner
Ako nevýhodu pri zhlukovej analýze vidím nemožnosť vytvoriť pomocou programu
podrobný dendrogram, ktorý by presnejšie ukázal kroky delenia a zhlukovania datasetu.
39
Testovanie datasetu pomocou stromového modelu
Keď sme si vyskúšali vytvorenie rôznych modelov v programe RapidMiner, môže
pristúpiť aj k procesu testovania vytvoreného modelu na testovacej množine datasetu.
Tento model sa bude od predchádzajúcich odlišovať hlavne v tom, že bude mať dve vetvyjednu trénovaciu a druhú testovaciu. Trénovacia horná (modrá) vetva je zhodná ako pri
budovaní rozhodovacieho stromového modelu (Decision tree). Poďme sa však pozrieť na
spodnú testovaciu (červenú) vetvu. Najskôr musíme načítať testovací dataset rovnako, ako
sme v prvej časti načítavali trénovací. Ďalej rovnako musíme doplniť chýbajúce hodnoty
(Replace missing values). Cieľovú premennú nenastavujeme. Teraz obe vetvy spojíme
operátorom, ktorý aplikuje výsledky testovacej množiny na trénovaciu- operátor Apply
model (Modeling- Model application). Nastavíme cieľovú premennú Set role na príjem
a vložíme operátor Performance (Evaluation- Performance measurement), ktorý určí
automaticky typ učiacej úlohy a vypočíta jej najbežnejšie kritériá. Performance má len
jeden nastaviteľný parameter, ktorý dáva užívateľovi na výber, či využiť vypočítané váhy
(Use example weights). My tento parameter necháme na predvolenej hodnote áno
a spustíme proces.
Obrázok 10: Process view aplikácie rozhodovacieho stromového modelu na testovací
dataset v RapidMiner
Zdroj: Vlastné spracovanie podľa RapidMiner
Vo výsledkovom zobrazení sa prepneme priamo na PerformaceVector (Performance),
kde sa nám zobrazí tabuľka 6. V nej vidíme, že presnosť nami vytvoreného stromového
modelu prostredníctvom trénovacieho datasetu aplikovaného na testovací dataset je
82,17%. V ľavom hornom okienku sa nachádza hodnota 11 623, ktorá nám hovorí, že
v takomto množstve boli hodnoty predikované na menej alebo rovno 50 tisíc dolárov a túto
40
cieľovú premennú dosiahli, čiže predikcia bola správna. Naopak ľavá horná hodnota 2 100
v tabuľke 6 hovorí, že cieľová premenná bola predikovaná ako menej alebo rovno 50 tisíc
dolárom, avšak v skutočnosti bola táto cieľová premenná viac ako 50 tisíc dolárov, to
znamená, že predikcia bola chybná.
Tabuľka 5: Tabuľka presnosti pri aplikácií rozhodovacieho stromového modelu na
testovací dataset v RapidMiner
Zdroj: Vlastné spracovanie podľa RapidMiner
3.2.5 Vyhodnotenie výsledkov
V tomto kroku je potrebné určiť, či je prítomný nejaký dôvod, pre ktorý by mal byť
tento model nedostatočný. Môžeme povedať, že bola vyvinutá snaha o vytvorenie čo
najviac vierohodného modelu. Je však potrebné dodať, že kvôli neúplnosti dát môžu byť
výsledky modelovania skreslené. Vytvorený model je tiež možné ohodnotiť tak, že ho
implementujeme a sledujeme, aká je úroveň jeho kvality. My sme model nasadili na
testovaciu množinu a zistili sme, že úroveň jeho presnosti je pomerne vysoká (82,17%),
čiže môžeme náš model pokladať za kvalitný. Môžeme teda náš projekt ukončiť a prejsť na
fázu využitia a nasadenia výsledkov. Nie je potrebné aby sme opakovali niektoré fázy DM
resp. celý projekt.
3.2.6 Využitie výsledkov a ich nasadenie
Ako sme už v predchádzajúcich častiach práce podotkli, tvorba modelu nie je
záverečnou fázou a ukončením projektu. Teraz je potrebné zosumarizovať projekt
a prezentovať výsledky užívateľom DM analýzy.
V DM projekte sme analyzovali získaný dataset prostredníctvom viacerých techník.
Zistili sme pomocou rôznych metód modelovania, že rôzne atribúty majú na celkový
príjem rozličný vplyv. Najväčší vplyv má počet odpracovaných hodín, avšak silno na
celkový príjem vplývajú aj iné atribúty ako pohlavie, rodina a zamestnávateľ. Naopak
najnižší vplyv na príjem majú status a rasa. Tiež sme sa dozvedeli, že medzi jednotlivými
atribútmi sú rôzne silné priame a nepriame závislosti, no väčšina atribútov je nezávislá od
iných. Bayesovská klasifikácia nám zas umožnila náhľad na priemerné hodnoty
jednotlivých atribútov, ich smerodajné odchýlky a u polynomických a binomických
41
atribútov aj podiel jednotlivých znakov v závislosti na cieľovej premennej. Keď sme
otestovali náš zostrojený rozhodovací stromový model na testovacom datasete dosiahli sme
pomerne vysokú presnosť, čo nám dáva istotu, že model je zostrojený správne. Takto
zostrojený model teda môžeme aplikovať na nových jedincov a len pomocou spomínaných
atribútov s vysokou presnosťou môžeme zistiť, či je daná osoba vysokopríjmová alebo
nízkopríjmová. Takéto vedomosti dávajú možnosť rôznym spoločnostiam využiť DM na
výber osôb pre cielený marketing.
42
ZÁVER
V tejto bakalárskej práci sme sa zaoberali hĺbkovou analýzou dát- DM. V práci sme sa
snažili vymedziť pojem DM a popísať jeho využitie vo verejnom sektore a verejných
financiách, rovnako sme sa snažili poukázať na možnosti a význam voľne dostupných
softvérových nástrojov pre riešenie úloh DM a pre hĺbkovú analýzu údajov.
Na splnenie daného cieľa bolo potrebné v prvej kapitole podrobne vymedziť pojem
DM. Tiež sme čitateľa kvôli bližšiemu pochopeniu oboznámili s historickým vývinom DM
a rovnako aj s často využívanou metodológiou CRISP-DM. Ďalej sme čitateľovi ozrejmili
aj rozličné možnosťami využitia DM, priblížili sme jeho úlohy a niektoré z využívaných
techník, čím sme splnili čiastkový cieľ.
V ďalšej časti sme sa bližšie zamerali na verejný sektor a verejné financie a ukázali si,
aký je rozdiel medzi týmito dvoma pojmami. Rovnako sme si priblížili aj možnosti
využitia DM v rozličných sférach verejného sektora, vďaka čomu sme naplnili druhý zo
zadefinovaných čiastkových cieľov.
Tretia, praktická časť bola zameraná na vypracovanie DM projektu pomocou
metodológie CRISP-DM vo voľne dostupnom programe RapidMiner. V tejto časti sa
najskôr mohol čitateľ stručne oboznámiť s programom RapidMiner, jeho pracovným
prostredím a možnosťami, ktoré ponúka. Ďalej nasledovalo samotné spracovanie
vybraného datasetu v spomínanom programe. Celé toto spracovanie prebiehalo podľa
metodológie CRISP-DM a jej fáz- porozumenia problematike, pochopenia dát, prípravy
dát, modelovania, vyhodnotenia výsledkov a využitia výsledkov. Modelovanie prebiehalo
prostredníctvom viacerých techník- rozhodovacieho stromového modelu, Bayesovského
klasifikovania, korelačnej matice a zhlukovania podľa k-priemerov. Náš testovací dataset
sme tiež otestovali pomocou rozhodovacieho stromového modelu a určili sme presnosť
tohto modelu. V tejto časti sme naplnili aj tretí čiastkový cieľ.
Prínosom tejto práce je aj ukážka využitia softvéru RapidMiner, ktorý je pre
spoločnosti voľne dostupný. Vo vypracovanom projekte môžeme vidieť, že tento nástroj
dokáže vykonať veľké množstvo práce a spoločnosť na jeho samotné obstaranie nemusí
vynaložiť žiadne prostriedky.
Vďaka získaným teoretickým znalostiam a pomocou aplikácie týchto znalostí v
praktickej časti môžeme skonštatovať, že sa nám podarilo splniť cieľ našej práce. Nakoľko
však daná problematika predstavuje veľmi širokú škálu možností, odporúča sa
v budúcnosti túto tému ďalej študovať a prakticky s ňou pracovať.
43
BIBLIOGRAFIA
BAILEY, S. J. 1995. Public Sector Economics. London : Macmillan, 1995. ISBN 0-0770345-2.
BERKA, P. 2003. Dobývání znalostí z databází. Praha : Academia, 2003. s. 366. ISBN 80200-1062-9.
BERRY, M. J.A. a LINOFF, G. 2004. Data mining techniques : for marketing, sales, and
customer. Indianapolis : Wiley, 2004. s. 643. ISBN 0-471-47064-3.
BHAGVI, P. a JYOTHI, S. 2009. Applying Naive Bayes Data Mining Technique for
Classification of Agricultural Land Soils. August 2009, Zv. 9, 8.
BORZOVÁ, A., MEDVEĎ, J. a kol. 1997. Úvod do teórie financií a meny. Banská
Bystrica : Fakulta financií Univerzity Mateja Bela, 1997. ISBN 80-8055-091-3.
BRAMER, M. 2007. Principles of Data Mining. Londýn : Springer, 2007. s. 343. ISBN 184628-765-0.
CRISP. 2011. CRISP-DM. /www.crisp-dm.org. [Online] 2011. [Dátum: 24. 3 2011.]
http://www.crisp-dm.org/.
2010. Data Mining Tasks. Tutorial-Computer.com. [Online] 2010. [Dátum: 20. 3 2011.]
http://www.tutorial-computer.com/database/data-warehouse/73-data-mining-tasks.
DELAVARI, N., PHON-AMNUAISUK, S. a BEIKZADEH, M. R. 2008. Data Mining
Application in Higher Learning Institutions. 2008, Zv. 7, 1.
GÁLA, L., POUR, J. a ŠEDIVÁ, Z. 2009. Podniková informatika. Praha : Grada, 2009.
s. 496. ISBN 978-80-247-2615-1.
GARSON, D. G. a KHOSROW-POUR, M. 2008. Handbook of research on public
information technology. Hershey : Information Science Reference, 2008. s. 1064. ISSN
978-1-59904-858-1.
GORUNESCU, F. 2008. International Journal of Biological and Life Science. 2008, Zv.
4, 2.
HÁVA, O. 2010. Data mining okolo nás. SPSS press archív. [Online] 2010. [Dátum: 31. 3
2011.] http://www.spss.sk/files/marketing/profcomputing_042008.pdf.
CHAKRABARTI, S. a kol. 2009. Data mining: know it all. Burlington : Elesevier, 2009.
s. 460. ISBN 978-0-12-374629-0.
LAROSE, D. T. 2005. Discovering knowledge in data : an introduction to data mining.
New Jersey : Wiley, 2005. s. 222. ISBN 0-471-66657-2.
44
MENA, J. 2003. Investigative Data Mining for Security and Criminal Detection.
Burlington : Butterworth Heinemann, 2003. s. 452. ISBN 0-7506-7613-2.
MERIČKOVÁ, B. 2007. Funkcie a rozsah verejných financií. [aut.] J. MEDVEĎ, J.
NEMEC a kol. Verejné financie. Bratislava : Sprint, 2007, s. 269.
NOVOTNÝ, O., POUR, J. a SLÁNSKÝ, D. 2005. Business Intelligence - Jak využít
bohatství ve vašich datech. Praha : Grada, 2005. s. 254. ISBN 80-247-1094-3 .
OMITAOMU, O. A. 2005. Decition Trees. [aut.] M. W. BERRY a M. BROWNE.
Lecture Notes in Data Mining. Singapore : World Scientific, 2005.
PARALIČ, J. 2003. Objavovanie znalostí. Košice : Elfa, 2003. s. 80.
POSPÍŠIL, J. a NEMRAVA, M. 2006. [Online] 2006. [Dátum: 25. 4 2011.]
http://axpsu.fpf.slu.cz/~sos10um/trendy/DM.pdf.
RAPID-I. 2010. Manual RapidMiner 5.0+ (English). [Online] 2010. [Dátum: 1. 4 2011.]
http://sourceforge.net/projects/rapidminer/files/1.%20RapidMiner/5.0/rapidminer-5.0manual-english_v1.0.pdf/download.
SAS. 2011. Odvetvia / SAS® riešenie verejný sektor. [Online] SAS, 2011. [Dátum: 20. 3
2011.] http://www.sas.com/offices/europe/slovakia/industry/public/.
SAS. 2011. Produkty a riešenia / SAS® Data mining. [Online] SAS, 2011. [Dátum: 21. 3
2011.] http://www.sas.com/offices/europe/slovakia/solutions/crm/dmining.html.
SHEARER, C. 2000. The CRISP-DM Model: The New Blueprint for Data Mining.
Journal of Data Warehousing. 2000, Zv. 5, 4.
SPSS, a. s. 2010. Text mining. [Online] 2010. [Dátum: 31. 3 2011.]
http://www.spss.cz/textmining.htm.
STRECKOVÁ, Y. 1998. Teorie veřejného sektoru. Brno : Ekonomicko správní fakulta
Masarykova Univerzita, 1998. s. 214. ISBN 80-210-1737-6.
SUMATHI, S. a SIVANANDAM, S. N. 2006. Introduction to Data Mining and its
Applications. Berlin : Springer, 2006. s. 828. ISBN 3-540-34350-4.
ŠŤEDROŇ, B. 2009. Open Source software ve veřejné správě a soukromém sektoru.
Praha : Grada, 2009. s. 128. ISBN 978-80-247-3047-9.
THEARLINK, K. 2010. Data Mining and Analytic Technologies.
http://www.thearling.com/. [Online] 2010. [Dátum: 20. 3 2011.]
UCI. 2011. Adult Data Set . UCI Machine Learning Respository. [Online] 2011. [Dátum:
2. 4 2011.] http://archive.ics.uci.edu/ml/datasets/Adult.
45
ZOZNAM PRÍLOH
Príloha 1: Meta Data View (hore) a Data View (dole) zobrazenie v RapidMiner
Príloha 2: Graf závislostí počtu odpracovaných hodín týždenne a rasy v RapidMiner
Príloha 3: Blokový graf závislosti pohlavia, zamestnávateľa a dosiahnutého vzdelania
Príloha 4: Stromový model v RapidMiner
Príloha 5: Grafické a tabuľkové zobrazenie výsledkov bayesovského klasifikovania v
RapidMiner
Príloha 6: Blokový graf vypočítaných váh v RapidMiner
NA PRILOŽENOM CD
Príloha 7: Inštalačný súbor softvérovej aplikácie RapidMiner
Príloha 8: Adresár s vypracovanými modelmi vo formáte .rmp
Príloha 9: Adresár s použitými datasetmi vo formáte .xls
46
Príloha 1: Meta Data View (hore) a Data View (dole) zobrazenie v RapidMiner
Zdroj: Vlastné spracovanie podľa RapidMiner
47
Príloha 2: Graf závislostí počtu odpracovaných hodín týždenne a rasy v RapidMiner
Zdroj: Vlastné spracovanie podľa RapidMiner
48
Príloha 3: Blokový graf závislosti pohlavia, zamestnávateľa a dosiahnutého vzdelania
Zdroj: Vlastné spracovanie podľa RapidMiner
49
Príloha 4: Stromový model v RapidMiner
Zdroj: Vlastné spracovanie podľa RapidMiner
50
Príloha 5: Grafické a tabuľkové zobrazenie výsledkov bayesovského klasifikovania v
RapidMiner
Zdroj: Vlastné spracovanie podľa RapidMiner
51
Príloha 6: Blokový graf vypočítaných váh v RapidMiner
Zdroj: Vlastné spracovanie podľa RapidMiner
52
Download

UNIVERZITA MATEJA BELA V BANSKEJ BYSTRICI EKONOMICKÁ