UNIVERZITA MATEJA BELA V BANSKEJ BYSTRICI
EKONOMICKÁ FAKULTA
ANALÝZA POISŤOVACÍCH PRODUKTOV
S VYUŽITÍM METÓD DATAMININGU
DIPLOMOVÁ PRÁCA
C3404567-93B7-4CFE-A91A-CF750A1CC2DF
2010
Bc. Peter Hromada
UNIVERZITA MATEJA BELA V BANSKEJ BYSTRICI
EKONOMICKÁ FAKULTA
ANALÝZA POISŤOVACÍCH PRODUKTOV S VYUŽITÍM
METÓD DATAMININGU
Diplomová práca
C3404567-93B7-4CFE-A91A-CF750A1CC2DF
Študijný program: Financie, bankovníctvo a investovanie
Študijný odbor: 3.3.6. - financie, bankovníctvo a investovanie
Pracovisko (katedra/ústav): Katedra financií a účtovníctva
Vedúci diplomovej práce: doc. RNDr. Juraj Pančík, CSc.
Stupeň kvalifikácie: inžinier (v skratke „Ing.“)
Dátum odovzdania práce: 2010-05-03
Dátum obhajoby: ....................
Banská Bystrica 2010
Bc. Peter Hromada
Abstrakt
HROMADA, Peter: Analýza poisťovacích produktov s využitím metód dataminingu.
[Diplomová práca] / Bc. Peter Hromada. – Univerzita Mateja Bela v Banskej Bystrici.
Ekonomická fakulta; Katedra financií a účtovníctva. – Vedúci: Doc. RNDr. Juraj
Pančík, CSc. – Stupeň odbornej kvalifikácie: Inžinier. – Banská Bystrica : EF UMB,
2010. 84 s.
Diplomová práca sa zaoberá aplikáciou metód data miningu v oblasti poisťovníctva.
Zameriava sa na špecifické riziko, ktoré vzniká pri predaji poistných produktov –
riziko stornovanosti zmluvy. Cieľom práce je overenie vytvorených data miningových
modelov na nových dátach a identifikácia prípadných zmien, ktoré v modeloch
nastali. Objektom skúmania sú reálne údaje vybranej poisťovne pôsobiacej na
slovenskom poistnom trhu. Práca ponúka základné teoretické poznatky o aplikácii
data miningu v poisťovníctve. Opisuje proces vytvárania data miningových modelov
pre jednotlivé produkty poisťovne so zameraním sa na identifikáciu kľúčových
faktorov, ktoré ovplyvňujú stornovanie zmluvy. Na kvantifikáciu vplyvu jednotlivých
faktorov využíva softvérový nástroj SAS Enterpise Miner 5.3. Výstupom vykonanej
analýzy sú závery o kvalite a sile zostavených modelov ako i popis zmien, ktoré
v jednotlivých modeloch nastali. Doladením a spresnením zostavených modelov
vytvára priestor pre ich aplikáciu v praxi.
Kľúčové slová: Poistné riziko. Business Intelligence. Data mining. Analýza rizika.
2
Abstract
HROMADA, Peter: Analysis of insurance products using data mining techniques.
[Diploma thesis] / Bc. Peter Hromada. – Matej Bel University in Banská Bystrica.
Faculty of Economics; Department of Finance and Accounting. – Supervisor: Doc.
RNDr. Juraj Pančík, CSc. – Degree of Qualification: Master. – Banská Bystrica : EF
UMB, 2010. 84 p.
The thesis deals with application of methods of data mining in insurance. It focuses on
specific risk arising from the sale of insurance products - the risk of cancellation of
the contract. The objective of this work is to verify the existing data mining models on
new data and the identification of potential changes in models. The subjects of
analysis are actual data of the selected insurance company operating in the Slovak
insurance market. This work provides basic theoretical knowledge about the
application of data mining in system of insurance. It describes the process of creating
data mining models for individual insurance products, focusing on identifying the key
factors affecting the cancellation of the contract. To quantify the impact of individual
factors, the software tool SAS Enterpise Miner 3.5 has been used. The outputs of the
analysis are conclusions about the quality and strength of the models as well as a
description of the changes that occurred in individual models. Adjusting and
specifying the models make space for their further application in practice.
Keywords: Insurance risk. Business Intelligence. Data mining. Risk analysis.
3
Predhovor
Analýze údajov sa ľudstvo venuje už stáročia. Postupne vytvorilo metódy,
umožňujúce nájsť v množstve údajov hodnotné informácie, ktoré na prvý pohľad nie
sú zrejmé. Rozvoj informačných technológií a s tým spojený nárast spracovávaných
a ukladaných informácií vytvorili predpoklady pre vznik nástroja, ktorý v sebe zahŕňa
široké spektrum existujúcich matematických a štatistických metód analýzy údajov.
Takýmto nástrojom je data mining. Vďaka širokým možnostiam analýzy našiel tento
nástroj uplatnenie v mnohých oblastiach, medzi ktoré zaraďujeme aj oblasť
poisťovníctva. Rovnako ako v iných vyspelých krajinách, aj na Slovensku nachádza
data mining široké uplatnenie. V súčasnosti však ani zďaleka nedochádza k využitiu
plného potenciálu tohto nástroja.
Práve
perspektívnosť
rozšírenia
tohto
nástroja
a z toho
vyplývajúce
potenciálne využitie získaných poznatkov v budúcnosti patrili medzi hlavné faktory
pri výbere témy diplomovej práce. Rovnako dôležitým faktorom bola možnosť
aplikovať teoretické poznatky na reálnych údajoch, ktoré nám ochotne poskytla
vybraná životná poisťovňa. S využitím týchto údajov práca demonštruje praktickú
aplikáciu data miningu pri analýze rizika stornovanosti. Cieľom práce je overenie
existujúcich data miningových modelov na nových dátach. Výstupy analýzy by mali
dopomôcť poisťovni k lepšiemu riadeniu analyzovaného rizika a k minimalizácii strát
vyplývajúcich z realizácie tohto rizika.
Samotnú analýzu, ktorá je predmetom tejto práce, by nebolo možné realizovať
bez softvérového nástroja od spoločnosti SAS Slovensko, preto by som sa chcel touto
cestou poďakovať spoločnosti SAS Slovensko za bezplatné poskytnutie licencie.
Rovnako ďakujem vedúcemu mojej diplomovej práce doc. RNDr. Jurajovi Pančíkovi,
CSc. za pedagogické usmernenie a cenné rady. Moja vďaka patrí taktiež RNDr. Márii
Maryniakovej za pomoc pri zorientovaní sa v oblasti poisťovníctva.
Zároveň čestne prehlasujem, že som diplomovú prácu spracoval samostatne,
na základe vlastných vedomostí a s použitím uvedenej literatúry a softvéru.
Peter Hromada
4
Obsah
Zoznam ilustrácií....................................................................................................... 7
Zoznam tabuliek ........................................................................................................ 8
Zoznam použitých skratiek ....................................................................................... 9
Úvod ......................................................................................................................... 10
1 Teoretická východiská analýzy poisťovacích produktov s využitím metód
data miningu ...................................................................................................... 12
1.1 Business Intelligence – základné princípy a praktické využitie v riadení
podnikov ........................................................................................................ 13
1.2 Data mining – analytický komponent BI na hĺbkovú analýzu údajov .............. 15
1.2.1 Nástroje a priebeh hĺbkovej analýzy údajov............................................ 17
1.2.2 Data mining v poisťovníctve .................................................................. 19
1.3 Riziko ako dôležitý determinant pri rozhodovaní ............................................ 20
1.3.1 Všeobecné vymedzenie rizík .................................................................. 21
1.3.2 Riziká v poisťovníctve ........................................................................... 22
1.3.3 Riziko stornovanosti zmluvy .................................................................. 22
1.4 Harmonizácia predpisov v oblasti poisťovníctva v rámci Európskej únie –
Solvency II ..................................................................................................... 23
1.5 Praktická aplikácia data miningu v prostredí nástroja SAS Enterprise Miner .. 26
1.5.1 Charakteristika spoločnosti SAS ............................................................ 27
1.5.2 Proces data miningu v prostredí SAS Enterprise Miner .......................... 28
2 Praktická aplikácia dataminingu pri analýze rizika stornovanosti ................. 32
2.1 Charakteristika poisťovne a analyzovaných produktov ................................... 33
2.1.1 Produkty kapitálového životného poistenia............................................. 33
2.1.2 Produkty investičného poistenia ............................................................. 34
2.1.3 Produkty rizikového poistenia ................................................................ 34
2.2 Príprava analyzovaných dát ............................................................................ 35
2.3 Analýza v prostredí zvoleného softvérového nástroja ..................................... 36
2.3.1 Analýza produktov kapitálového životného poistenia ............................. 37
2.3.2 Analýza produktov investičného životného poistenia.............................. 47
2.3.3 Analýza produktov rizikového poistenia ................................................. 52
3 Vyhodnotenie vykonanej analýzy a zhrnutie prínosov pre poisťovňu ............ 58
3.1 Vyhodnotenie výstupov analýzy pri produkte 1A ........................................... 59
5
3.2 Vyhodnotenie výstupov analýzy pri produkte 2B............................................ 62
3.3 Vyhodnotenie výstupov analýzy pri produkte 3B............................................ 64
3.4 Prínos vykonanej analýzy a jej záverov pre poisťovňu .................................... 68
Záver ........................................................................................................................ 69
Resumé..................................................................................................................... 70
Zoznam bibliografických odkazov.......................................................................... 71
Prílohy ..................................................................................................................... 73
6
Zoznam ilustrácií
Obrázok 1 Všeobecná koncepcia architektúry Business Intelligence ......................... 14
Obrázok 2 Vývoj tržieb spoločnosti SAS (1976 - 2009) ........................................... 28
Obrázok 3 Vývoj záujmu o produkt 1A .................................................................... 38
Obrázok 4 Vývoj záujmu o produkt 1B .................................................................... 43
Obrázok 5 Vývoj záujmu o produkt 1C .................................................................... 45
Obrázok 6 Vývoj záujmu o produkt 2A .................................................................... 48
Obrázok 7 Vývoj záujmu o produkt 2B .................................................................... 50
Obrázok 8 Vývoj záujmu o produkt 3A .................................................................... 53
Obrázok 9 Vývoj záujmu o produkt 3B .................................................................... 55
Obrázok 10 Rozhodovací strom pri produkte 1A ...................................................... 61
7
Zoznam tabuliek
Tabuľka 1 Porovnanie základných ukazovateľov jednotlivých modelov ................... 59
Tabuľka 2 Hodnoty odds ratio pre jednotlivé kraje pri produkte 1A.......................... 60
Tabuľka 3 Vybrané štatistické ukazovatele logaritmickej regresie ............................ 62
Tabuľka 4 Porovnanie významnosti identifikovaných premenných pri produkte 2B . 64
Tabuľka 5 Základné ukazovatele jednotlivých modelov pri produkte 3B .................. 66
8
Zoznam použitých skratiek
BI
Business Intelligence
CEIPOS Committee of European Insurance and Occupational Pension Supervisors
CRM
Customer Relationship Management
DM
Data Mining
DSA
Data Staging Area
DWH
Data Warehouse
EAI
Enterprise Application Integration
EIS
Executive Information Systems
ERP
Enterprise Resource Planning
ETL
Extraction Transformation Loading
MCR
Minimal Capital Requirements
ODS
Operational Data Store
OLAP
Online Analytical Processing
PHP
Personal Home Page – programovací jazyk
ROC
Receiver Operating Characteristics
SAS EM SAS Enterprise Miner
SCR
Solvency Capital Requirements
SEMMA Sample, Explore, Modify, Model, Access - metodika práce v aplikácii SAS
Enterprise Miner
9
Úvod
Riziko je pre poisťovne špecifickým faktorom, ktorý zásadným spôsobom
ovplyvňuje ich činnosť a rozhodovanie manažmentu poisťovne. Z toho dôvodu sa
manažmentu rizika v poisťovni prisudzuje značný význam. Úspešnosť riadenia rizík
sa odvíja od množstva faktorov. Medzi tieto faktory radíme aj kvalitu nástrojov, ktoré
má poisťovňa k dispozícii. Jedným z nástrojov vhodných pri riadení rizika je aj data
mining.
Vzhľadom na súčasnú ekonomickú situáciu sa stáva riadenie rizík ešte
dôležitejšou témou, a to nielen v poisťovníctve. Z pohľadu poisťovní vzrastie potreba
presnejšieho riadenia rizík aj v súvislosti so schválenou smernicou Solvency II, ktorá
nadobudne účinnosť v najbližších rokoch. Vzniká tak priestor pre praktické uplatnenie
data miningu v poisťovniach. V práci sa venujeme práve aplikácii data miningu v
poisťovni, pričom vzhľadom na rozsah práce sa zameriavame iba na jedno z mnohých
rizík, riziko stornovanosti. Pri samotnej analýze vychádzame z výsledkov a záverov
analýzy vykonanej Ing. Ivanou Hujíkovou v predchádzajúcom roku.
Cieľom našej práce je overenie vytvorených data miningových modelov na
nových dátach a identifikovanie prípadných zmien, ktoré v modeloch nastali. Zároveň
sa pokúsime zhodnotiť kvalitu zostavených modelov a následne opraviť prípadné
chyby v modeloch.
V prvej
kapitole
pristúpime
k teoretickému
vymedzeniu
skúmanej
problematiky. Na úvod kapitoly si bližšie definujeme pojem Business Intelligence,
pod ktorý samotný data mining zaraďujeme. Následne sa pozastavíme pri vymedzení
jednotlivých rizík so zameraním sa na riziká špecifické pre oblasť poisťovníctva
a nami skúmané riziko stornovanosti. Už z vyššie spomenutých dôvodov sa budeme
venovať taktiež novej smernici Solvency II. V závere prvej kapitoly si predstavíme
softvérový nástroj SAS Enterprise Miner, charakterizujeme spoločnosť SAS
a teoreticky vymedzíme kroky data miningovej analýzy v prostredí tohto nástroja.
V druhej
kapitole
sa
budeme
venovať
samotnej
analýze.
Stručne
charakterizujeme jednotlivé analyzované produkty vybranej poisťovne a popíšeme
úpravy, ktoré bolo potrebné na dátach dodaných poisťovňou vykonať. Následne
opíšeme proces zostavovania data miningových modelov pre jednotlivé produkty so
zameraním sa na popísanie štruktúry nových údajov.
10
V záverečnej tretej kapitole pristúpime k vyhodnoteniu analýzy. Poukážeme
na prípadné zmeny, ktoré v zostavených modeloch nastali a zhodnotíme kvalitu
zostavených modelov. Taktiež charakterizujeme významné premenné, ktoré najviac
vplývajú na skúmaný jav a intenzitu vplyvu týchto premenných. Nakoniec
zhodnotíme prínos vykonanej analýzy a jej záverov pre poisťovňu. Vzhľadom na
dôverný charakter niektorých informácií sa však budeme venovať iba interpretácii
záverov analýzy pri vybraných produktoch.
11
1 Teoretická východiská analýzy poisťovacích produktov s využitím
metód data miningu
Aby sme sa mohli bližšie venovať problematike data miningu, na úvod sa
pozastavíme pri pojme Business Intelligence, pod ktorý oblasť data miningu
zaraďujeme. Následne si objasníme a vymedzíme samotný pojem data mining. Keďže
sa v našej práci venujeme praktickej aplikácii data miningu v poisťovníctve so
zameraním na odhaľovanie a kvantifikáciu rizík pri predaji poistných produktov,
v ďalšej podkapitole si priblížime taktiež riziká ako dôležitý determinant pri
rozhodovaní a bližšie sa zameriame na riziká, ktoré vznikajú pri poisťovacej činnosti.
Podrobnejšie sa budeme venovať riziku stornovanosti, ktoré je predmetom našej
analýzy v nasledujúcej kapitole.
Okrem snahy znižovania strát vyplývajúcich z realizácie rizika stornovanosti,
jedným z hlavných dôvodov, prečo je potrebné sa tomuto riziku venovať, je nová
smernica Európskej únie Solvency II. Táto pri stanovovaní rizikového profilu
poisťovne prihliada aj na výšku nami analyzovaného rizika. A keďže od vstupu
Slovenska do Európskej únie sa pre subjekty pôsobiace v Slovenskej republike stali
záväznými aj predpisy tohto spoločenstva krajín, potreba riadenia rizika stornovanosti
sa stane nevyhnutnou aj pre poisťovne pôsobiace v Slovenskej republike. Okrem
uvedeného podľa nás vytvára táto smernica taktiež predpoklady pre ešte širšie
uplatnenie data miningu v oblasti poisťovníctva. To sú dva základné dôvody, prečo sa
budeme danej smernici bližšie venovať v ďalšej podkapitole.
Na záver prvej kapitoly sa pozastavíme pri softvérovom nástroji, ktorý
využívame pri analýze. Stručne charakterizujeme spoločnosť SAS, ktorá je tvorcom
využívaného softvérového nástroja a ktorá nám bezplatne poskytla licenciu pre účely
vykonania analýzy. Následne si vo všeobecnosti popíšeme samotný proces data
miningu v prostredí aplikácie SAS Enterprise Miner. Jednotlivé kroky tohto postupu
budeme následne vykonávať a bližšie opisovať v nasledujúcej kapitole v rámci
vykonanej analýzy poistných produktov skúmanej poisťovne.
12
1.1 Business Intelligence – základné princípy a praktické využitie
v riadení podnikov
Napriek tomu, že oblasť Business Intelligence (ďalej len BI) je pomerne dávno
prebádanou oblasťou, do povedomia ľudí v Slovenskej republike sa dostáva iba
v posledných rokoch. Keďže neexistuje jednotný preklad tohto pojmu a v odborných
kruhoch sa stále využíva pôvodný anglický názov, budeme toto označenie využívať
taktiež v našej práci.
„Business Intelligence je súhrn procesov, aplikácií a technológií, ktorých
cieľom je účinne a účelne podporovať rozhodovacie procesy vo firme. Podporujú
analytické a plánovacie činnosti podnikov a organizácií a sú postavené na princípoch
multidimenzionálnych pohľadov na podnikové dáta.“ (Novotný, 2005, s. 19)
Vychádzajúc z tejto definície, možno BI označiť za oblasť, ktorej aplikácia do
firemných procesov má dopomôcť manažérom spoločnosti robiť správne rozhodnutia
v správny čas, čo je možné iba za podmienky, že disponujú dostatočným množstvom
kvalitných a vecných informácií. Spoločnosti, ktoré takýmito informáciami disponujú
majú najlepšie predpoklady pre získanie konkurenčnej výhody na trhu, ktorej
výsledkom je obvykle naplnenie jedného zo základných cieľov podnikania, ktorým je
dosiahnutie zisku. A práve aplikácia BI do firemných procesov je jedným zo
spôsobov, ako sa k takýmto informáciám dostať.
Samotná oblasť BI je pomerne širokou problematikou, ktorá v sebe zahŕňa
množstvo parciálnych komponentov. Medzi základné komponenty BI zaraďujeme
(Novotný, 2005, s. 19):
•
produkčné, zdrojové systémy,
•
dočasné úložiská dát (DSA – Data Staging Area),
•
operatívne úložiská dát (ODS – Operational Data Store),
•
transformačné nástroje (ETL – Extraction Transformation Loading),
•
integračné nástroje (EAI – Enterprise Application Integration)
•
dátové sklady (DWH – Data Warehouses),
•
dátové trhoviská (DMA – Data Marts),
•
OLAP,
•
reporting,
•
manažérske aplikácie (EIS – Executive Information Systems),
•
dolovanie dát (Data Mining),
13
•
nástroje pre zistenie kvality dát,
•
nástroje pre správu metadát,
•
ostatné.
Medzi jednotlivými komponentmi platí určitá logická nadväznosť, vzájomné väzby
zobrazuje nasledujúci obrázok.
Obrázok 1 Všeobecná koncepcia architektúry Business Intelligence
Prameň: Novotný, 2005, s. 27
V našom prípade považujeme za zdrojový systém interný systém poisťovne,
z ktorého čerpáme údaje. Tie následne transformujeme pomocou komponentov
dátovej transformácie (so zameraním sa predovšetkým na integritu údajov a doplnenie
chýbajúcich údajov) a uložíme v dátovom sklade, ktorý tvorí základný zdroj údajov
pre vykonanú analýzu. Z analytických komponentov využijeme data mining, pričom
ako nástroj sme si zvolili softvérové riešenie SAS Enterprise Miner. Koncovým
užívateľom získaných poznatkov budú predovšetkým zástupcovia poisťovne, ktorým
by získané poznatky mali dopomôcť k efektívnejšej a presnejšej analýze rizikovosti
klientov poisťovne.
14
BI nachádza v súčasnosti využitie v mnohých oblastiach. Ku klasickým
oblastiam, v ktorých sa poznatky BI aplikujú už mnoho rokov, v súčasnom období,
predovšetkým vďaka prudkému rozvoju informačných technológií, pribúdajú nové
oblasti. „Medzi základné aplikačné oblasti BI patria:
•
Medicína: Zisťovanie väzieb medzi chorobami a účinnosti liečby na základe
analýzy prekonaných chorôb pacientov s cieľom identifikovať vzťahy medzi
chorobami.
•
Farmaceutika: Nájdenie nových liekov.
•
Bezpečnosť: Rozpoznávanie tvárí, identifikácia, biometria.
•
Súdnictvo: Vyhľadávanie a prístup k historickým údajom o rozsudkoch
v podobných prípadoch.
•
Biometria: Identifikácia osôb na základe fotografie, odtlačkov prstov alebo
záznamu hlasu.
•
Analýza vedeckých údajov: Identifikácia nových galaxií vyhľadávaním
zhlukov.
•
Web analýza: Identifikácia spoločných znakov návštevníkov stránok, následná
úprava rozvrhnutia stránky.
•
Marketing: Pomoc marketingovým pracovníkom pri odhaľovaní skupín
zákazníkov a následne využitie týchto poznatkov pri vytváraní presne
cielených reklamných kampaní.
•
Poisťovníctvo: Identifikácia poistencov s vysokými likvidačnými nákladmi.“
(Mitra, 2003, s. 25)
Uvedené oblasti však zďaleka nie sú všetkými oblasťami, v ktorých BI
nachádza uplatnenie. Významnú úlohu taktiež zohráva vo financiách (napr. pri riadení
nákladov a výnosov, riadení rizika), výrobe (optimalizácia výrobného procesu) alebo
v logistike (analýza efektívnosti logistického procesu). V budúcnosti sa očakáva ešte
širšie využitie a aplikácia poznatkov BI v praktickom živote.
1.2 Data mining – analytický komponent BI na hĺbkovú analýzu údajov
Pojem data mining možno do slovenčiny preložiť ako dolovanie dát. Napriek
existencii prekladu tohto pojmu sa však rovnako ako pri pojme BI častejšie používa
anglický ekvivalent, ktorý budeme v našej práci prevažne využívať.
15
„Data mining je možné charakterizovať ako proces extrakcie relevantných,
dopredu neznámych alebo nedefinovaných informácií z veľmi rozsiahlych databáz.
Dôležitou vlastnosťou dolovania dát je, že sa jedná o analýzy odvodzované z obsahu
dát, nie dopredu špecifikované užívateľom alebo implementátorom a jedná sa
predovšetkým o odvodzovanie prediktívnych informácií, nie iba deskriptívnych.“
(Novotný, 2005, s. 35) Základným cieľom je teda dospieť k informáciám, ktoré nie sú
na prvý pohľad viditeľné, avšak v skúmaných údajoch figurujú.
Rozvoj výpočtovej techniky značným spôsobom ovplyvnil mnohé ľudské
činnosti nevynímajúc oblasť analýzy dát, ktorú podstatným spôsobom zefektívnil
a značne rozšíril aj jej možnosti. „Vo väčšine prípadov bola analýza dát tradične
manuálnym procesom. Jeden alebo viacero analytikov sa oboznámilo s dátami
a s pomocou štatistických techník došli k záverom a následne vytvorili správu.
V konečnom dôsledku analýza
bola považovaná za súbor sofistikovaných
nadväzujúcich úloh. Avšak tento prístup k analýze sa zrútil v momente, keď veľkosť
dát začala rapídne narastať a došlo k zvýšeniu počtu dimenzií. Databázy obsahujúce
objem dát rádovo 109 a počet dimenzií rádovo 103 sa začali vyskytovať čoraz
častejšie. Keď sa objem analyzovaných a prehliadaných dát dostal za hranicu
ľudských možností, ľudia začali pociťovať potrebu pomoci výpočtovej techniky
k automatizácii celého procesu.“ (Mitra, 2003, s. 3) Možno teda konštatovať, že bez
existencie výpočtovej techniky by ľudia nemali prístup k značnému množstvu
informácií, nakoľko manuálna analýza takého množstva údajov by bola výrazne
časovo náročná až nerealizovateľná. Bez potrebnej výpočtovej techniky by však
pravdepodobne nedochádzalo ani k zhromažďovaniu údajov v takom objeme.
Základnou myšlienkou data miningu je prepojenie údajov uložených
v rôznych
dátových
zdrojoch
a nájdenie
určitých
zákonitostí
s
využitím
viacdimenzionálneho pohľadu, ktoré by umožnilo určité zovšeobecnenie a lepšie
využitie týchto dát. „Potenciálne informácie v dátach predstavujú určitú štruktúru
alebo vzory či nejaké pravidelnosti, ktorých zobrazením je možné odhaliť skrytú
znalosť a túto potom výhodne využiť ako v komerčnej tak aj vo výskumnej oblasti.
Odhalením výrazných vzorov v dátach umožňuje ich následné zovšeobecnenie
a aplikáciu pre predikciu budúcich dát.“ (Hřebíček, 2008, s. 55)
16
1.2.1 Nástroje a priebeh hĺbkovej analýzy údajov
Samotný data mining využíva rôzne druhy nástrojov, pričom tieto sú obvykle
postavené na poznatkoch z oblasti matematiky a štatistiky. Vo väčšine prípadov sa
nejedná o nové poznatky, novým je iba ich ucelené využitie pri hĺbkovej analýze
údajov. „Medzi najdôležitejšie techniky dolovania dát patria:
•
Analýza nákupného košíka (Market Basket Analysis) – je špeciálnou formou
clusteringu (detekcie zhlukov) používanou k vyhľadávaniu skupín a prvkov,
ktoré majú tendenciu vyskytovať sa spolu (v jednej transakcii).
•
Dedukcia (Memory-Based Reasoning) – technika, ktorá využíva známe
skutočnosti ako model k predikcii neznámych skutočností.
•
Detekcia zhlukov (Cluster Detection) – vytvára modely identifikujúce dátové
záznamy, ktoré sú si navzájom podobné.
•
Analýza závislosti (Link Analysis) – oproti vyššie uvedeným technikám,
analýza závislosti neskúma prvky na základe ich vlastností, ale zameriava sa
na vzťahy medzi prvkami. Ide o aplikáciu teórie grafov.
•
Rozhodovacie stromy a indukcia (Decision Trees and Rule Induction) –
rozdeľujú záznamy v tréningových skupinách dát do disjunktívnych skupín,
kde každá
skupina môže byť popísaná pomocou jednoduchej množiny
pravidiel.
•
Neurónové siete (Artifical Neural Networks) – ich princípom je nastavenie
parametrov jednotlivých „neurónov“ v procese učenia sa z tréningových
vzoriek dát, aby výsledná konfigurácia čo najlepšie vyhovovala následnej
klasifikácii a predikcii.
•
Genetické algoritmy (Genetic Algorithms) – aplikujú mechaniku genetiky
a prirodzeného výberu pre vyhľadávanie optimálnej množiny parametrov,
napríklad pre použitie v predikcii.“ (Novotný, 2005, s. 206)
K analýze údajov s využitím data miningu možno pristupovať dvojakým
spôsobom. Základný rozdiel medzi týmito dvoma prístupmi tkvie v tom, či je naše
bádanie zamerané na odhalenie konkrétnej vopred definovanej skutočnosti alebo nie.
Z tohto pohľadu možno rozdeliť data mining na riadený a neriadený. Pri riadenom
data miningu si na začiatku analýzy zvolíme cieľovú premennú a snažíme sa dostať
ku konkrétnemu záveru týkajúcemu sa danej premennej. Naopak pri neriadenom data
miningu vykonávame analýzu bez konkrétneho cieľa, pričom všeobecným cieľom je
17
nájdenie nových väzieb a závislostí. Pri analýze údajov poisťovne budeme využívať
riadený data mining.
Okrem tohto delenia existujú taktiež ďalšie prístupy k analýze. „Data mining
môže byť realizovaný ako deskriptívny (zameraný na odhaľovanie zaujímavých
väzieb a vzťahov popisujúcich dáta) a prediktívny (zameraný na predpovedanie alebo
klasifikáciu správania modelu založenom na dostupných dátach).“ (Mitra, 2003, s. 4)
Vo všeobecnosti pozostáva proces data miningu z nasledujúcich krokov
(Novotný, 2005): definícia problému, výber dát, príprava dát, dolovanie dát,
sprevádzkovanie modelu, obchodná akcia. V prvom kroku procesu je potrebné
stanoviť si problém, ktorého riešenie chceme hĺbkovou analýzou údajov nájsť.
Vzhľadom na skúmaný problém je nevyhnutné zvoliť si vhodnú základňu dát. Táto
by mala obsahovať znaky, u ktorých existuje predpoklad, že ovplyvňujú správanie
skúmanej premennej. Štruktúra a obsah údajov získaných z informačných systémov
obvykle nie je postačujúca pre potreby analýzy, preto je jedným z najdôležitejších
krokov analýzy príprava dát, ktorá v sebe zahŕňa zmenu štruktúry dátovej základne
a doplnenie chýbajúcich resp. nahradenie chybných údajov. Až po vykonaní týchto
krokov je možné pristúpiť k vykonaniu samotnej data miningovej analýzy, ktorej
výstupom je obvykle model. Informácie vyplývajúce z tohto modelu sú následne
využívané v praxi s cieľom získať prospech z týchto informácií. Podrobnejšie sa
procesu data miningu budeme venovať v ďalšej podkapitole, kde si popíšeme proces
v prostredí zvoleného softvérového nástroja.
Výsledok vykonanej data miningovej analýzy v podstatnej miere záleží od
kvality vstupných údajov. Nekvalitná dátová základňa vedie v niektorých prípadoch
k neschopnosti
vykonania
samotnej
analýzy
pre
nedostatok
údajov
resp.
k nedostatočnej relevantnosti záverov analýzy postavenej na týchto dátach. Taktiež je
príčinou zdĺhavosti analýzy údajov, nakoľko príprava takýchto údajov pre potreby
analýzy je časovo náročná. „Dolovanie v dátach predstavuje väčšinou komplikovanú
a výpočtovo náročnú úlohu. Veľa nájdených vzorov býva banálnych a nezaujímavých,
aj keď informácie v dátach existujú. Rada ďalších dát je nepodložená alebo čisto
náhodná koincidencia. Odhalené vzory bývajú nepresné, nájdené pravidla mávajú
však mnoho výnimiek, nezanedbateľná časť prípadov nie je pokrytá žiadnymi
pravidlami.“ (Hřebíček, 2008, s. 55) S rastúcou kvalitou dát sa teda zvyšuje aj
pravdepodobnosť nájdenia informácií a väzieb, ktoré sú podstatné a relevantné. Často
však platí, že aj čiastočné informácie sú lepšie než žiadne informácie.
18
Data mining postupne nachádza uplatnenie v rôznych oblastiach. Medzi jeho
základné výhody a teda dôvody aplikácie okrem iného zaraďujeme:
•
„Veľké množstvo spracovávaných dát: V poslednom desaťročí cena hardvéru,
predovšetkým pevných diskov, výrazne poklesla. Zároveň spoločnosti začali
zhromažďovať veľké množstvo údajov v rôznych aplikáciách. Vznikla tak
snaha spoločností preskúmať a nájsť skryté väzby v dátach, ktoré by
dopomohli spoločnosti ku konkurenčnej výhode.
•
Rastúca konkurencia: Vysoká konkurencia na trhu je výsledkom moderných
marketingových
a distribučných
kanálov
ako
napríklad
internet
a
telekomunikácie. Spoločnosti čelia medzinárodnej konkurencii a základným
kľúčom úspechu je schopnosť udržať si súčasných zákazníkov a získať
nových. Data mining obsahuje technológie, ktoré umožňujú analyzovať
faktory, ktoré riešia tieto otázky.
•
Technologická pripravenosť: Data miningové technológie predtým existovali
iba na akademickej pôde, v súčasnosti sa však mnohé z týchto technológií
aplikujú v priemyselných odvetviach. Algoritmy sú presnejšie a efektívnejšie
a zvládajú veľké množstvo komplikovaných údajov. Okrem toho došlo
k štandardizácii aplikačného programového rozhrania, ktoré umožnilo
vývojárom vytvárať kvalitnejšie data miningové aplikácie.“ (Tang, 2005, s. 4)
1.2.2 Data mining v poisťovníctve
Jednou z oblastí, kde data mining už dlhodobo nachádza široké uplatnenie, je
oblasť poisťovníctva. Úroveň aplikácie tohto nástroja do podnikových procesov
poisťovní je však, podľa nášho názoru, minimálne v podmienkach Slovenskej
republiky pomerne nízka. Existuje ale predpoklad postupného rozširovania aplikácie
tohto analytického nástroja.
V oblasti poisťovníctva nachádza data mining uplatnenie v týchto oblastiach
(SAS Institute, 2009):
•
Optimalizácia produktov a cien – ziskovosť poisťovne závisí od skladby jej
portfólia, ktoré by malo osloviť čo najširšie spektrum zákazníkov a od správne
stanovených cien produktov, nakoľko nesprávne stanovenie ceny môže viesť
k realizácii straty poisťovne.
•
Získavanie nových zákazníkov – popri základných spôsoboch získavania
nových zákazníkov, medzi ktoré patrí napr. zvyšovanie počtu pobočiek
19
a odbytových kanálov, metódy založené na data miningu môžu viesť
k presnejšie zameraným a úspešnejším výsledkom.
•
Udržanie súčasných zákazníkov – ponúkaním na mieru stavaných produktov
existujúcim zákazníkom zvyšuje pravdepodobnosť uzavretia viacerých
poistných zmlúv v danej poisťovni, čim sa znižuje pravdepodobnosť odchodu
poistenca ku konkurencii.
•
Sofistikované riadenie kampaní – data mining umožňuje aj veľkým
spoločnostiam so širokou škálou zákazníkov vytvárať a ponúkať produkty
prispôsobené presne potrebám jednotlivých zákazníkov.
•
Odhaľovanie poistných podvodov – pre poisťovňu je z hľadiska ziskovosti
nesmierne dôležité mať spoľahlivý nástroj na odhaľovanie poistných
podvodov, pričom data mining takýmto nástrojom je.
•
Presný odhad poistných rezerv – každá poisťovňa musí disponovať
dostatočným objemom finančných prostriedkov na úhradu svojich záväzkov
vyplývajúcich z poistných zmlúv, pričom dôležité je stanovenie čo
najpresnejšieho objemu finančných prostriedkov, ktorý bude zodpovedať
budúcim záväzkom poisťovne.
Okrem uvedených oblastí aplikácie data miningu v poisťovníctve, existujú
a stále pribúdajú ďalšie oblasti využitia, čo je možné predovšetkým vďaka širokému
záberu a možnostiam, ktoré tento analytický komponent ponúka.
1.3 Riziko ako dôležitý determinant pri rozhodovaní
Podnikanie so sebou vždy prináša určitý stupeň rizika. Každá spoločnosť
pôsobiaca na trhu je vystavená rôznym typom rizík. Špecifickým prípadom sú
poisťovne. Ako každý podnikateľský subjekt aj poisťovacie spoločnosti sú vystavané
rôznym typom finančných rizík. Špecifickým je však v tomto prípade fakt, že okrem
finančných rizík, ktoré podstupujú všetky spoločnosti, poisťovne na seba preberajú
taktiež riziká vyplývajúce z poistných zmlúv. Za prebratie týchto rizík prijímajú
poisťovne odplatu vo forme poistného.
V súčasnom období si väčšina spoločností uvedomuje tieto riziká ešte väčšmi,
nakoľko ich realizáciu pocítili mnohé spoločnosti na vlastnej koži. Aj preto sa
problematika riadenia rizík stáva čoraz dôležitejšou. Základom riadenia rizík je
poznanie rizík, ktoré sú reálnou hrozbou pre činnosť spoločností, preto si najprv
popíšeme finančné riziká a následne sa bližšie zameriame na riziká typické pre
20
životné poisťovne, nakoľko sa v našej práci venujeme analýze rizikových faktorov
predaja produktov životnej poisťovne.
1.3.1 Všeobecné vymedzenie rizík
Z nášho pohľadu najdôležitejšiu skupinu rizík tvoria finančné riziká. Tie
v zásade rozdeľujeme do štyroch hlavných skupín, ktoré si bližšie popíšeme, nakoľko
sú dôležitou súčasťou riadenia rizík a ich kvantifikácia je neoddeliteľnou časťou pri
stanovovaní solventnosti a kapitálovej vybavenosti poisťovne.
Trhové riziko – „Zahŕňa zmeny v ponuke a dopyte na trhu a na to nadväzujúce
riziko cenových zmien podnikových vstupov (materiálov, surovín, energií, miezd a i.)
a výstupov (podnikom produkovaných výrobkov a služieb). Prejaviť sa môže
v zmenách bežných výnosov a nákladov podniku, ale aj v zmenách efektívnosti
jednotlivých projektov.“ (Kolektív autorov, 2004, s. 219) Príklady realizácie
a následkov trhového rizika je možné v súčasnosti v čase stagnácie trhov vidieť
u mnohých spoločností.
Riziko likvidity – „Je spojené s možnosťou, že v čase, keď máme splniť isté
finančné záväzky, nebudeme mať k dispozícii dostatok likvidných prostriedkov.
Príčinou môže byť napr. nedostatok hotovosti, situácia na finančnom trhu (nemožnosť
dostatočne rýchlo speňažiť pohotové finančné aktíva).“ (Kolektív autorov, 2004, s.
220) Stanovenie a zabezpečenie dostatku likvidných prostriedkov je práve pri
poisťovniach pomerne komplikovanou záležitosťou, nakoľko výskyt poistných
udalostí je v niektorých prípadoch ťažko odhadnuteľný, preto je potrebné riadeniu
tohto rizika venovať zvýšenú pozornosť.
Úverové riziko – „Znamená riziko straty alebo nepriaznivej zmeny vo
finančnej situácii vyplývajúce z kolísania úverového ratingu emitentov cenných
papierov, protistrán a akýchkoľvek dlžníkov, ktorému sú poisťovne a zaisťovne
vystavené, v podobe rizika zlyhania protistrany alebo rizika úverového rozpätia, alebo
koncentrácie trhového
rizika.“ (Smernica Európskeho
parlamentu a Rady,
2009/138/ES, s. 24)
Operačné riziko – „Je riziko straty vyplývajúce z nevhodných vnútorných
procesov alebo z ich zlyhania, z personálu alebo systémov, alebo nepriaznivých
vonkajších udalostí.“ (Smernica Európskeho parlamentu a Rady, 2009/138/ES, s. 24)
Rozumieme teda pod ním riziko zlyhania ľudského faktora, techniky alebo riziko
vzniku neočakávaných udalostí.
21
Významom jednotlivých rizík pri stanovovaní kapitálových požiadaviek
a solventnosti poisťovne sa budeme zaoberať v jednej z nasledujúcich podkapitol.
1.3.2 Riziká v poisťovníctve
Vzhľadom na to, že analyzujeme produkty životnej poisťovne, v tejto
podkapitole sa zameriame na vymedzenie skupiny rizík, ktoré podstupuje životná
poisťovňa. Túto skupinu rizík nazývame upisovacie riziká životného poistenia.
Podľa Smernice Európskeho parlamentu a Rady č. 2009/138/ES do tejto
skupiny zahŕňame nasledovné riziká: riziko úmrtnosti (navýšenie poistných záväzkov
z dôvodu zvýšenia úmrtnosti), riziko dlhovekosti (zvýšenie poistných záväzkov
z dôvodu zníženia úmrtnosti), riziko invalidity – chorobnosti (strata z dôvodu
zvýšenia miery invalidity resp. chorobnosti), riziko nákladov v životnom poistení
(strata vyplývajúca zo zvýšenia nákladov na správu poistenia a zaistenia), revízne
riziko (zmena právneho prostredia alebo zdravotného stavu poistenej osoby a z nej
vyplývajúca strata z dôvodu zmien revíznych sadzieb uplatňovaných na anuity), riziko
ukončenia zmluvy (nepriaznivá zmena v hodnote poistných záväzkov z dôvodu
nárastu počtu prípadov odstúpenia od zmluvy, ukončenia zmluvy a storna
zmluvy) katastrofické riziko životného poistenia (riziko zmeny poistných záväzkov
z dôvodu nastania nepriaznivých výnimočných udalostí) .
Vzhľadom na rozsah a možnosti tejto práce ako i na štruktúru poskytnutých
a analyzovaných údajov, sa v našej práci budeme bližšie venovať iba jednému
z týchto rizík, a to riziku ukončenia zmluvy, ktoré sa označuje taktiež ako riziko
stornovanosti zmluvy.
1.3.3 Riziko stornovanosti zmluvy
V odbornej literatúre sa toto riziko označuje pojmom lapsovosť resp. riziko
lapsovosti. Vo všeobecnosti ho môžeme charakterizovať ako riziko predčasného
vypovedania resp. stornovania zmluvy s poisťovňou zo strany klienta. Vzhľadom na
vzniknuté náklady vynaložené poisťovňou na získanie daného klienta, dochádza
v prípade predčasného vypovedania zmluvy k vzniku straty, ktorej výška je nepriamo
úmerná časovému úseku medzi dátumom uzavretia a dátumom zrušenia zmluvy. Platí,
že čím je toto obdobie kratšie, tým vyššia strata poisťovni vzniká.
Cieľom každej poisťovne je minimalizácia tohto rizika. Ako pri riadení
každého rizika, možno aj tomuto riziku predchádzať aplikáciou rôznych opatrení. Za
22
jedno z týchto opatrení možno považovať starostlivosť o zákazníka, pričom vysokou
úrovňou starostlivosti o klienta je podľa nás možné toto riziko výrazne
minimalizovať, hoci individuálna starostlivosť o klienta pri väčšom poistnom kmeni
môže byť značne časovo aj finančne náročná. Ďalším opatrením je predchádzanie
uzatváraniu zmlúv s klientmi, u ktorých je vysoká pravdepodobnosť predčasného
vypovedania zmluvy. Na realizáciu týchto opatrení je však potrebné poznať profil
takéhoto klienta a práve v tomto prípade nachádza uplatnenie data mining. V našej
práci sa snažíme zostaviť takýto profil s využitím hĺbkovej analýzy údajov pre
jednotlivé produkty ponúkané skúmanou poisťovňou.
Existuje viacero dôvodov, pre ktoré klienti predčasne vypovedajú resp.
ukončia zmluvu. Základným dôvodom je nedostatok peňažných príjmov na úhradu
poistného, čoho príčinou môže byť buď nesprávne stanovená (príliš vysoká) výška
poistného pri uzatvorení zmluvy, alebo zhoršenie ekonomickej situácie klienta
vplyvom rôznych faktorov ako sú napr. strata zamestnania, úraz či dlhodobá pracovná
neschopnosť.
Ďalšou skupinou dôvodov sú faktory, ktoré síce nie sú na prvý pohľad
identifikovateľné, avšak ich pôsobenie resp. súčasné pôsobenie viacerých takýchto
faktorov môže ovplyvniť schopnosť resp. vôľu poistného naplniť podmienky poistnej
zmluvy. Vzhľadom na dostupné údaje o klientoch poisťovne sme si na účely analýzy
zvolili skúmanie vplyvu nasledovných faktorov: región poistníka, priemerná mzda
v regióne poistníka, výška nezamestnanosti v regióne, ponuka voľných pracovných
miest, infraštruktúra, možnosť odhádzania za prácou a kvalita životného prostredia.
1.4 Harmonizácia predpisov v oblasti poisťovníctva v rámci Európskej
únie – Solvency II
Ako už bolo v úvode tejto kapitoly spomenuté, potreba riadenia rizika
stornovanosti narastá taktiež v súvislosti s novou smernicou Európskej únie Solvency
II. Táto zahŕňa riziko stornovanosti medzi faktory, od ktorých sa odvíja rizikový
profil poisťovne. Je taktiež jedným z faktorov, od ktorého sa odvíja výška kapitálu,
ktorým musí poisťovňa disponovať na to, aby bola považovaná za solventnú. Vo
všeobecnosti platí, že s rastúcim rizikom rastie aj kapitálová požiadavka na
poisťovňu.
Pojem solventnosť poisťovne je možné definovať nasledovne: „Solventnosť
poisťovne predstavuje komplexný pohľad na majetkovú situáciu a hospodárenie
23
poisťovne, pričom zachytáva oblasť technických rezerv, finančného umiestnenia,
vývoj nákladov – poistného plnenia a výnosov – prijatého poistného, politiku
zaistenia či stratégiu rozvoja spoločnosti.“ (Schreterová, 2008, s. 2)
Nová smernica Solvency II bola po schválení Európskym parlamentom v apríli
2009 schválená aj Radou Európskej únie v novembri 2009. Je nástupcom direktívy
Solvency I s predpokladaným nadobudnutím účinnosti všetkých článkov tejto
smernice 1. novembra 2012. Do tohto dátumu musia všetky členské štáty Európskej
únie implementovať do svojej národnej legislatívy príslušné právne normy potrebné
na dosiahnutie súladu s článkami smernice.
„Hlavným cieľom projektu je zabezpečiť transparentnosť a porovnateľnosť
rizík v poisťovniach pôsobiacich na trhu, zlepšiť ochranu finančného trhu (nástroj pre
dohľad nad poistným trhom) a lepšie využitie kapitálu pre poisťovne.“ (Uhrová, 2008,
s. 2) Oproti prvej verzii tejto smernice je podstatný rozdiel predovšetkým
v komplexnosti posudzovania rizík vyplývajúcich z realizácie poistných vzťahov.
Komplexnejšie posudzovanie rizík umožňuje predovšetkým prudký rozvoj výpočtovej
techniky, vďaka ktorému už nie je potrebné, aby bol výpočet solventnosti
jednoduchým matematickým výpočtom.
Smernica bola pripravovaná v spolupráci s národnými dozornými orgánmi
a medzinárodnými združeniami pod vedením Európskej komisie. Ako poradný orgán
pri príprave smernice vystupovala organizácia CEIPOS (Výbor orgánov dohľadu nad
poisťovníctvom a zamestnaneckými penzijnými schémami). Samotná smernica
v mnohých oblastiach vychádza z podobného konceptu Basel II, ktorý bol už
zavedený v bankovníctve. Je postavená rovnako ako Basel II na troch základných
pilieroch.
Prvý pilier špecifikuje kvantitatívne požiadavky na poisťovne, definuje objem
finančných zdrojov, ktoré musí poisťovňa držať, aby bola považovaná za solventnú.
Zároveň vymedzuje dva typy kapitálových požiadaviek. Prvou je kapitálová
požiadavka na solventnosť (Solvency Capital Requirement - SCR), druhou minimálna
kapitálová požiadavka (Minimum Capital Requirement – MCR).
„Kapitálová požiadavka na solventnosť sa určí takým spôsobom, aby bolo
zabezpečené, že sa zohľadnia všetky kvantifikovateľné riziká, ktorým sú poisťovne
alebo zaisťovne vystavené. Výpočet pokrýva existujúcu činnosť ako aj očakávanú
novú produkciu nasledujúcich dvanásť mesiacov. Pri súčasnej činnosti pokrýva
kapitálová požiadavka na solventnosť výlučne neočakávané straty. Kapitálová
24
požiadavka na solventnosť zodpovedá hodnote v riziku (Value-at-Risk) základných
vlastných zdrojov poisťovne alebo zaisťovne s 99,5 % hladinou spoľahlivosti v
časovom horizonte jedného roku.“ (Smernica Európskeho parlamentu a Rady,
2009/138/ES, s. 51) Pokrýva široké spektrum rizík, a to upisovacie riziko neživotného
poistenia, upisovacie riziko životného poistenia (jeho súčasťou je aj riziko
stornovanosti), upisovacie riziko zdravotného poistenia, trhové riziko, kreditné riziko
a operačné riziko, ktoré sme si definovali v predchádzajúcej kapitole.
Poisťovne budú povinné vyčísľovať a nahlasovať aktuálnu výšku kapitálovej
požiadavky príslušnému orgánu dohľadu minimálne raz ročne. Na výpočet budú môcť
použiť štandardný vzorec definovaný v smernici alebo nimi vytvorený interný model.
V prípade, že si zvolia druhú možnosť, budú musieť pred používaním vlastného
modelu požiadať o jeho schválenie príslušný kontrolný orgán. „Interné modely sú na
predpovedanie rizika presnejšie ako smernicou dané vzorce a prinášajú tak úsporu na
potrebnom kapitále. Nevýhodou, samozrejme je, že vypracovanie vlastných modelov,
v banke i poisťovni, stojí nemalé finančné, administratívne a personálne zdroje. No
kto sa rozhodne do nich investovať, v konečnom dôsledku len získa. Nižšia potreba
kapitálu znamená úspory, ktoré sa môžu premietnuť do zníženia cien služieb. A kto
má nižšie ceny, dokáže lepšie konkurovať.“ (Záborský, 2006) Pre názornosť
uvádzame štandardný vzorec pre výpočet kapitálovej požiadavky na solventnosť:
Základná SCR =
∑ Corr
i, j
× SCRi × SCR j
i, j
Na rozdiel od kapitálovej požiadavky na solventnosť, budú musieť poisťovne
vyčíslovať minimálnu kapitálovú požiadavku až štyrikrát ročne, prípadne kedykoľvek
na žiadosť dohľadu nad finančným trhom. Jej výška sa relatívne ľahko stanovuje.
„Zodpovedá výške základných použiteľných vlastných zdrojov, pod ktorou sú
poistníci a príjemcovia plnení vystavení neprijateľnej úrovni rizika, keby sa
poisťovniam a zaisťovniam povolilo, aby pokračovali vo svojej činnosti.“ (Smernica
Európskeho parlamentu a Rady, 2009/138/ES, s. 59) V prípade, že by vlastný kapitál
spoločnosti poklesol pod túto hodnotu, príslušnej poisťovni by bolo odobraté
povolenie na vykonávanie poisťovacej činnosti.
Druhý pilier smernice Solvency II definuje kvalitatívne požiadavky na
poisťovne. „Ponúka poisťovniam princípy dohľadu a interného systému riadenia rizík.
Dôležitými zložkami vnútorného systému je stresové testovanie, presun rizika, zásady
riadenia poisťovne a interné kontrolné systémy. Riziká, ktoré nie je možné
25
kvantifikovať v prvom pilieri, musia byť zhodnotené aspoň kvalitatívne v druhom
pilieri.“ (Valová, 2008, s. 4)
Posledný tretí pilier pojednáva o trhovej disciplíne. „Je postavený na
zverejňovaní informácií a zvyšovaní transparentnosti trhu. Jeho cieľom je poskytovať
klientom poisťovne, ratingovým agentúram a ďalším stranám prehľadný obraz o
rizikovosti poisťovne.“ (Valová, 2008, s. 4) Ukladá poisťovniam povinnosť
každoročne uverejniť správu o svojej solventnosti a finančnom stave, ktorá musí
minimálne obsahovať nasledujúce súčasti (Smernica Európskeho parlamentu a Rady,
2009/138/ES, s. 36):
•
opis obchodnej činnosti a výkonnosti poisťovne a zaisťovne,
•
opis systému správy a hodnotenie jeho vhodnosti z hľadiska rizikového
profilu poisťovne a zaisťovne,
•
opis vystavenia riziku, koncentrácie, zníženia a citlivosti rizík, a to
samostatne pre každú kategóriu rizika,
•
opis, a to samostatne pre aktíva, technické rezervy a iné záväzky,
podkladov a metód použitých na ich ocenenie spolu s vysvetlením každej
väčšej zmeny v podkladoch a metódach použitých na ich ocenenie v
účtovných závierkach,
•
opis riadenia kapitálu.
1.5 Praktická aplikácia data miningu v prostredí nástroja SAS Enterprise
Miner
V súčasnosti existuje veľké množstvo data miningových nástrojov. S neustále
rastúcim dopytom po nástrojoch tohto typu rastie aj konkurencia v odvetví. Z tohto
širokého spektra sme si pre účely našej analýzy vybrali nástroj SAS Enterprise Miner
od spoločnosti SAS Institute Inc. so sídlom v USA. Dôvodov pre voľbu práve tohto
nástroja bolo viacero. Medzi tie najdôležitejšie možno zaradiť rozšírenosť a dlhú
história tohto nástroja ako i jeho tvorcu, širokú škálu možností, ktoré ponúka či
ochotu lokálnej pobočky tejto spoločnosti poskytnúť nám bezplatne licenciu na účely
analýzy.
Pre lepšie pochopenie analýzy, ktorá je súčasťou nasledujúcej kapitoly sa
najprv stručne oboznámime so spoločnosťou SAS Institute Inc. a následne si
popíšeme teoretické východiská a všeobecný postup analýzy v prostredí tohto nástoja.
26
1.5.1 Charakteristika spoločnosti SAS
Podľa informácií zverejnených na internetovej stránke spoločnosti SAS
(SAS.com, 2010a) je táto spoločnosť svetovým lídrom v oblasti softvérových riešení
pre BI a služieb k nim spojených. Spoločnosť bola založená v roku 1976.
Zakladateľmi spoločnosti sú Dr. Jim Goodnight a John Sall. Obaja v súčasnosti
pôsobia v top manažmente spoločnosti. Prvý z menovaných pôsobí na poste
prezidenta, druhý na poste viceprezidenta.
Spoločnosť má prostredníctvom 400 pobočiek zastúpenie v 50 krajinách
vrátane Slovenska, kde v pobočke sídliacej v Bratislave zamestnáva aktuálne 40
zamestnancov, ktorí poskytujú zákazníkom podporu a zabezpečujú administratívu,
marketing a odbyt ponúkaných softvérových riešení. Vo všetkých svojich pobočkách
zamestnáva viac ako 11 000 pracovníkov, je teda významným globálnym
zamestnávateľom.
Zákazníkmi spoločnosti sú väčšinou veľké spoločnosti, ktorým spoločnosť
SAS dodáva potrebné softvérové riešenia umožňujúce získať dôležité informácie
z veľkého množstva údajov. V súčasnosti sa medzi zákazníkov spoločnosti zaraďuje
viac ako 45 000 inštitúcií zo 119 krajín. Každý zákazník spoločnosti získa zakúpením
softvérového riešenia kompletnú technickú podporu bez vynakladania ďalších
nákladov.
Úspech spoločnosti deklaruje okrem iného každoročný nárast tržieb, ktoré
dosiahli v roku 2009 výšku 2,31 miliárd USD. Základným faktorom jej úspechu je
reinvestovanie nemalej časti výnosov spoločnosti (23% v roku 2009) do vývoja
poskytovaných produktov, čo jej dlhodobo zabezpečuje stabilné postavenie na trhu.
Predovšetkým vďaka tomu vytvorila a zákazníkom ponúka široké spektrum
analytických nástrojov využiteľných v mnohých oblastiach vrátane automobilového
priemyslu,
bankovníctva,
telekomunikácií,
zdravotníctva,
poisťovníctva
či
vzdelávania.
27
Obrázok 2 Vývoj tržieb spoločnosti SAS (1976 - 2009)
Prameň: http://www.sas.com/presscenter/bgndr_statistics.html
1.5.2 Proces data miningu v prostredí SAS Enterprise Miner
„Prvým a najdôležitejším krokom v každom projekte modelovania je
stanovenie jasného cieľa a vyvinúť proces, ktorým tento cieľ dosiahneme. Efektívnym
spôsobom ako určiť cieľ projektu cieleného modelovania alebo analýzy profilov je
položiť si otázku, resp. definovať problém, ktorý chceme riešiť.“ (SAS.com, 2010b).
Po stanovení cieľa a príprave údajovej základne, na ktorej bude analýza
postavená, môžeme začať so zostavovaním modelu v prostredí aplikácie. Samotná
stavba modelu pozostáva z viacerých krokov, ktoré sú realizované postupným
pripájaním tzv. uzlov. V prostredí aplikácie je aplikovaná metodika SEMMA
vypracovaná spoločnosťou SAS, ktorá rozdeľuje celý proces do 5 základných krokov
(SAS.com, 2010b):
•
Sampling – výber vzoriek údajov. Zahŕňa sadu nástrojov (uzlov), ktoré
umožňujú z rozsiahlejších vstupných databáz vhodnými štatistickými
metódami vybrať vzorku údajov, ktorá čo najpresnejšie reprezentuje skúmanú
množinu údajov. V prípade menších databáz je tento krok voliteľný, nakoľko
je možné pracovať s kompletnou databázou. Pokiaľ je však zvolená vzorka
údajov, nevyhnutným krokom analýzy sa stáva verifikácia platnosti
zostaveného modelu.
28
•
Exploration - prieskum, diagnostika charakteristiky údajov. Skupina nástrojov
umožňujúca získať prehľad o štruktúre a väzbách skúmaných údajov. Slúži na
oboznámenie
sa
s rozložením
jednotlivých
premenných,
výskytom
extrémnych hodnôt.
•
Modification – manipulácia a transformácia údajov. Nástroje umožňujúce
vykonávať operácie nad údajmi s cieľom skvalitniť údajovú základňu, a to
doplnením nových hodnôt, doplnením popisov premenných, odstránením
nedefinovaných hodnôt a vytvorením zoskupení.
•
Modelling – konštrukcia abstraktných modelov. Cieľom aplikácie týchto
nástrojov je objasnenie príčin vzorov, ktoré boli identifikované pri ich
preskúmaní. Tieto nástroje sú postavené na rôznych metódach ako napr.
neurónové siete, stromové modely či štatistické metódy (zhluková analýza,
diskriminačná analýza, logistická regresia).
•
Assesment – porovnanie a posúdenie vytvorených modelov. Nástroje
uľahčujúce výber najvhodnejšej alternatívy, na základe ktorej bude model
interpretovaný.
V rámci prvého kroku zostavovania modelu dochádza k samotnému pripojeniu
údajov, ktoré sú predmetom analýzy. Súčasťou tohto kroku je taktiež definícia rolí
jednotlivých premenných, t.j. skúmaných znakov. Pokiaľ je dátová základňa príliš
veľká, je potrebné uskutočniť výber reprezentatívnej vzorky dát. V opačnom prípade
pokračujeme v procese s celou množinou dát. Pre účely analýzy je vhodné rozdeliť
dáta na viacero podmnožín. V závislosti od množstva a štruktúry dát sa obvykle údaje
rozdelia na tréningovú, validačnú a testovaciu množinu. Prvú množinu využijeme pri
samotnej tvorbe modelu. Druhú množinu údajov obvykle vytvárame iba v prípade
veľkých databáz a jej úlohou je overenie správania modelu na inej vzorke údajov.
V prípade, že je model vhodne zostavený, výsledky tohto overenia by mali byť
v značnej miere podobné tým, ktoré sme získali pri tréningovej množine. Tretiu
množinu, testovaciu, využívame v závere pri hodnotení kvality jednotlivých modelov.
Takto pripojené údaje je vhodné preskúmať pomocou nástrojov, ktoré sú
zoskupené pod záložkou Explore. V rámci preskúmania sledujeme vhodným výberom
prehľadov rozloženie jednotlivých údajov. Zameriavame sa taktiež na identifikáciu
extrémnych hodnôt, ktoré by mohli výrazným spôsobom prispieť k skresleniu
29
modelu. Sledujeme tiež počty chýbajúcich hodnôt, ktorých ošetrenie prebieha
v nasledujúcom kroku.
Hoci samotné dáta je možné kompletne očistiť a doplniť ešte pred ich
pripojením do modelu, vhodnejšie je tieto úkony vykonať v rámci tretieho kroku,
k čomu slúžia nástroje nachádzajúce sa v záložke Modify. V rámci tohto kroku je
vhodné upraviť si názvy premenných, aby nedochádzalo k chybám pri analýze.
Zároveň je vhodné využiť uzly slúžiace na nahradenie a doplnenie chýbajúcich
hodnôt. Je potrebné zvoliť správnu metódu nahradenia chýbajúcich hodnôt, nakoľko
zle zvolená metóda môže viesť k skresleniu vstupov analýzy a z toho vyplývajúceho
skreslenia výsledkov analýzy. Uzol slúžiaci na nahradenie hodnôt je možné použiť
okrem
nahradenia
chýbajúcich
hodnôt
taktiež
na
odstránenie
diakritiky
a zoskupovanie hodnôt do skupín. S takto očistenými, upravenými a doplnenými
údajmi môžeme ďalej pokračovať v stavbe modelu. Pred samotným aplikovaním
modelovacích nástrojov je vhodné ešte vykonať transformáciu všetkých intervalových
premenných, ktorých rozdelenie nie je normálne, s cieľom normalizácie ich
rozdelenia. Následne je možné ešte využiť uzly, ktoré zoskupia všetky skúmané
atribúty do skupín na základe korelácie a vyberú tie premenné, ktoré najviac vplývajú
na sledovaný znak. Tento výber je však iba odporúčaním a je možné ho zmeniť podľa
potrieb analýzy.
V záložke Modify sa nachádza viacero modelovacích nástrojov. Z nášho
pohľadu sú najdôležitejšie moduly regresie, rozhodovacích stromov a neurónových
sietí, ktoré využívame aj v rámci analýzy. Paralelných zapojením jednotlivých
modulov na údaje, ktoré sme si v prechádzajúcom kroku pripravili tak zostrojíme
jednotlivé modely, ktorých výsledky následne interpretujeme. Väčšina modelovacích
nástrojov je postavených predovšetkým na poznatkoch matematiky a štatistiky. Voľbu
modelov, ktoré sú najvhodnejšie pre analýzu, realizujeme na základe výstupov, ktoré
chceme s ich pomocou získať. Dôležitú úlohu zohráva pri výbere taktiež
interpretovateľnosť
modulu.
Často
je
potrebné
nájsť
kompromis
medzi
interpretovateľnosťou a schopnosťou modelu predpovedať budúci vývoj, nakoľko
obvykle platí, že modely, ktoré najpresnejšie predpovedajú budúci vývoj sú najťažšie
interpretovateľnými modelmi a naopak.
Posledným krokom celého procesu je voľba modelu, ktorý najpresnejšie
predpovedá budúci vývoj sledovaného javu. Tento výber je možné uskutočniť dvoma
spôsobmi. Prvým spôsobom je subjektívny výber modelu analytikom na základe
30
výstupov jednotlivých modelov. Vhodnejšie je však využiť nástroje, nachádzajúce sa
na záložke Assess. Pomocou týchto nástrojov je možné priradiť každému
zostavenému modelu skóre, pričom platí, že model s najvyšším skóre má predpoklady
k najpresnejšiemu predpovedaniu budúceho vývoja.
Vzhľadom na množstvo uzlov nachádzajúcich sa v jednotlivých skupinách
a možnosť doprogramovania vlastných uzlov, existuje veľké množstvo prístupov
vhodných k zostaveniu modelu. Nami prezentovaný proces je iba akýmsi základným
postupom, ktorý sa využíva pri predikčnej analýze, ktorá je súčasťou druhej kapitoly
tejto práce. Dôležité je zvoliť správnu kombináciu, ktorou sa dopracujeme k modelu,
ktorý bude čo najpresnejšie opisovať skúmaný jav.
31
2 Praktická aplikácia dataminingu pri analýze rizika stornovanosti
Po zhrnutí základných poznatkov potrebných pre vykonanie analýzy v prvej
kapitole, sa budeme v druhej kapitole venovať samotnej analýze. Na úvod je potrebné
poznamenať, že pri analýze vychádzame z poznatkov a záverov analýzy vykonanej
Ing. Ivanou Hujíkovou v rámci diplomovej práce Metódy riadenia rizika s využitím
hĺbkovej analýzy údajov. Naším primárnym cieľom je pritom overiť existujúce
modely na aktuálnych údajoch. Vytvorené modely sú postavené na údajoch tej istej
poisťovne z predchádzajúcich rokov, našou snahou je teda overiť ich predikčné
schopnosti na aktuálnych dátach a identifikovať prípadné zmeny v týchto modeloch.
V rámci analýzy budeme vytvárať modely pre vybrané spektrum produktov
poisťovne. Pri zostavovaní pritom budeme vychádzať z rovnakých predpokladov,
ktoré tvorili východiská pôvodnej analýzy, aby sme dospeli k rovnakému modelu.
Zároveň sa pokúsime zhodnotiť kvalitu a presnosť zostrojených modelov. V prípade
odhalenia nedostatkov resp. chýb, navrhneme opatrenia na odstránenie týchto
nedostatkov s cieľom skvalitniť a spresniť zostavený model tak, aby čo najpresnejšie
predpovedal budúci vývoj sledovaného javu.
Pred samotným zostavovaním modelov si najprv stručne popíšeme poisťovňu,
ktorá nám poskytla údaje. Okrem toho sa pristavíme pri jednotlivých produktoch,
ktoré sú predmetom našej analýzy. Charakterizujeme si ich základné znaky, odlišnosti
a charakteristické črty. Následne si popíšeme štruktúru analyzovaných údajov
a proces očistenia a doplnenia pôvodných údajov, ktorým bolo nevyhnutné prejsť
pred samotnou analýzou údajov v softvérovom nástroji.
V rámci vykonávanej analýzy popíšeme východiská a postup zostavovania
modelu pre jednotlivé produkty v nami používanom nástroji SAS Enterprise Miner.
Taktiež poukážeme na charakteristiky skúmaných údajov. Pre každý produkt
vytvoríme viaceré modely pričom vyberieme ten, ktorý podľa nás najpresnejšie
predikuje skúmaný jav s ohľadom na interpretovateľnosť modelu. Samotná
interpretácia výsledkov ako i zhodnotenie kvality zostavených modelov bude už
súčasťou nasledujúcej kapitoly.
32
2.1 Charakteristika poisťovne a analyzovaných produktov
Nami skúmaná poisťovňa pôsobí na slovenskom trhu poisťovacích spoločností
menej ako desať rokov, možno ju teda zaradiť medzi najmladšie poisťovne. Bola
založená ako akciová spoločnosť so základným imaním presahujúcim zákonom
stanovenú minimálnu hodnotu. Hlavným predmetom činnosti poisťovne je
vykonávanie poisťovacej činnosti pre poistný druh životného poistenia podľa zákona
č. 8/2008 Z. z. o poisťovníctve. Zaraďuje sa teda do skupiny životných poisťovní.
Portfólio produktov poisťovne prešlo od začiatku jej činnosti prirodzeným
vývojom. V súčasnosti zahŕňa široké spektrum poistných produktov. Tieto možno
v zásade rozdeliť do troch skupín. Prvú skupinu tvoria produkty kapitálového
životného poistenia, ktoré poisťovňa ponúka svojim klientom už od začiatku
pôsobenia na slovenskom poistnom trhu. Do druhej skupiny zaraďujeme produkty
investičného životného poistenia a tretiu skupinu tvoria produkty rizikového
poistenia. Pre potreby analýzy je nevyhnutné poznať základnú charakteristiku
analyzovaných produktov, preto si ich v nasledujúcej časti bližšie popíšeme.
2.1.1 Produkty kapitálového životného poistenia
Do tejto skupiny produktov zaraďujeme tri produkty poisťovne. Prvým je
„produkt 1A“, ktorý je poistením pre prípad dožitia alebo úmrtia v dôsledku
akejkoľvek príčiny. Poistené je pri tomto produkte splatné jednorazovo, a to pri
podpise poistného návrhu. Produkt je určený dospelým osobám vo veku 18 – 65
rokov, pričom minimálna poistná doba je päť rokov a minimálna výška poistného
1 650 EUR. Tento produkt neumožňuje žiaden druh pripoistenia.
Druhým produktom v tejto skupine je „produkt 1B“. Jedná sa taktiež
o poistenie pre prípad dožitia alebo úmrtia v dôsledku akejkoľvek príčiny, avšak
poistné je v tomto prípade platené bežne (mesačne, štvrťročne, polročne alebo ročne).
Ďalším rozdielom
oproti predchádzajúcemu produktu je existujúca možnosť
pripoistení. Minimálna doba a vek poisteného sú zhodné s produktom 1A.
Posledným produktom v tejto skupine produktov je „produkt 1C“. Je
poistením v prospech dieťaťa pre prípad dožitia devätnásteho roku života s dvomi
povinnými pripoisteniami. Poistné je rovnako ako v prípade prvého produktu splatné
jednorazovo. Minimálna dĺžka poistného vzťahu je päť rokov, vstupný vek poistenca
teda musí byť v rozmedzí 0-14 rokov.
Všetky tri produkty majú nárok na podiel na prebytku poistného.
33
2.1.2 Produkty investičného poistenia
V tejto skupine ponúka poisťovňa svojim klientom dva produkty, ktoré budú
predmetom našej analýzy. Oba produkty v sebe zahŕňajú kombináciu výhod životného
poistenia a investovania do fondov s prvkami ochrany. Prvým z týchto produktov je
„produkt 2A“. Poistencom môže byť osoba vo veku od 6 týždňov do 60 rokov,
pričom minimálna poistná doba je pri tomto produkte desať rokov. Rovnako ako
v prípade produktu 1A, neumožňuje tento produkt žiaden typ pripoistenia. Poistné je
platené jednorazovo pri podpise poistného návrhu. Klient má však možnosť
mimoriadnych vkladov a výberov počas trvania poistenia.
Alternatívou k tomuto produktu je „produkt 2B“.
Základným rozdielom
medzi týmito produktmi je spôsob platenia, nakoľko produkt 2B je priebežne
plateným poistením s voliteľným intervalom platenia (mesačne, štvrťročne, polročne,
ročne). Okrem intervalu platenia si taktiež poistník volí pomer medzi investičnou
a rizikovou zložkou poistenia. Ostatné podmienky sú v tomto prípade totožné
s podmienkami produktu 2A.
2.1.3 Produkty rizikového poistenia
Do poslednej skupiny produktov zaraďujeme dva produkty. Prvým z nich je
„produkt 3A“. Toto poistenie je uzatvárané za účelom zabezpečenia úveru pri jeho
poskytnutí a počas jeho trvania. Je ochranou proti riziku nesplácania úveru z rôznych
dôvodov (smrť, trvalé následky úrazu, dočasná pracovná neschopnosť, strata
zamestnania). Viaže sa obvykle k spotrebnému úveru alebo úveru zabezpečeného
nehnuteľnosťou. Poistenie sa uzatvára na celú dobu splácania úveru, poistné je platené
mesačne. Súčasťou tohto produktu sú aj povinné a voliteľné pripoistenia.
Druhým produktom je „produkt 3B“, ktorý je poistením pre prípad smrti
z akejkoľvek príčiny a pre prípad úrazu. Tento produkt je určený pre majiteľov
vybraných bežných účtov. Poistné je uhrádzané ročne alebo mesačne, klient si sám
určuje spôsob platenia poistného. Špecifikom tohto poistenia je jeho úhrada formou
inkasa z bežného účtu. Poistenie automaticky zaniká v prípade nezaplatenia
pravidelného poistného.
34
2.2 Príprava analyzovaných dát
Predtým ako sa pustíme do samotnej analýzy údajov, je nevyhnutné vykonať
potrebné úpravy v údajoch dodaných poisťovňou. Tieto údaje obsahujú základné
informácie o aktívnych a zrušených poistných zmluvách. Nakoľko v našej práci
analyzujeme vplyv geografických a demografických faktorov na zrušenie poistných
zmlúv, nevyhnutnou súčasťou tejto fázy je aj doplnenie chýbajúcich údajov, ktoré sa
v dodaných dátach nenachádzali.
Všetky údaje boli dodané vo formáte xls. Vzhľadom na veľký objem dát
a slabšie možnosti programu Microsoft Excel na hromadnú úpravu dát sme sa
rozhodli dodané údaje najprv importovať do MySQL databázy, ktorej štruktúra je
totožná so štruktúrou pôvodných xls súborov. Toto riešenie má podľa nás viacero
výhod, medzi ktoré patrí možnosť indexácie položiek databázy a s tým spojené
rýchlejšie vyhľadávanie v údajoch ako i lepšie možnosti hromadných úprav údajov
s využitím programovacieho jazyka PHP.
Následne sme zahájili samotné úpravy dát. Prvým krokom bolo spárovanie
údajov o poistencoch a poistníkoch s údajmi o poistných zmluvách, nakoľko tieto boli
dodané samostatne. S využitím krátkeho PHP skriptu sa podarilo bez problémov a
v relatívne krátkom čase spojiť všetky údaje do jednej tabuľky. Nakoľko sa
v dodaných údajoch vyskytovali preklepy, ktoré by nám v ďalšom priebehu úpravy
údajov mohli spôsobovať problémy, rozhodli sme sa v ďalšom kroku tieto preklepy
odstrániť. Zamerali sme sa predovšetkým na geografické údaje o poistencoch
a poistníkoch (mesto, PSČ), ktorých správnosťou je podmienené správne priradenie
ďalších údajov k jednotlivým záznamom.
Ďalším krokom úpravy dát bolo doplnenie záznamov o geografické
a demografické údaje. Doplnili sme k jednotlivým údajom nasledujúce informácie:
kraj a okres poistenca a poistníka, nezamestnanosť v okrese a kraji, priemernú mzdu
v kraji a vstupný vek poistníka. Nezamestnanosť v okrese a kraji sme čerpali
z mesačných štatistík uvedených na stránke Ústredia práce, sociálnych vecí a rodiny.
Informácie o priemernej mzde v jednotlivých krajoch za posledné roky sme získali
z databázy RegDat (databáza regionálnej štatistiky), ktorú pravidelne aktualizuje
Štatistický úrad Slovenskej republiky. Všetky údaje sme si importovali do príslušných
tabuliek a následne sme pomocou napísaného PHP skriptu automaticky priradili tieto
údaje k jednotlivým zmluvám. Údaje sme párovali na základe presnej zhody v názve
35
obce resp. kraja. Zvyšné údaje, ktoré sa na základe názvu obce resp. kraja nespárovali,
sme následne spárovali na základe PSČ, čím sme priradili informácie aj k záznamom,
ktoré obsahovali preklep v názve obce resp. kraja. Zhoda ani v jednom z uvedených
prípadov nenastala približne pri sto záznamoch, ktorým sme údaje o priemernej mzde
a nezamestnanosti priradili ručne. V prípade menej ako sto záznamov boli poistníkom
resp. poistencom osoby s trvalým pobytom v zahraničí. Nakoľko by získanie údajov
o zamestnanosti a priemernej mzde v týchto krajinách bolo pre jednotlivé záznamy
časovo náročne, rozhodli sme sa vyradiť uvedené záznamy z databázy, keďže tvorili
menej ako desatinu percenta všetkých záznamov.
Posledným krokom pri úprave údajov bolo doplnenie výšky anualizovaného
poistného a produkčnej hodnoty k jednotlivým záznamom. V prípade zmlúv platených
jednorazovo je anualizované poistné rovné jednorazovému poistnému. Pri poistných
zmluvách s bežne plateným poistným sa anualizované poistné rovná súčinu lehotného
poistného a frekvencie platenia. Produkčnou hodnotou označujeme celkovú sumu,
ktorú poisťovňa príjme od poistenca za celú dobu trvania poistenia.
Takto doplnené údaje sme nakoniec vyexportovali do formátu xls, nakoľko
nami používaná licencia na SAS Enterprise Miner v sebe nezahŕňala konektor na
MySQL databázu, vďaka ktorému by sme mohli údaje čerpať priamo z databázy.
Pomocou filtračných dotazov sme postupne vyexportovali záznamy viažuce sa
k jednotlivým produktom za posledný rok a zvlášť údaje za predchádzajúce roky, na
ktorých boli postavené pôvodné modely. Vyexportované xls súbory sme následne
prekonvertovali pomocou nástroja SAS 9.1. do potrebného formátu, ktorý akceptuje
SAS Enterprise Miner. Tým sme si pripravili kompletné údaje, z ktorých budeme
vychádzať pri zostavovaní modelov pre jednotlivé produkty.
2.3 Analýza v prostredí zvoleného softvérového nástroja
V rámci analýzy sme zostavovali data miningové modely pre jednotlivé
produkty. Pri dodržaní všetkých predpokladov, ktoré tvorili základ pôvodnej analýzy,
sme zostavili model. Pri zostavovaní modelu bolo naším cieľom identifikovať a
odstrániť prípadné nedostatky resp. chyby, ktoré mohli negatívne ovplyvniť výsledky
analýzy. Pripojením nových údajov do takto zostaveného modelu sme sa snažili
overiť,
či došlo
k naplneniu
záverov pôvodnej analýzy,
t.j.
k prejaveniu
identifikovaných rizikových faktorov.
36
Nakoľko popis stavby modelu ako aj štruktúry pôvodne analyzovaných údajov
je súčasťou diplomovej práce Ing. Ivany Hujíkovej, v nasledujúcich podkapitolách sa
zamierame iba na popis štruktúry nových údajov a bližšie sa pristavíme pri
odlišnostiach, ktoré sa pri zostavovaní modelu vyskytli.
2.3.1 Analýza produktov kapitálového životného poistenia
Do tejto skupiny zaraďujeme tri produkty poisťovne, ktoré sme si bližšie
popísali v predchádzajúcej podkapitole tejto práce. Postupne sa pozastavíme pri
jednotlivých produktoch,
zameriame
sa
na
opis
základných charakteristík
predovšetkým nových údajov a popíšeme priebeh zostavovania data miningového
modelu. Na záver vyhodnotíme pri každom produkte výstup analýzy z pohľadu
najlepšie predikujúceho modelu.
Produkt 1A
Prvým analyzovaným produktom zo skupiny produktov kapitálového
životného poistenia je produkt 1A, ktorý patrí medzi najstaršie produkty poisťovne.
Ku koncu sledovaného obdobia, t.j. k X07/12 sme mali k dispozícii pre účely analýzy
údaje o takmer 39 000 zmluvách poisťovne. Z tohto počtu bolo takmer 66% aktívnych
a 34% zrušených zmlúv. Oproti predchádzajúcemu obdobiu došlo k pomerne
vysokému nárastu zrušených zmlúv. Bližšou analýzou údajov sme zistili, že tento
posun bol spôsobený predovšetkým ukončením poistných zmlúv z dôvodu dožitia sa
konca poistenia, t.j. očakávaným ukončením poistných vzťahov.
Ako vyplýva z obrázku 3, záujem o tento produkt v posledných rokoch klesal,
najvyšší záujem o tento produkt prejavili klienti poisťovne v období X04.
Z uvedeného obrázku taktiež vyplýva zvýšený záujem o tento produkt v poslednom
sledovanom období, t.j. v období X07, pričom výrazné zvýšenie záujmu zaznamenala
poisťovňa predovšetkým v treťom kvartáli. Predpokladáme, že jedným z faktorov
nárastu záujmu je uzatvorenie nových zmlúv s poistencami, ktorým v priebehu
sledovaného obdobia skončila platnosť pôvodných zmlúv. Ďalšou z možných príčin
nárastu záujmu je odklon ľudí v čase zhoršenej ekonomickej situácie od investičného
životného poistenia ku kapitálovému životnému poisteniu, ktoré je v minimálnej
miere závislé od vývoja na trhu.
37
1600
1400
1200
1000
800
600
400
200
X04/10
X05/1
X05/4
X05/7
X05/10
X06/1
X06/4
X06/7
X06/10
X07/1
X07/4
X07/7
X07/10
X02/1
X02/4
X02/7
X02/10
X03/1
X03/4
X03/7
X03/10
X04/1
X04/4
X04/7
0
Obrázok 3 Vývoj záujmu o produkt 1A
Prameň: Vlastné spracovanie na základe údajov poisťovne
V rámci zostavovania data miningového modelu pre tento produkt sme
v prvom kroku pripojili do diagramu dopredu pripravené a vo vhodnom formáte
uložené údaje, pričom sme si údajovú základňu rozdelili na dve časti. Prvú časť tvorili
údaje za obdobie X01-X06, t.j. pôvodné údaje, ktoré boli predmetom pôvodnej
analýzy. Na týchto údajoch sme zostavovali model podľa predpokladov pôvodnej
analýzy. Druhú časť tvoria údaje o zmluvách z posledného sledovaného obdobia X07,
ich pripojením do modelu overujeme zostavený model. Všetky údaje obsahovali
základné informácie o zmluvách vrátane geografických a demografických údajov
o poistencovi a poistníkovi, priemernej mzde a miere nezamestnanosti v príslušnej
oblasti.
Pripojením uzla Stat Explore k pôvodným dátam sme sledovali, či je
zachovaná štruktúra, t.j. či disponujeme rovnakou dátovou základňou aká bola použitá
pri pôvodnej analýze. Rovnaký uzol sme pripojili taktiež k novým dátam z obdobia
X07 za účelom porovnania štatistických charakteristík skúmaných premenných.
Z výstupu uvedeného uzla vyplýva, že sa nám podarilo plnohodnotne doplniť všetky
údaje do pôvodných dát, nakoľko ani v jednom prípade neevidujeme žiadnu
chýbajúcu hodnotu (tzv. missing). Možno taktiež vyčítať, že poisťovňa v sledovanom
období uzavrela viac poistných zmlúv s poistencami ženského pohlavia (61,41%).
38
Z pohľadu krajov je najpočetnejšie zastúpený rovnako ako v prechádzajúcom
období Košický kraj (15,65% zmlúv), aj keď jeho podiel je nižší než
v predchádzajúcom období. Druhým najviac zastúpeným krajom je Žilinský kraj
(14,78% zmlúv), jeho podiel oproti predchádzajúcemu obdobiu mierne stúpol.
Zastúpenie všetkých krajov je však pri tomto produkte pomerne rovnomerné (príloha
1). Z pohľadu okresov je poradie na prvých dvoch miestach opačné ako
v predchádzajúcom období, najpočetnejšie zastúpeným okresom je okres Košice
(7,21% zmlúv), na druhom mieste je okres Bratislava (7,07%). Uzol nám poskytuje
taktiež informácie o základných štatistických ukazovateľoch pri intervalových
premenných. Z tohto výstupu vyplýva, že priemerný klient poisťovne uzatvára
zmluvu na produkt 1A na dobu 5,13 roka, pochádza z okresu s nezamestnanosťou
13,27% a priemernou mzdou 548,54 EUR. Nakoľko výstup uzla neobsahuje
informácie o šikmosti a špicatosti intervalových premenných, pripojili sme k tomuto
uzlu ešte uzol Multi Plot, ktorý tieto informácie sprostredkuje.
Za účelom podrobnejšieho preskúmania jednotlivých premenných a vzťahov
medzi nimi sme ako k pôvodným tak aj k novým údajom pripojili uzol Graph
Explore. Z pohľadu anualizovaného poistného je zaujímavým zistením, že rozloženie
zmlúv je takmer totožné s rozložením v pôvodných dátach. Pri väčšine poistných
zmlúv (63,72%) je anualizované poistné v intervale od 996 EUR do 3 202 EUR.
Ďalšiu skupinu tvoria zmluvy s anualizovaným poistným v rozmedzí od 3 202 EUR
do 5 408 EUR, takýchto nových zmlúv poisťovňa eviduje takmer 22%. Z grafického
zobrazenia taktiež vidieť, že absolútna väčšina zmlúv (97%) je uzavretá na obdobie 5
rokov, čo je minimálna poistná doba. Oproti predchádzajúcemu obdobiu je zreteľný
nárast takýchto zmlúv, čoho príčinou môže byť taktiež súčasná ekonomická situácia
a neochota ľudí zaviazať sa na dlhšie časové obdobie. Významnú úlohu tu zohráva aj
skutočnosť, že na týchto poisteniach (za jednorazové poistné a s dobou poistenia päť
rokov) je možné uplatniť výnimku z limitu pre technickú úrokovú mieru podľa § 29
ods. 5 zákona č. 8/2008 o poisťovníctve a o zmene a doplnení niektorých zákonov.
V ďalšom kroku sme overili existenciu vzájomných závislostí medzi
jednotlivými premennými.
S využitím maticového
grafu
sme potvrdili pri
predchádzajúcej analýze zistenú priamu lineárnu závislosť medzi anualizovaným
poistným, poistnou sumou na hlavné krytie, tarifným poistným, poistným na zmluve
spolu a produkčnou hodnotou (príloha 2). Vzhľadom na uvedené budeme v ďalšom
priebehu modelovania využívať iba premennú poistné na zmluve spolu. Okrem tejto
39
závislosti sme identifikovali aj priamu lineárnu závislosť medzi nezamestnanosťou
v kraji a nezamestnanosťou v okrese. Keďže sa chceme vyhnúť nadhodnocovaniu
významu
niektorej
z premenných,
budeme
ďalej
využívať
iba
premennú
nezamestnanosť v okrese.
Vzhľadom k tomu, že sa nám podarilo komplexne doplniť údaje, nebolo
potrebné využiť uzly Impute a Replacement, ktoré by nám chýbajúce údaje doplnili
najvhodnejšou hodnotou. S pomocou uzla Append sme spojili pôvodné dáta
obsahujúce údaje za obdobie X01-X06 s novými údajmi za obdobie X07. Na tento
uzol sme následne napojili uzol Data Partition. Vzhľadom na šírku databázy sme
rozdelili údaje na tréningovú, validačnú a testovaciu množinu v pomere 40:30:30.
Nakoľko rozdelenie hodnôt pri niektorých premenných nebolo normálne ani
v pôvodných, ani v nových údajoch, rozhodli sme sa znormovať s využitím uzla
Transform Variables nasledovné premenné: anualizované poistné, nezamestnanosť
v okrese, poistné na hlavné krytie, poistné na zmluve spolu, doba na zmluve, poistná
suma na hlavné krytie a produkčná hodnota.
Následne
sme
pristúpili
k vytváraniu
modelov
s využitím
uzlov,
nachádzajúcich sa na záložke Model. Z možností, ktoré Enterprise Miner ponúka sme
zvolili najčastejšie používané, a to rozhodovacie stromy, regresiu a neurónové siete.
Prvým zvoleným modelom sú
neurónové siete. Na identifikovanie
premenných, ktoré najviac vplývajú na cieľovú premennú, a teda budú vhodným
vstupným parametrom pre neurónovú sieť sme využili uzol Variable Selection. Za
najvhodnejšie premenné označil na základe R-Square testu a chí-kvadrát testu viaceré
premenné. V tomto kroku sme spozorovali prvé odlišnosti oproti pôvodnému modelu.
V doplnených údajoch vyhodnotilo v oboch testoch za najvýznamnejšiu premennú
okres. Výrazný vplyv na cieľovú premennú majú podľa testu taktiež premenné
priemerná mzda v kraji, logaritmovaná doba, vstupný vek poistníka a priemerná mzda
v kraji. Výsledok testu potvrdzuje náš pôvodný predpoklad, že demografické
a geografické faktory majú vplyv na zrušenie zmlúv. Z ostatných premenných bol
identifikovaný ešte vplyv poistného na zmluve spolu, tarifného poistného
a anualizovaného poistného, tieto vplyvy sú však menej výrazné. Presnosť daného
výberu program ohodnotil na 89,34%, čo je o viac ako 2% vyššie číslo ako pri
pôvodnej analýze. Na uzol Variable Selection sme následne pripojili a spustili uzol
Neural Network.
40
Druhým zvoleným modelom bola regresia. Keďže Enterprise Miner ponúka tri
druhy regresie pri analýze údajov, postupne sme pripojili a nastavili tri uzly
Regression do modelu. Prvým typom ponúkanej regresie je lineárna regresia, ktorej
rovnica má tvar: yˆ = wˆ 0 + wˆ 1 x1 + wˆ 2 x 2 , kde wˆ 0 , wˆ 1 , wˆ 2 sú parametre modelu.
V štandardnej lineárnej regresii je predikčný odhad cieľovej premennej získaný
jednoduchou lineárnou kombináciou vstupov. Tento typ regresie však pre naše účely
nie je úplne vhodný, nakoľko sa využíva hlavne v prípade, keď je cieľovou
premennou intervalová premenná.
Druhým typom zvolenej regresie je logistická regresia. Táto je úzko spojená
 pˆ 
 = wˆ 0 + wˆ 1 x1 + wˆ 2 x 2 . Pre našu
s lineárnou regresiou, jej rovnica má tvar log
 1 − pˆ 
analýzu je však vhodnejšia nakoľko primárne pracuje s binárnym výstupom.
Výsledkom modelu logistickej regresie je odhadovaná pravdepodobnosť.
Posledným typom využívanej regresie je polynomická regresia. Na rozdiel od
predchádzajúcich dvoch typov, polynomická regresia umožňuje odhaliť aj nelineárne
vzťahy medzi jednotlivými premennými. Rovnica polynomickej regresie má tvar
 pˆ 
 = wˆ 0 + wˆ 1 x1 + wˆ 2 x 2 + wˆ 3 x12 + wˆ 4 x 22 + wˆ 5 x1 x 2 ,
log
ˆ
1
−
p


kde
x12 a x 22
nazývame
polynomickými premennými a x1 .x2 interakčnou premennou.
Ako posledný model sme pripojili uzol Decission Tree, ktorý je základným
modelom prediktívnej analýzy. Pri tomto modeli sme ponechali základné nastavenia,
upravili sme iba minimálnu hranicu p-hodnoty z pôvodných 20% na 5%.
Na záver sme pripojili uzol Model Comparison, ktorý slúži na porovnanie
jednotlivých modelov a výber najvhodnejšieho modelu, ktorý najlepšie predikuje
skúmanú cieľovú premennú. Najvhodnejším modelom sa rovnako ako v prípade
pôvodnej analýzy stala polynomická regresia. Tokový diagram zachytávajúci celý
proces sa nachádza v prílohe 3. Výstup hodnotenia modelov ako i interpretácia
výsledku sú predmetom nasledujúcej kapitoly tejto diplomovej práce.
Produkt 1B
Druhým produktom v danej skupine produktov je kapitálové poistenie za
bežné poistné, pričom klient poisťovne má možnosť zvoliť si mesačnú, štvrťročnú,
polročnú alebo ročnú lehotu platenia. Pri tomto produkte sme mali k dispozícii veľkú
41
vzorku údajov, celkovo sme disponovali údajmi z takmer 50 000 zmlúv poisťovne.
Oproti predchádzajúcemu produktu tvoria zrušené zmluvy pomerne vysoký podiel na
všetkých zmluvách, po pripojení nových údajov sa tento podiel zvýšil z pôvodných
40% na 48%. To potvrdzuje skutočnosť, že bežne platné poistné produkty sú
náchylnejšie na zrušenie ako jednorazovo platené produkty.
Pri zostavovaní data miningového modelu sme postupovali metodicky
podobne ako v prípade prvého produktu. Údaje o zmluvách sme si rozdelili na dva
dátové zdroje. Prvý obsahoval údaje za obdobie X01-06, druhý za obdobie X07.
Bližšie sme sa pomocou uzla Stat Explore pozreli na nové údaje. Z výstupu tohto uzla
vyplýva, že rovnako ako v predchádzajúcom prípade, aj pri tomto produkte sa nám
podarilo komplexne doplniť údaje, v dátovej základni sa teda nenachádzajú žiadne
chýbajúce hodnoty. Výstup ďalej poskytuje základné informácie o štruktúre zmlúv.
Zákazníci poisťovne preferujú mesačnú frekvenciu úhrady poistného, tento spôsob si
zvolilo v minulom období až 96% poistencov. K miernym zmenám došlo v štruktúre
poistencov, v predchádzajúcom období poisťovňa uzavrela viac zmlúv s osobami
mužského pohlavia (51%) ako s osobami ženského pohlavia (49%). Najvyšší záujem
o tento produkt dosahuje poisťovňa v Košickom kraji, z ktorého pochádza takmer
21% všetkých poistencov, na druhom mieste je Bratislavský kraj s takmer 13%.
Bratislava však dominuje s takmer 9% všetkých poistných zmlúv z pohľadu miest. Pri
tomto produkte uzatvára zmluvu najčastejšie poistenec pochádzajúci z kraja s 11,67%
nezamestnanosťou, priemernou mzdou 535,09 EUR, pričom zmluva je uzatvorená
najčastejšie na dobu 5 rokov s ročnou výškou poistného 205,56 EUR. Z výstupu
vyplýva taktiež, že najčastejšie rušia zmluvu poistenci vo veku 39 rokov.
Keďže nás zaujalo vysoké percento zrušených zmlúv pri tomto produkte,
rozhodli sme sa preskúmať štruktúru zrušení s využitím uzla Graph Explore.
Z výstupu tohto uzla vyplýva, že viac ako 54% všetkých zrušených zmlúv bolo
zrušených z dôvodu nezaplatenia bežného následného poistného, pričom v najviac
prípadoch došlo k zrušeniu zmlúv s mesačnou frekvenciou platenia. Druhým
najčastejším typom zrušenia je odkup. Týmto spôsobom bolo v sledovanom období
zrušených až 30% zmlúv. Na treťom mieste je odstúpenie od zmluvy v období do
dvoch mesiacov od uzavretia zmluvy z dôvodu nedodania všetkých potrebných
podkladov (5% zrušených zmlúv). Uvedené skutočnosti sú taktiež zobrazené
z pohľadu jednotlivých pohlaví v prílohe 4. Pri pohľade na vstupný vek poistencov,
ktorí zrušili zmluvu,
je
možné konštatovať, že s rastúcim vekom klesá
42
pravdepodobnosť zrušenia zmluvy počas jej trvania. Najviac zrušení sa vyskytuje
u poistencov, ktorí uzatvorili zmluvu vo veku 22 až 28 rokov.
2500
2000
1500
1000
500
X07/10
X04/10
X05/1
X05/4
X05/7
X05/10
X06/1
X06/4
X06/7
X06/10
X07/1
X07/4
X07/7
X02/1
X02/4
X02/7
X02/10
X03/1
X03/4
X03/7
X03/10
X04/1
X04/4
X04/7
0
Obrázok 4 Vývoj záujmu o produkt 1B
Prameň: Vlastné spracovanie na základe údajov poisťovne
Na obrázku 4 je zobrazený vývoj záujmu o produkt 1B. Od uvedenia na trh
dosahoval produkt najvyššie predaje v období X03-X05. V posledných obdobiach
podobne ako v prípade produktu 1A záujem o tento produkt klesal. V poslednom
sledovanom období X07 však badať mierne zvýšený záujem, čoho príčinou môže byť
rovnako ako v prípade prvého produktu zmena v preferenciách obyvateľstva v čase
zhoršenej ekonomickej situácie.
Po preskúmaní štruktúry a charakteristiky údajov sme obidva dátové zdroje
spojili s pomocou uzla Append. Následne sme pripojili uzol Data Partition. Vzhľadom
na šírku databázy sme vstupné údaje rozdelili rovnako ako v prípade prvého produktu
na tri podmnožiny – tréningovú, validačnú a testovaciu v pomere 60:30:30.
Pri skúmaní údajov pomocou uzlov Graph Explore a Multi Plot sme zistili
vysoké hodnoty šikmosti a špicatosti pri viacerých premenných. Vzhľadom na
využívanie regresných modelov sme sa rozhodli identifikované premenné znormovať
s využitím uzla Transform Variables. V prípade produktu 1B sme znormovali
premenné anualizované poistné, poistná suma na hlavné krytie, poistné na zmluve
spolu, produkčná hodnotu a doba. Rozdelenie premenných priemerná mzda v kraji
43
a nezamestnanosť v okrese vykazovalo v našom prípade známky normálneho
rozdelenia, preto sme uvedené premenné neznormovali.
S pomocou uzla Variable Selection sme sa snažili identifikovať premenné,
ktoré najväčšou mierou vplývajú na cieľovú premennú našej analýzy a teda má
význam skúmať ich vplyv na sledovaný jav. Za takéto premenné možno na základe
výstupu uzla považovať okres, pohlavie, produkčnú hodnotu, frekvenciu platenia
a vstupný vek poistenca.
Na pripravené údaje sme postupne napojili uzly Decission Tree s nastavenou
hladinou významnosti 0,05, uzol logistickej a polynomickej regresie a uzol Neural
Network. Vzhľadom na binárny charakter cieľovej premennej sme v tomto prípade
nevyužili lineárnu regresiu. Všetky modely sme následne spojili uzlom Model
Comparison, ktorý zhodnotil kvalitu jednotlivých modelov.
Za najsilnejšie modely boli uzlom Model Comparison zvolené modely
rozhodovacieho stromu a polynomickej regresie. Na rozdiel od pôvodnej analýzy,
ktorá identifikovala za najsilnejší model polynomickú regresiu, na upravených dátach
dosahoval lepšie výsledky model rozhodovacieho stromu. Tento dosahoval lepšie
hodnoty v miere chybovosti, ROC indexe (príloha 5) a rovnako aj v hodnotách
ukazovateľa kumulatívneho liftu. Celý tokový diagram predikčnej analýzy je uvedený
v prílohe 6.
Produkt 1C
Posledným produktom zo skupiny kapitálových produktov životného poistenia
je produkt 1C. Základným špecifikom ako i rozdielom oproti predchádzajúcim dvom
produktom je cieľová skupina, pre ktorú je tento produkt určený. Touto cieľovou
skupinou sú deti a osoby vo veku 0-14 rokov. Minimálna dĺžka poistného vzťahu je
päť rokov, pri uzatváraní zmluvy môže mať teda poistenec maximálne štrnásť rokov.
Nakoľko poistencom sú v prípade tohto produktu neplnoleté osoby, poistníkom je
vždy iná dospelá osoba. Z toho dôvodu sa budeme pri analýze viac zameriavať na
poistníka, nakoľko tento zmluvu uzatvára, platí a taktiež rozhoduje o jej zrušení.
Vývoj záujmu o produkt 1C je zobrazený v obrázku 5.
44
250
200
150
100
50
X07/12
X07/10
X07/8
X07/6
X07/4
X07/2
X06/12
X06/10
X06/8
X06/6
X06/4
X06/2
X05/12
X05/10
X05/8
X05/6
X05/4
X05/2
X04/12
X04/10
X04/8
X04/6
0
Obrázok 5 Vývoj záujmu o produkt 1C
Prameň: Vlastné spracovanie na základe údajov poisťovne
Najvyšší záujem o tento produkt poisťovňa zaznamenala pri jeho uvedení na
trh. V tomto období bolo uzatvorených najviac poistných zmlúv. Nakoľko od
uvedenia tohto produktu na trh prešlo menej ako päť rokov, väčšina týchto poistných
zmlúv je stále aktívna. V posledných dvoch sledovaných obdobiach záujem o tento
produkt stagnoval. Najnižší záujem o tento produkt poisťovňa zaznamenala práve
v poslednom sledovanom období. K sledovanému obdobiu X07/12 sme mali
k dispozícii údaje o približne 1 300 zmluvách.
Pripojením uzlov Stat Explore, Graph Explore a Multi Plot k pôvodným,
novým a spojeným údajom sme sa bližšie pozreli na štruktúru poistných zmlúv. Hoci
existoval predpoklad, že z dôvodu zhoršenej ekonomickej situácie bude dochádzať
k častejšiemu rušeniu poistných zmlúv, nakoľko poistné nie je v tomto prípade
nevyhnutným nákladom pre domácnosti, naplnenie tohto predpokladu po preskúmaní
dát nemožno potvrdiť. Pomer aktívnych a zrušených zmlúv sa iba jemne zmenil
v prospech zrušených zmlúv z pôvodných 95:5 na súčasných 94:6. Pri takmer
všetkých zrušených zmluvách v roku 2009 je evidovaný typ zrušenia odkup.
K zrušeniu teda došlo pravdepodobne z dôvodu zhoršenej finančnej situácie
poistníkov. Odkup je najčastejším typom zrušenia aj z pohľadu všetkých zrušených
zmlúv, pričom takmer 80% zmlúv je zrušených práve týmto spôsobom.
45
Druhým najčastejším typom zrušenia je zrušenie zmluvy do dvoch mesiacov
od uzavretia zmluvy zo strany poistníka. Zmluvy rušia najviac poistníci zo
Žilinského, Banskobystrického a Bratislavského kraja, najviac poistníkov pritom
pochádza práve z posledných dvoch spomínaných krajov. Rizikovejšou skupinou sú
pre poisťovňu poistníci do 40 rokov, ktorý stoja za zrušením viac ako 66% zrušených
zmlúv (príloha 7).
Vzhľadom na pomerne malú vstupnú databázu údajov, ktorú sme mali
k dispozícii, sme sa rozhodli rozdeliť všetky údaje pomocou uzla Data Partition iba na
dve podmnožiny – tréningovú a validačnú v pomere 60:40. Testovaciu množinu teda
netvoríme.
Pri prehliadaní údajov pomocou uzlov Graph Explore (príloha 8) a Multi Plot
sme aj v tomto prípade identifikovali premenné, ktoré vykazovali vysoké hodnoty
šikmosti a špicatosti. Takýmito premennými sú anualizované poistné, poistná suma na
hlavné krytie, tarifné poistné, poistné na zmluve spolu, produkčná hodnota
a technická úroková miera. Z dôvodu využívania týchto premenných ako vstupných
premenných v regresnom modeli sme s využitím uzla Data Transform uvedené
premenné znormovali.
S identifikáciou významných premenných, ktoré najviac vplývajú na skúmanú
cieľovú premennú, t.j. zrušenie poistnej zmluvy nám pomohol uzol Variable
Selection. Pri tomto produkte boli identifikované premenné poistná suma pre
pripoistenie, poistné za pripoistenie, okres, nezamestnanosť v okrese a priemerná
mzda v kraji.
Pri modelovaní sme využili opäť tri základné modelovacie uzly, t.j.
rozhodovacie stromy, regresiu a neurónovú sieť. Uzol rozhodovacie stromu sme
spustili s hranicou významnosti pre delenie vetvy 5%. Rovnako ako v prípade
pôvodnej analýzy však identifikoval iba jedno deliace kritérium – poistné za
pripoistenie, ktoré však z hľadiska analýzy nemá vysokú vypovedaciu schopnosť, a
preto je pre naše účely tento model nevhodný. Zo vstupných premenných pre model
lineárnej a logistickej regresie sme vyňali premenné poistné za pripoistenie, poistnú
suma na hlavné krytie, vstupný vek poistného, tarifné poistenie a poistnú sumu pre
pripoistenie, nakoľko uvedené premenné vykazovali priamu lineárnu závislosť
s ostatnými vstupnými premennými a mohli by tak negatívne ovplyvňovať výsledok
analýzy.
46
Výsledky a presnosť jednotlivých modelov sme porovnali s pomocou uzla
Model Comparison. Vo výstupe z uzla je označený za najvhodnejší model
rozhodovací strom, ktorý má síce nízku mieru chybovosti a vysokú hodnotu ROC
indexu, pre nás však z vyššie spomínaných dôvodov nie je vhodným modelom. Z toho
dôvodu sme zvolili za najvhodnejší model logistickú regresiu, ktorá má o niečo vyššiu
mieru chybovosti a nižšiu hodnotu ROC indexu. Tokový diagram predikčnej analýzy
pri tomto produkte uvádzame v prílohe 9.
Nakoľko sme mali k dispozícii pomerne málo obsiahlu databázu údajov, ktorá
obsahovala iba necelých 5% zrušených zmlúv a za posledné sledované obdobie bol
prírastok zmlúv nízky, dosiahli sme pri tomto produkte takmer totožné výstupy, aké
boli dosiahnuté pri pôvodnej analýze. Vzhľadom na nízky počet zmlúv, ktoré tvorili
vstup do analýzy, je však štatistická významnosť tohto modelu otázna. Z toho dôvodu
odporúčame zopakovať analýzu pri tomto produkte o niekoľko rokov na rozšírenej
databáze údajov, čím sa závery zostaveného modelu buď potvrdia alebo vyvrátia.
2.3.2 Analýza produktov investičného životného poistenia
V tejto podkapitole si popíšeme priebeh a závery analýzy produktov
investičného životného poistenia. Tie sú vo všeobecnosti považované za rizikovejšie
produkty ako produkty kapitálového poistenia. Pokúsime sa teda okrem overenia
pôvodných modelov taktiež zistiť, či zhoršená ekonomická situácia spojená s vyššou
opatrnosťou zákazníkov ovplyvnila záujem o jednotlivé produkty, prípadne či
spôsobila nárast počtu zrušených zmlúv.
Produkt 2A
Produkt 2A je prvým z tejto skupiny produktov. Tento produkt je podobne ako
produkt 1A jednorazovo plateným poistením. Na rozdiel od neho však poisteným
môže byť aj neplnoletá osoba staršia ako šesť mesiacov. V roku 2009 využilo túto
možnosť až takmer 40% poistníkov. Pri necelých 38% zmlúv vystupuje v osobe
poisteného osoba mladšia ako 18 rokov (príloha 10). V porovnaní s predchádzajúcim
obdobím (24%) je zreteľný nárast takýchto zmlúv, preto sa pri analýze zamierame
taktiež na overenie skutočnosti, či sú častejšie rušené zmluvy, pri ktorých v osobe
poisteného vystupuje plnoletá alebo neplnoletá osoba.
Preskúmaním nových údajov pomocou uzla Stat Explore zisťujeme ďalšie
rozdiely. V poslednom sledovanom období sa zvýšil záujem o tento produkt
47
predovšetkým v Banskobystrickom a Žilinskom kraji, z ktorých pochádzajú takmer
2/5 poistníkov (príloha 11). Naopak k zníženiu záujmu o tento produkt došlo
v Košickom kraji. Z pohľadu okresov bol najúspešnejší predaj v okrese Liptovský
Mikuláš, v ktorom bolo uzatvorených takmer 16% všetkých zmlúv. Zmluvy častejšie
uzatvárajú ženy (63% zmlúv) než muži (37%), v osobe poistníka však vystupujú vo
väčšine prípadov muži (53% zmlúv).
S využitím uzla Graph Explore sme sa bližšie pozreli na charakteristiky
zrušených zmlúv. Z výstupu vyplýva, že takmer 30% všetkých zrušených zmlúv
zrušili poistníci z Košického kraja. Z Banskobystrického a Košického kraja celkovo
pochádza až 50% poistníkov, ktorí v prechádzajúcom období zrušili zmluvu. Rovnako
aj z pohľadu okresov je na prvom mieste okres Košice, z ktorého pochádza až 20%
poistníkov. K zrušeniu zmluvy pristúpilo v minulom roku viac osôb ženského (55%)
ako mužského (45%) pohlavia, čo je vzhľadom na štruktúru poistníkov očakávaným
zistením. Najčastejšie zmluvu rušili poistníci vo veku 43 rokov pochádzajúci z kraja
s 12,37% nezamestnanosťou a priemernou mzdou 592 EUR. Z pohľadu veku
poistenca dochádzalo k častejšiemu rušeniu zmlúv, v ktorých v osobe poisteného
vystupovala plnoletá osoba. V tomto prípade je zrušená v priemere každá trinásta
zmluva. Pri zmluvách, v ktorých vystupuje v osobe poisteného neplnoletá osoba, je
zrušená v priemere iba každá devätnásta zmluva.
200
180
160
140
120
100
80
60
40
20
0
Obrázok 6 Vývoj záujmu o produkt 2A
Prameň: Vlastné spracovanie na základe údajov poisťovne
48
Ako vidieť na obrázku 6, záujem o tento produkt v posledných sledovaných
obdobiach prudko klesol. Rovnako ako v prípade predchádzajúcich produktov,
záujem bol najvyšší pri uvedení produktu na trh. V poslednom sledovanom období je
prepad predajnosti ešte zreteľnejší. V tomto období bolo uzavretých až o 84% menej
zmlúv ako v bezprostredne predchádzajúcom období. Celkový podiel zmlúv viažucich
sa k tomu produktu ku všetkým zmluvám je menší ako 1%. Z toho vyplýva aj veľkosť
našej vzorky zmlúv, ktorá obsahovala údaje iba o približne 1 600 zmluvách. Pomer
aktívnych zmlúv k zrušeným je aj pri tomto jednorazovo platenom poistnom vysoký,
v našom dátovom sklade bol tento pomer 93:7. Oproti predchádzajúcemu obdobiu sa
tento pomer zmenil v neprospech aktívnych zmlúv.
Po spojení údajov pomocou uzla Append sme údaje rozdelili uzlom Data
Partition na tréningovú a validačnú množinu. Z dôvodu porovnateľnosti výsledkov
našej analýzy s pôvodnou analýzou sme taktiež zvolili pomer 1:1. Testovaciu
množinu vzhľadom na nízky počet záznamov pri tomto produkte nevytvárame.
Nakoľko ani jedna z premenných nevykazovala pri tomto produkte zvýšené
hodnoty šikmosti a špicatosti, nebolo potrebné premenné znormovať s využitím uzla
Transform Variable. Na uzol Data Partition sme ako prvý pripojili uzol Variable
Selection. Za signifikantné premenné boli týmto uzlom zvolené premenné okres,
anualizovaná hodnota, vstupný vek poistenca a poistníka a nezamestnanosť v kraji.
Následne sme pripojili uzol Neural Network, ktorý sme spustili s pôvodnými
nastaveniami. Pripojili sme taktiež uzly logistickej a polynomickej regresie.
Posledným zvoleným uzlom bol uzol Decission Tree s nastavenou hladinou
významnosti 5%. S pomocou uzla Control Point sme všetky modely prepojili a na
tento uzol sme následne napojili uzol Model Comparison. Vzhľadom na porovnateľne
veľkú vzorku zmlúv ako i takmer totožný pomer medzi aktívnymi a zrušenými
zmluvami s nízkym výskytom zrušených zmlúv, sme pri tomto produkte dosiahli
podobné výsledky ako pri produkte 1C. Za najvhodnejší model pre tento produkt sa
na základe výstupu uzla javí rozhodovací strom. Ten však nenašiel pri danej hladine
významnosti žiadne relevantné deliace kritérium, preto je pre naše účely nevhodným
modelom. Za druhý najsilnejší model na základe kritéria miery chybnej klasifikácie
bola zvolená neurónová sieť. Ako silnejšie modely sa však na základe hodnôt ROC
indexu a kumulatívneho Liftu javia modely logistickej a polynomickej regresie, ktoré
majú iba o niečo vyššiu mieru zlej klasifikácie. V pôvodnej analýze bol za najlepší
model zvolený práve model polynomickej regresie. Z dôvodu nízkeho počtu
49
pozorovaní a nízkeho počtu zrušených zmlúv odporúčame aj pri tomto produkte
analýzu zopakovať o niekoľko rokov na rozšírenej databáze údajov, nakoľko pri
danom počte pozorovaní nemožno jednoznačne zhodnotiť silu modelu, o čom svedčia
aj rozličné výsledky dosiahnuté na tréningovej a validačnej množine. Celý priebeh
analýzy je vyobrazený v prílohe 12.
Produkt 2B
Druhým skúmaným produktom v tejto skupine je produkt 2B. Základné
charakteristiky tohto produktu sme uviedli v predchádzajúcej kapitole tejto práce.
Tento produkt je obmenou produktu 2A. Základný rozdiel spočíva vo frekvencii
úhrady poistného, nakoľko na rozdiel od produktu 2A je tento produkt bežne
plateným poistným s voliteľnou mesačnou, štvrťročnou, polročnou alebo ročnou
frekvenciou úhrady poistného.
3500
3000
2500
2000
1500
1000
500
0
Obrázok 7 Vývoj záujmu o produkt 2B
Prameň: Vlastné spracovanie na základe údajov poisťovne
Napriek relatívne krátkej dobe predaja produktu sa podarilo poisťovni uzavrieť
pomerne vysoký počet poistných zmlúv na tento produkt. Na účely analýzy sme
disponovali vzorkou údajov, ktorá obsahovala informácie o takmer 36 000 zmluvách
poisťovne. Pomer aktívnych ku zrušeným zmluvám narástol dosť výrazne
z pôvodných 80:20 na aktuálnych 66:34 v neprospech aktívnych zmlúv. K tomuto
50
nárastu došlo aj z toho dôvodu, že v poslednom sledovanom období počet zrušených
zmlúv takmer trojnásobne prevyšuje počet nových zmlúv. Ako vidieť na obrázku 7,
záujem o tento produkt sa v poslednom období výrazne znížil. Možno teda
konštatovať, že u oboch produktov investičného životného poistenia sa zhoršená
ekonomická situácia obyvateľstva a zvýšenie rizika pri investovaní prejavila
v zníženom záujme o produkty investičného poistenia a zároveň v náraste zrušených
zmlúv.
Rozdelenie databázy údajov na údaje prechádzajúcich období (X01-06)
a údaje posledného skúmaného obdobia (X07) nám umožnilo bližšie preskúmať nové
údaje z obdobia X07. Z výstupu uzlov Stat Explore, Graph Explore a Multi Plot
vyplýva, že najviac poistných zmlúv bolo v tomto období uzavretých v Košickom
kraji (19,46% nových zmlúv) a Trnavskom kraji (19,07%). Naopak najviac zmluvy
rušili poistníci z Banskobystrického kraja (17,08% zrušených zmlúv) a Trenčianskeho
kraja (16,69%). Prehľad najčastejších zrušení z pohľadu jednotlivých krajov je
uvedený v prílohe 14. Z pohľadu okresov bol zaznamenaný najvyšší počet zrušených
zmlúv v okrese Košice (6,03%) a Prievidza (5,79%). Väčšinu nových zmlúv
uzatvárajú osoby mužského pohlavia (55,02%), títo však aj častejšie zmluvy rušia
(63,02% zrušených zmlúv). Takmer totožnú štruktúru zaznamenávame aj pri skúmaní
poistencov, nakoľko možnosť uzavretia zmluvy na inú osobu využili iba necelé 4%
poistníkov. Zmluvy boli uzatvárané na dobu 10 až 32 rokov, pričom najviac
zrušených zmlúv bolo v poslednom období uzatvorených na dobu 10 rokov (príloha
13). Najčastejšími typmi zrušenia sú v prípade tohto produktu nezaplatenie bežného
následného poistenia (50,56%) a odkup (45,28%). Oproti predchádzajúcemu obdobiu
došlo k výraznému nárastu počtu prípadov, kedy bola zmluva zrušená formou odkupu.
Z výstupu uzla Multi Plot vyplýva, že premenné anualizované poistné, poistná
suma na hlavné krytie, tarifné poistné a poistné na zmluve spolu vykazujú vysoké
hodnoty šikmosti a špicatosti, preto uvedené premenné v ďalšom priebehu analýzy
znormujeme. S pomocou maticového grafu sme zistili priamu lineárnu závislosť
medzi tarifným poistným, anualizovaným poistným a poistným na zmluve spolu,
preto premenné anualizované poistné a tarifné poistné vylúčime v ďalšom priebehu
analýzy. Ostatné premenné vykazujú minimálnu resp. žiadnu lineárnu závislosť.
Na výber vhodných premenných sme opäť využili uzol Variable Selection, na
ktorý sme napojili uzol Neural Network. Priamo na uzol Data Partition sme napojili
uzol Decision Tree, ktorému sme nastavili hranicu významnosti pre delenie vetvy na
51
5%. Poslednými pripojenými uzlami sú uzol logistickej a polynomickej regresie
s prednastavenými nastaveniami.
Na koniec sme pripojili uzol Control Point za účelom overenia logickej
správnosti zostaveného modelu a uzol Model Comparison, ktorý nám zhodnotil
kvalitu jednotlivých modelov a za najvhodnejší model vybral logistickú regresiu. Aj
po doplnení údajov sa teda potvrdili závery pôvodnej analýzy, pri ktorej bola práve
logistická regresia zvolená za najvhodnejší model pre produkt 2B. Celý priebeh
analýzy je uvedený v prílohe 15. Samotnej interpretácii modelu a zmien, ktoré nastali
po pripojení nových údajov sa budeme venovať v tretej kapitole.
2.3.3 Analýza produktov rizikového poistenia
Na záver analýzy sa zameriame na produkty rizikového poistenia. V tejto
skupine produktov má poisťovňa vo svojom portfóliu dva produkty.
Produkt 3A
Prvým analyzovaným produktom v tejto skupine je produkt 3A. Hlavným
charakteristickým znakom tohto produktu je jeho naviazanie na spotrebný úver. Od
jeho výšky sa odvíja samotná výška poistnej sumy ako i poistného, ktoré je uhrádzané
vždy v mesačnej frekvencii.
Poisťovňa pri tomto produkte zaznamenáva dlhodobo vysoký záujem,
každoročne je uzatvorených niekoľko tisíc zmlúv. Ku koncu sledovaného obdobia
sme mali k dispozícii údaje o takmer 50 000 aktívnych zmluvách. Celkový podiel na
všetkých aktívnych zmluvách poisťovne síce poklesol na 36%, stále je však pomerne
vysoký. Z pohľadu produkčnej hodnoty a podielu na výbere ročného poistného je
tento podiel naopak nízky, čo súvisí s pomerne nízkym priemerným poistným pri
danom produkte. Pomer medzi aktívnymi a zrušenými zmluvami je v prípade tohto
produktu 40:60, t.j. opačný ako v prípade predchádzajúcej analýzy. Zmena pomeru je
spôsobená vysokým nárastom zrušených zmlúv v poslednom sledovanom období. Po
vylúčení zrušení z titulu dožitia tento pomer klesne na 48:52. V priemere teda
dochádza k zrušeniu takmer každej druhej uzatvorenej zmluvy, čo v podstate odráža
aj úverovú stratégiu banky, ku ktorej úveru je poistenie uzatvorené.
Ako vidieť na obrázku 8, záujem o analyzovaný produkt neklesol ani
v poslednom období. To je odrazom situácie na trhu, kde ani pod vplyvom zhoršenej
ekonomickej situácie nedošlo k výraznému zníženiu dostupnosti bankových úverov,
52
na ktoré je tento produkt naviazaný. Záujem o tento produkt má pomerne cyklický
charakter, najviac zmlúv býva obvykle uzatvorených na konci prvého štvrťroka.
Najmenej uzavretých zmlúv poisťovňa registruje koncom kalendárneho roka.
Najúspešnejšie bolo z pohľadu predaja pre poisťovňu obdobie X03.
4500
4000
3500
3000
2500
2000
1500
1000
500
X07/3
X06/12
X06/9
X06/6
X06/3
X05/12
X05/9
X05/6
X05/3
X04/12
X04/9
X04/6
X04/3
X03/12
X03/9
X03/6
X03/3
X02/12
X02/9
X02/6
X02/3
X01/12
0
Obrázok 8 Vývoj záujmu o produkt 3A
Prameň: Vlastné spracovanie na základe údajov poisťovne
Z dôvodu vysokého počtu záznamov, ktoré sme mali pri danom produkte
k dispozícii, sme museli rozdeliť údaje za obdobie X01-07 na dve časti, ktoré sme
spojili s využitím uzla Append. Následne sme overovali, či je štruktúra údajov zhodná
so štruktúrou údajov, ktoré vstupovali do pôvodnej analýzy. Zaujal nás však vysoký
počet zrušených zmlúv v poslednom sledovanom období, preto sme sa rozhodli
s využitím uzla Graph Explore preskúmať charakteristiky zrušených zmlúv.
Ako prvé sme sa pozreli na štruktúru zrušení podľa typu zrušenia. Z výstupu
vyplýva, že až 60% nežiadúcich zrušení bolo z dôvodu predčasného splatenia úveru,
ku ktorému bolo poistenie naviazané. Týmto spôsobom bolo najviac zmlúv zrušených
aj v predchádzajúcich obdobiach (57% zrušených zmlúv). Naopak klesol podiel
zrušení z dôvodu nezaplatenia bežného následného poistného z 34% na 32% (príloha
17). Vzhľadom na obvyklú existenciu sankčných poplatkov pri predčasnom splatení
úveru a súčasnú zhoršenú situáciu na trhu sme očakávali opačný trend. Najviac zmlúv
z dôvodu predčasného splatenia úveru zrušili poistníci z Košického (17,20%),
53
Trenčianskeho (14,24%) a Trnavského kraja (14,65%). Naopak najmenej poistníci
z Bratislavského kraja (5,94%). Z dôvodu nezaplatenia bežného následného poistenia
bolo najviac zmlúv zrušených poistníkmi z Košického (15,58%), Nitrianskeho
(14,92%) a Žilinského kraja (13,98%). Najmenej zrušených zmlúv je v tomto prípade
opäť poistencami z Bratislavského kraja (6,03%). Zamerali sme sa taktiež na vzťah
medzi
nezamestnanosťou
v okrese,
vstupným
vekom
poistníka
a výškou
anualizovaného poistného, výstup analýzy je uvedený v prílohe 16.
Po preskúmaní údajov sme všetky tri dátové zdroje spojili s využitím uzla
Append, na ktorý sme pripojili uzol Data Partition. Nakoľko je vstupná databáza
obsiahla, rozdelili sme údaje na tri podmnožiny. Pomer medzi validačnou,
tréningovou a testovacou množinou sme stanovili na 40:30:30. Pri predchádzajúcom
preskúmaní údajov sme zistili vysoké hodnoty šikmosti a špicatosti pri premenných
anualizované poistné, poistné na zmluve spolu, poistná suma na hlavné krytie, poistné
za pripoistenia a poistná suma pre pripoistenia. Tieto sme pomocou uzla Variable
Transform
znormovali.
Premenné
priemerná
mzda
v kraji,
vstupný
vek
a nezamestnanosť v okrese vykazovali v našom prípade na rozdiel od pôvodnej
analýzy známky normálneho rozdelenia, preto sme tieto premenné neznormovali.
Opäť sa prejavili aj závislosti medzi poistnou sumou a poistným, preto sme
zredukovali počet vstupov do modelov.
Z prvej skupiny modelov sme pripojili do diagramu uzly regresie. Využili sme
z dôvodu binárneho targetu (cieľovej premennej) opäť iba uzly logistickej
a polynomickej regresie.
Na pôvodné dáta rozdelené na tri podmnožiny sme napojili uzol
rozhodovacieho stromu. Vychádzajúc z pôvodného modelu sme stanovili maximálny
počet vetiev na tri, maximálny počet generácii na desať a minimálnu hranicu phodnoty na 5%. Z dôvodu technických problémov sme interaktívny rozhodovací
strom netvorili.
Pri konfigurácii uzlov neurónovej siete sme taktiež postupovali v súlade
s pôvodnou analýzou. V prvom prípade sme využili uzol autoneurónovej siete na
redukciu počtu premenných a na tento sme napojili uzol neurónovej siete. V druhom
prípade sme využili uzol Variable Selection, na ktorý sme napojili uzol neurónovej
siete.
Všetky modely sme prepojili pomocou uzla Model Comparison,
ktorý
potvrdil správnosť výberu modelu pri pôvodnej analýze, nakoľko za najpresnejší
54
model zvolil neurónovú sieť, ktorá dosahuje najlepšie výsledky vo všetkých
sledovaných ukazovateľov. Komplexný priebeh data miningovej analýzy je uvedený
v prílohe 18.
Produkt 3B
Posledným nami analyzovaným produktom z portfólia poisťovne je produkt
3B.
Tento
produkt
je úrazovo
orientovaným poistením.
Medzi základné
charakteristiky, ktoré sú z pohľadu analýzy pre nás dôležité, patria dve skutočnosti.
Všetky poistné zmluvy sú uzatvárané na rovnakú poistnú sumu na hlavné krytie
a pripoistenia a poistenie sa dojednáva na prvé obdobie, pričom zaplatením poistného
na ďalšie obdobie dochádza k jeho automatickej obnove. K prirodzenému zániku
poistného vzťahu teda v tomto prípade dochádza nezaplatením poistného na ďalšie
obdobie.
600
500
400
300
200
100
X07/9
X07/11
X07/7
X07/5
X07/1
X07/3
X06/9
X06/11
X06/5
X06/7
X06/3
X05/11
X06/1
X05/7
X05/9
X05/3
X05/5
X04/11
X05/1
X04/7
X04/9
X04/3
X04/5
X04/1
0
Obrázok 9 Vývoj záujmu o produkt 3B
Prameň: Vlastné spracovanie na základe údajov poisťovne
Z pohľadu aktívneho portfólia poisťovne sa produkt 3B podieľa iba necelými
piatimi percentami. V poslednom sledovanom období došlo k takmer 50%-nému
poklesu v predaji. Vývoj záujmu o produkt 3B počas posledných štyroch rokoch
zachytáva obrázok 9. My sme analyzovali vzorku, ktorá obsahovala informácie
o takmer 10 000 zmluvách, pričom pomer aktívnych ku zrušeným zmluvám bol 96:4.
55
V porovnaní s predchádzajúcim obdobím sa tento pomer pomerne výrazne zvýšil
v prospech aktívnych zmlúv.
Po importovaní a pripojení pôvodných a nových údajov do diagramu, sme
sledovali predovšetkým údaje z obdobia X07. V tomto období prevyšuje počet
nových zmlúv počet zrušených zmlúv takmer šestnásťnásobne. K zrušeniu zmluvy
dochádzalo vo väčšine prípadov (69% zrušených zmlúv) zrušením poistenia na
žiadosť klienta inak ako nezaplatením poistného. Aj v tomto období sa potvrdil
vysoký výskyt prípadov storna od počiatku, ktoré bolo druhým najčastejším prípadom
zrušenia zmluvy.
Z výstupu uzla Stat Explore pripojeného k novým údajom vyplýva, že najväčší
záujem o tento produkt prejavujú obyvatelia Trenčianskeho (21,32% zmlúv)
a Trnavského kraja (20,45%).
Pri uzatvorení zmluvy si poistenec volí medzi
mesačnou a ročnou frekvenciou platenia poistného. V predchádzajúcom období
poistenci výrazne preferovali mesačný spôsob úhrady, ktorý si zvolilo až 92%
poistencov. Z pohľadu okresov najviac zmlúv pochádza z okresov Košice (7,05%)
a Galanta (6,91%). Podiely aktívnych a zrušených zmlúv vo vybraných okresoch,
z ktorých pochádza najviac poistencov, uvádzame v prílohe 19. Zmluvy častejšie
uzatvárajú muži (65% zmlúv) ako ženy (35%). Priemerná mzda v kraji, z ktorého
najčastejšie pochádza poistený, dosahuje 622,92 EUR. Poistná suma pri tomto
produkte je pomerne nízka, začína od 3,36 EUR pri mesačne platenom poistnom
a končí na úrovni 46,94 EUR pri ročne platenom poistnom. Uzol taktiež poskytuje
informácie o významných premenných, ktoré boli identifikované na základe
štatistických ukazovateľov. Pri tomto produkte boli identifikované premenné mesto,
okres, začiatok, pohlavie poistenca a platenie. Na záver sme sa pozreli na vzťah medzi
nezamestnanosťou v kraji, vstupným vekom poisteného a poistným na hlavné krytie
bez zliav, výstup uvádzame v prílohe 20.
Po preskúmaní údajov sme pripojili uzol Data Partition. Pri tomto produkte
sme sa vzhľadom na počet záznamov rozhodli netvoriť testovaciu podmnožinu, údaje
sme rozdelili iba na tréningovú a validačnú podmnožinu v pomere 60:40. Uzlom
Transform Variables sme znormovali premenné, ktoré vykazovali vyššie hodnoty
šikmosti a špicatosti. Na základe výstupu uzla Multi Plot sme identifikovali v prípade
produktu 3B iba jednu premennú, a to nezamestnanosť v okrese. Pri pôvodnej analýze
vykazovala vyššie hodnoty šikmosti a špicatosti premenná doba v mesiacoch,
v doplnenej databáze údajov však dosahuje táto premenná normálne rozdelenie.
56
Postupným pripájaním uzlov rozhodovacieho stromu, lineárnej a logistickej
regresie a neurónovej siete sme vytvorili jednotlivé data miningové modely pre tento
produkt. Pripojením všetkých modelov na uzol Model Comparison sme zhodnotili
kvalitu jednotlivých modelov na základe viacerých štatistík. Najlepšie výsledky
dosahuje model logistickej a polynomickej regresie. Vzhľadom na výber logistickej
regresie ako najvhodnejšieho modelu pre tento produkt pri pôvodnej analýze a takmer
totožné výsledky oboch najlepších modelov, sme za najlepší model zvolili logistickú
regresiu. V prílohe 21 uvádzame tokový diagram modelu. Výstupom tejto analýzy so
zameraním sa na zmeny, ktoré nastali v modeli vplyvom rozšírenia databázy o nové
údaje, sa budeme venovať v tretej kapitole.
57
3 Vyhodnotenie
vykonanej
analýzy
a zhrnutie
prínosov
pre
poisťovňu
V poslednej
kapitole
tejto
diplomovej
práce
sa
budeme
zaoberať
predovšetkým výstupmi z data miningových modelov, ktoré sme zostavili v rámci
analýzy v predchádzajúcej kapitole. Nakoľko je naša práca zameraná na overenie
existujúcich modelov, primárne sa zameriame na opis zmien, ktoré v modeloch nastali
vplyvom doplnenia databázy o nové údaje z obdobia X07.
Jedným z parciálnych cieľov našej práce bolo overenie metodologickej
správnosti zostavených modelov. Po zostavení modelov pre všetky analyzované
produkty poisťovne môžeme konštatovať, že sme z pohľadu metodológie nenašli
žiadne významné pochybenia. Výsledky a výstupy pôvodnej analýzy považujeme teda
za relevantné. Správnosť modelov sme overovali opätovným zostavením modelu pri
dodržaní pôvodných predpokladov a následným porovnaním výsledkov pôvodného
a nami zostaveného modelu. Do takto zostaveného modelu sme nakoniec pripojili
nové údaje a model sme opätovne spustili. Porovnaním výstupov pôvodných modelov
s výstupmi nami zostavených modelov môžeme vo všeobecnosti konštatovať, že
doplnením databázy o nové údaje nedošlo k výrazným zmenám v zostavených
modeloch. Došlo teda k potvrdeniu predikčných schopností modelov.
Pri overovaní modelov sme dospeli k záveru, že obdobie jedného roka nie je
úplne postačujúce na účely overenia modelov. Kvalitu modelov na základe výsledkov
našej analýzy teda nemožno jednoznačne zhodnotiť. Problematické je predovšetkým
hodnotenie modelov viažucich sa k produktom, pri ktorých došlo v poslednom
sledovanom období k nízkemu nárastu nových pozorovaní. Jednou z hlavných príčin
nedostatku nových pozorovaní je aj zhoršená ekonomická situácia v tomto období,
ktorá vyústila k nižšiemu záujmu o produkty poisťovne.
V nasledujúcich podkapitolách si zhrnieme výsledky overenia z pohľadu
jednotlivých produktov. Z dôvodu porovnateľnosti výsledkov analýzy a dôverného
charakteru niektorých informácií, sa zameriame iba na vybrané produkty
z jednotlivých skupín produktov poisťovne.
58
3.1 Vyhodnotenie výstupov analýzy pri produkte 1A
Zo skupiny kapitálových produktov si zhrnieme výsledky overenia modelu na
nových dátach pri produkte 1A. V rámci pôvodnej analýzy bol za najlepší predikčný
model pri tomto produkte zvolený model polynomickej regresie. Ten istý model
dosahuje najlepšie výsledky vo všetkých ukazovateľoch aj na rozšírených vstupných
údajoch. Porovnanie základných ukazovateľov pri jednotlivých modeloch uvádzame v
tabuľke 1.
Rovnako ako pri predchádzajúcej analýze, aj v našom prípade dosahoval
najlepší model pomerne vysokú mieru zle klasifikovanej cieľovej premennej, ktorá sa
pohybovala na úrovni 10%. Potvrdil sa tým záver pôvodnej analýzy a odporúčanie
zvoliť pri tomto produkte kombináciu viacerých modelov, čo by však už bolo nad
rámec našej práce. Tento záver potvrdzuje aj hodnota ROC indexu, ktorá poklesla pri
najsilnejšom modeli z pôvodných 0,7 na hodnotu 0,6. Tento pokles bol zaznamenaný
na všetkých troch množinách údajov.
Podobné hodnoty miery zlej klasifikácie a ROC indexu sme dosahovali
v našom prípade taktiež pri modeloch logistickej regresie a rozhodovacieho stromu.
V budúcnosti by bolo vhodné overiť, či tieto modely v skutočnosti nepredikujú
skúmaný jav ešte lepšie než nami zvolený model polynomickej regresie.
Tabuľka 1 Porovnanie základných ukazovateľov jednotlivých modelov
Model
Polynomical
Regression
Logistic
Regression
Decission
Tree
AutoNeural
Linear
Regression
Neural
Network
Test:
Misclassification
Rate
Train:
Average
Squared
Error
Train:
Misclassification
Rate
Valid:
Average
Squared
Error
Valid:
Misclassification
Rate
0,10645
0,09335
0,10624
0,09300
0,10613
0,10655
0,09314
0,10656
0,09363
0,10648
0,10673
0,09428
0,10624
0,09426
0,10631
0,10698
0,10912
0,10689
0,10615
0,10682
0,10793
0,09361
0,10689
0,09473
0,10837
0,11779
0,08201
0,10006
0,10387
0,11695
Prameň: Výstup z aplikácie SAS Enterprise Miner
59
Z výstupu najlepšieho modelu, t.j. modelu polynomickej regresie sme sa
snažili identifikovať vplyv jednotlivých premenných a hodnôt na skúmaný jav, t.j.
zrušenie poistnej zmluvy. Za najvýznamnejšie premenné v našom prípade model
identifikoval logaritmovanú dobu, priemernú mzdu, kraj a pohlavie poistenca, čo
potvrdzuje vplyv demografických a geografických faktorov na zrušenie zmluvy.
Okrem toho model identifikoval aj niekoľko interakčných a kvadratických
premenných. Z odhadu parametrov modelu vyplýva, že s rastúcou dobou trvania
poistnej zmluvy rastie aj pravdepodobnosť zrušenia zmluvy. Pri pohľade na kraje,
najviac pozitívny vplyv na cieľovú premennú vykazuje kraj Prešovský a Nitriansky,
pričom v pôvodnej analýze takýmito krajmi boli Trnavský a Trenčiansky kraj.
Vzájomné porovnanie vplyvu jednotlivých krajov na stornovanosť zmluvy nám
výstup modelu ponúka prostredníctvom hodnôt odds ratio, ktoré uvádzame v
tabuľke 2. Za základnú kategóriu zvolil model Žilinský kraj, pričom platí, že hodnota
odds ratio väčšia ako 1 značí vyššiu pravdepodobnosť zrušenia zmluvy
v porovnávanom kraji ako v Žilinskom kraji. Naopak hodnota menšia ako 1 vyjadruje
vyššiu pravdepodobnosť zrušenia zmluvy v Žilinskom kraji ako v porovnávanom
kraji. Z pohľadu pohlavia poistníka existuje podľa výstupu modelu vyššia
pravdepodobnosť zrušenia zmluvy u poistencov mužského pohlavia než ženského
pohlavia.
Tabuľka 2 Hodnoty odds ratio pre jednotlivé kraje pri produkte 1A
Kraj
Základná kategória
Odds Ratio
Banskobystrický
Žilinský kraj
1,116
Bratislavský
Žilinský kraj
3,004
Košický
Žilinský kraj
1,818
Nitriansky
Žilinský kraj
0,990
Prešovský
Žilinský kraj
0,740
Trenčiansky
Žilinský kraj
1,005
Trnavský
Žilinský kraj
1,350
Prameň: Výstup z aplikácie SAS Enterprise Miner
Nakoľko v našom prípade dosahoval nízku mieru zlej klasifikácie cieľovej
premennej a vysoké hodnoty ROC indexu a kumulatívneho liftu aj model
rozhodovacieho stromu, pozrieme sa bližšie aj na výstup tohto modelu.
60
Obrázok 10 Rozhodovací strom pri produkte 1A
Prameň: Výstup z aplikácie SAS Enterprise Miner
Výstup z modelu rozhodovacieho stromu, ktorý je zobrazený na obrázku 10,
potvrdzuje závery polynomickej regresie, nakoľko za významné premenné
identifikoval taktiež dobu na zmluve, priemernú mzdu a pohlavie. Okrem týchto
premenných označil za významné premenné taktiež vstupný vek a technickú úrokovú
mieru. Hlavným deliacim kritériom je podľa tohto modelu doba s hraničnou hodnotou
6,5 roka. Vyšší výskyt zrušení existuje pri zmluvách, ktoré sú uzavreté na dobu dlhšiu
ako 6,5 roku (15% zmlúv). Ďalším deliacim kritériom je v tomto prípade technická
úroková miera, tá je však z pohľadu poisťovne neovplyvniteľná. K zrušeniu zmlúv
však častejšie dochádza pri zmluvách s technickou úrokovou mierou rovnou alebo
väčšou ako 3,25% a to predovšetkým pri zmluvách, ktoré sú uzavreté na dobu dlhšiu
ako 11,5 roka. Naopak pri zmluvách uzavretých na dobu kratšiu ako 6,5 roka
dochádza častejšie k rušeniu zmlúv pri osobách mladších ako 34,5 roka. Rizikovejšie
sú z tohto pohľadu predovšetkým osoby pochádzajúce z kraja, v ktorom sa priemerná
mesačná mzda pohybuje pod úrovňou 577,76 EUR.
Na záver možno konštatovať, že na zrušenie zmluvy pri tomto produkte
vplývajú aj geografické a demografické faktory. Vzhľadom na dlhodobejší charakter
tohto produktu a pomerne krátke obdobie od uvedenia tohto produktu na trh,
s najväčšou pravdepodobnosťou ešte nedošlo k úplnému prejaveniu sa týchto
61
faktorov, preto bude nevyhnutné v budúcnosti túto analýzu zopakovať s cieľom
konkrétnej kvantifikácie vplyvov jednotlivých faktorov.
3.2 Vyhodnotenie výstupov analýzy pri produkte 2B
Z druhej skupiny produktov, t.j. produktov investičného životného poistenia,
sa pozastavíme pri výsledkoch overenia modelu pri produkte 2B. Rovnako ako
v prípade produktu 1A, k dispozícii sme mali pomerne obsiahlu vzorku údajov, ktorá
bola rozšírená o údaje z obdobia X07. V sledovanom období však došlo k značnému
poklesu predaja tohto produktu, z toho dôvodu sme mali k dispozícii menej nových
pozorovaní než sme očakávali.
Z predchádzajúcej analýzy vyplýva, že pri produkte 2B najlepšie predikuje
riziko stornovanosti model logistickej regresie. Pri tejto analýze bol potvrdený
predpokladaný vyšší vplyv finančnej situácie na stornovanosť zmlúv. Naopak nižší
vplyv vykazovali demografické a geografické faktory.
Na rozšírenej databáze údajov sme dosiahli podobné výsledky ako pri
pôvodnej analýze. Z výstupu uzla Model Comparison vyplýva, že najlepšie predikuje
skúmaný jav model logaritmickej regresie. Vybrané štatistické ukazovatele tohto
modelu uvádzame v tabuľke 3.
Tabuľka 3 Vybrané štatistické ukazovatele logaritmickej regresie
Ukazovateľ
Tréningová
množina údajov
Validačná množina
údajov
Testovacia
množina údajov
Average Squared
Error
Akaike’s Information
Criterion
Final Prediction Error
0,0073
0,0081
0,0041
43,8746
-
-
0,06
-
-
Gain
190,8195
190,72
190,8021
0,97
0,98
0,95
Gini Coeficient
Kolmogorov Smirnov
Statistic
Lift
0,94
0,92
0,96
2,9081
2,0972
2,9080
Mean Squared Error
0,001
0,011
0,08
0,0021
0,0018
0,0025
0,96
0,99
0,97
Misclassification
Rate
Roc Index
Prameň: Vlastné spracovanie na základe výstupu z aplikácie SAS Enterprise Miner
62
Okrem modelu logaritmickej regresie sa potvrdila taktiež sila modelov
polynomickej regresie a rozhodovacieho stromu, ktoré dosahujú len o niečo horšie
výsledky ako model logaritmickej regresie. Naopak ako nevhodný sa ukázal byť
model neurónovej siete, pri ktorom došlo po doplnení údajov k zvýšeniu miery zlej
klasifikácie cieľovej premennej z pôvodnej hodnoty 0,1% na takmer 10%. Zhoršenie
výsledkov tohto modelu potvrdzuje aj ukazovateľ kumulatívneho liftu a ROC index.
Pri ostatných modeloch registrujeme iba mierne zvýšené hodnoty tohto ukazovateľa.
Hlavným charakteristikám modelu logistickej regresie sme sa venovali už
v druhej kapitole tejto práce. Základný tvar rovnice logistickej regresie je
 pˆ 
 pˆ 
 = wˆ 0 + wˆ 1 x1 + wˆ 2 x 2 , pričom log
 = logit(pˆ ) . Hodnotu w0 nám
log
 1 − pˆ 
 1 − pˆ 
poskytuje výstup uzla logaritmickej regresie. Oproti predchádzajúcej analýze došlo
k zvýšeniu tejto hodnoty na 4,2534, čo je pravdepodobne spôsobené nárastom počtu
zrušených zmlúv v skúmanej vzorke zmlúv poisťovne. Odhady ostatných parametrov
sa taktiež nachádzajú vo výstupe modelu, ich významnosť sme overili pomocou uzla
Partial Least Squares. V tabuľke 4 uvádzame porovnanie odhadov a významnosti
niektorých parametrov v pôvodnej a nami vykonanej analýze.
Silu pôvodného modelu dokazuje aj skutočnosť, že pri analýze na doplnených
údajoch boli identifikované tie isté významné premenné, ktoré boli identifikované pri
pôvodnom modeli. Týmito premennými sú logaritmované poistné na zmluve spolu,
logaritmované anualizované poistné, vstupný vek poisteného a vstupný vek poistníka.
Pozitívny vplyv na skúmaný jav má anualizované poistné a vstupný vek poistníka.
Naopak negatívny vplyv bol identifikovaný pri premenných vstupný vek poisteného
a poistné na zmluve spolu. Na rozšírenej databáze údajov vykazujú vyššiu
významnosť premenné vstupný vek poistníka a vstupný vek poisteného, k poklesu
vplyvu na cieľovú premennú došlo v prípade premennej logaritmované anualizované
poistné.
63
Tabuľka 4 Porovnanie významnosti identifikovaných premenných pri produkte 2B
Premenná
LOG_anualizované
poistné
Vstupný vek
poistníka
Vstupný vek
poisteného
LOG_poistné na
zmluve spolu
Pôvodná analýza
Standardized
Variable
Parameter
Importance
Estimate
for Projection
Naša analýza
Standardized
Variable
Parameter
Importance
Estimate
for Projection
-0,9744
2,9677
-0,07095
0,6609
0,1080
0,6666
-0,19383
2,3527
-0,1232
0,6362
0,05351
1,1167
0,3509
0,5390
0,07267
0,6807
Prameň: Vlastné spracovanie na základe výstupu z aplikácie SAS Enterprise Miner
Okrem odhadov parametrov nám model logistickej regresie poskytuje vo
svojom výstupe aj hodnoty „odds ratio“. Tento pomerový ukazovateľ nám poskytuje
informáciu o pomere šancí jednej premennej voči druhej premennej. Hodnota
ukazovateľa 0,993 pri premennej anualizované poistné značí, že s nárastom výšky
anualizovaného poistného o jednu jednotku, šanca zrušenia zmluvy poklesne o 0,7%.
Zo skupiny charakterových premenných je vo výstupe zastúpená premenná pohlavie
poisteného. Ukazovateľ dosahuje pri tejto premennej hodnotu 1,175, čo značí, že
šanca zrušenia zmluvy poistencom mužského pohlavia je o 17,5% vyššia než šanca,
že k zrušeniu zmluvy pristúpi poistenec ženského pohlavia. Modul logistickej regresie
stanovil hodnoty ukazovateľa odds ratio aj pre jednotlivé okresy, pričom za základný
okres zvolil okres Čadca. Hodnota odds ratio v prípade porovnania okresu Prievidza
s okresom Čadca je 1,321, z čoho vyplýva, že poistenec z okresu Prievidza je
náchylnejší na zrušenie zmluvy ako poistenec z okresu Čadca.
Overením pôvodného modelu pri produkte 2B sme dospeli k takmer totožným
výsledkom, aké boli výstupom pôvodnej analýzy. Model teda preukázal dobré
predikčné schopnosti aj na údajoch, ktoré pochádzajú z obdobia charakteristického
zhoršenou ekonomickou situáciou. Významnú úlohu v prípade produktu 2B teda
zohráva predovšetkým finančná situácia, ktorá sa odzrkadľuje vo výške poistného.
Naopak vplyv geografických a demografických faktorov nie je markantný.
3.3 Vyhodnotenie výstupov analýzy pri produkte 3B
Z poslednej skupiny produktov, t.j. produktov rizikového životného poistenia,
popíšeme výstupy analýzy pri produkte 3B. Špecifikom tohto produktu je už
64
spomínané automatické predĺženie poistnej zmluvy na ďalšie obdobie zaplatením
bežné poistného. Oproti predchádzajúcim dvom produktom sme mali k dispozícii
značne menšiu vzorku údajov. Napriek nízkemu nárastu nových pozorovaní
v poslednom sledovanom období X07, registrujeme najväčšie zmeny v modeli
spomedzi nami vybraných troch produktov, ktorých výsledkom analýzy sa v tejto
kapitole venujeme.
Pri pôvodnej analýze tohto produktu sa vychádzalo z predpokladu, že vplyv
geografických faktorov nebude výrazne vplývať na zrušenie zmluvy. Naopak najvyšší
vplyv sa očakával u externých faktorov, ktorých efekty však nie je možné
kvantifikovať. Zo
záverov analýzy vyplýva, že došlo
k naplneniu týchto
predpokladov. Výraznejší vplyv na zníženie pravdepodobnosti nepredĺženia poistného
obdobia vykazoval iba parameter Bratislavského kraja.
Z pohľadu voľby najlepšieho modelu nedošlo k výrazným zmenám. Najlepšie
predikujúcim modelom síce na základe výstupu uzla Model Comparison v našom
prípade nie je model logistickej regresie, ale model polynomickej regresie, ten však
dosahuje iba o niečo lepšie výsledky ako model logistickej regresie. Z výstupu však
vyplýva, že takmer všetky modely dosahujú na rozšírenej databáze údajov horšie
výsledky ako pri pôvodných údajoch z obdobia X01-X06. Došlo k zhoršeniu
ukazovateľa miery zlej klasifikácie cieľovej premennej, ktorého hodnota narástla
z pôvodnej hodnoty 1% na hodnotu 4%. Zníženú kvalitu modelov potvrdzujú aj
hodnoty ROC indexu, u ktorých došlo k poklesu z cca 0,98 na 0,87 pri najlepšom
modeli. Naopak v hodnotách kumulatívneho
liftu k výrazným zmenám pri
najsilnejších modeloch nedošlo. Napriek tomu však modely polynomickej
a logaritmickej regresie možno stále označiť za pomerne silné modely. Uvedené
zmeny pravdepodobne nastali z dôvodu odlišnej štruktúry nových údajov. Prehľad
hodnôt základných ukazovateľov pre jednotlivé modely uvádzame v tabuľke 5.
65
Tabuľka 5 Základné ukazovatele jednotlivých modelov pri produkte 3B
Model
Polynomická
regresia
Logaritmická
regresia
Rozhodovací
strom
Neurónová sieť
Misclassification
Rate
ROC Index
Lift
0,040631
0,87445
3,9669
0,041488
0,83179
3,1404
0,041502
0,80713
3,0409
0,041502
0,80702
3,0041
Prameň: Vlastné spracovanie na základe výstupu z aplikácie SAS Enterprise Miner
Z výstupu uzla logistickej regresie je možné okrem iného vyčítať významné
premenné,
ktoré najviac
ovplyvňujú
cieľovú
premennú.
Pôvodná
analýza
identifikovala premenné doba trvania zmluvy, začiatok platnosti zmluvy, poistné na
zmluve spolu, okres a kraj poistníka. V prípade našej analýzy došlo k potvrdeniu
vplyvu premenných doba trvania zmluvy, začiatok platnosti zmluvy, okres a kraj
poistníka. Poistné na zmluve spolu má na cieľovú premennú len minimálny resp.
žiaden vplyv. Naopak na doplnenej databáze údajov vplývajú na cieľovú premennú
taktiež premenné nezamestnanosť v okrese, pohlavie a vstupný vek poistníka.
Z pohľadu jednotlivých krajov vykazuje zo všetkých krajov významný vplyv
na zníženie pravdepodobnosti neobnovenia poistného iba Bratislavský kraj, čo
potvrdzuje závery pôvodnej analýzy. Pri ostatných krajoch nastali zmeny iba
v súvislosti s intenzitou vplyvu na cieľovú premennú. Vo väčšine prípadov došlo
k zvýšeniu vplyvu na pravdepodobnosť neobnovenia poistnej zmluvy. Zmeny
v intenzite vplyvu jednotlivých premenných potvrdzujú aj hodnoty ukazovateľa
pomerov šancí (odds ratio). V prípade krajov bol aj v tomto modeli zvolený Žilinský
kraj ako základný kraj, ku ktorému sú pomerované ostatné kraje. Nižšia
pravdepodobnosť zrušenia zmluvy ako v Žilinskom kraji je na základe hodnôt odds
ratio v už spomínanom Bratislavskom kraji (odds ratio 0,001), Trenčianskom kraji
(0,670) a Trnavskom kraji (0,979). V posledných dvoch menovaných došlo oproti
pôvodnej analýze k výrazným zmenám, oproti predchádzajúcemu obdobiu badať
výrazný pokles týchto hodnôt. Naopak k výraznému zvýšeniu šance zrušenia zmluvy
došlo v prípade poistníkov z Košického kraja (odds ratio 23,112). Po preskúmaní
údajov sme došli k záveru, že uvedené je spôsobené výrazným nárastom počtu
zrušených zmlúv poistníkmi z Košického kraja v poslednom sledovanom období.
66
Nakoľko model polynomickej regresie dosahoval ešte o niečo lepšie hodnoty
ako model logistickej regresie, pozreli sme sa taktiež na výsledky tohto modelu,
s cieľom overiť závery modelu logistickej regresie. Z výstupu vyplýva, že najväčší
vplyv na cieľovú premennú má rovnako ako v prípade logistickej regresie premenná
doba
trvania
nezamestnanosti
zmluvy.
Potvrdzuje
v okrese,
pohlavia
taktiež
a veku
vplyv
okresu
poistníka.
a kraja
poistníka,
Výrazné
odchýlky
neregistrujeme ani v prípade odhadov váh jednotlivých parametrov a ani hodnôt odds
ratio. Oba modely teda dosahujú takmer totožné výsledky. Model polynomickej
regresie navyše ponúka pohľad na vplyv jednotlivých interakčných premenných.
Podľa výstupu je u poistníkov mužského pohlavia z okresov Malacky, Senec
a Pezinok vysoká pravdepodobnosť zrušenia zmluvy. Naopak najmenej rizikový sú
poistníci mužského pohlavia z okresov Nitra, Topoľčany, Revúca a Sobrance.
Na záver analýzy možno pri tomto produkte konštatovať, že oba nami
popisované modely potvrdzujú zmeny oproti pôvodnému modelu. Nakoľko sú
uvedené zmeny ovplyvnené iba pomerne nízkym prírastkom nových pozorovaní, to
dokáže zhodnotiť iba ďalšia analýza vykonaná v budúcnosti na ešte širšej vzorke
údajov. V každom prípade však vplyv geografických a demografických ukazovateľov
pri produkte 3B nie je zvlášť výrazný. Potvrdzuje sa iba vplyv premennej kraj
poistníka, pričom by bolo vhodné v budúcnosti overiť, či došlo k naplneniu záverov
našej analýzy. Vhodné by bolo taktiež identifikovať prípadne externé faktory, ktoré
v prípade tohto produktu ovplyvňujú poistníka. Na to by však poisťovňa potrebovala
získať spätnú väzbu od poistníkov, ktorí sa rozhodli nezaplatiť následné poistné, t.j.
nepredĺžiť platnosť poistného vzťahu medzi ním a poisťovňou.
67
3.4 Prínos vykonanej analýzy a jej záverov pre poisťovňu
Na dôležitosť riadenia rizík v poisťovni sme poukázali už v prvej kapitole.
Nami skúmaná poisťovňa v tomto ohľade pochopiteľne netvorí výnimku. Aj jej
cieľom je minimalizácia rizika vznikajúceho pri poistnej činnosti, nakoľko iba tak
môže dosiahnuť želaný výsledok hospodárenia.
Prístupov k riadeniu rizika existuje mnoho. Jedným z nich je aj nami
využívaná data miningová analýza. Táto je pre poisťovne pomerne novou metódou,
postupne si však nachádza uplatnenie aj v sektore poisťovníctva v podmienkach
Slovenskej republiky. V našej práci sme sa snažili demonštrovať praktické uplatnenie
tejto metódy na konkrétnom príklade postavenom na reálnych dátach poisťovne.
Účelom zostavených a nami overených modelov je poskytnúť poisťovni
nástroj na riadenie špecifického rizika, ktoré pri poisťovacej činnosti vzniká. Týmto
rizikom je riziko stornovanosti. Výstup z analýzy poskytuje poisťovni odpoveď na
otázku, aké sú charakteristické črty klienta, ktorý pristúpi k predčasnému zrušeniu
zmluvy. Nakoľko poisťovňa vynakladá finančné prostriedky na získanie klienta,
v prípade predčasného zrušenia zmluvy, predovšetkým v prvých mesiacoch od
podpisu
zmluvy,
nedochádza
k pokrytiu
vzniknutých
nákladov.
Poznaním
charakteristík takýchto klientov môže poisťovňa, neuzatvorením zmluvy resp.
prispôsobením zmluvných podmienok rizikovosti klienta, predísť prípadným stratám.
Na to, aby tieto poznatky mohla poisťovňa aplikovať do praxe, však potrebuje mať
v ruke silné modely s vysokou presnosťou. Veríme, že našou analýzou sme
dopomohli k zvýšeniu
presnosti a sily
zostavených
modelov,
a tieto
budú
v budúcnosti reálne využívané.
Dôležitosť poznania rizikovosti klienta sa zvyšuje aj v súvislosti so schválenou
a v prvej kapitole spomínanou direktívou Solvency II, ktorá nadobudne účinnosť
v najbližších rokoch. Táto okrem iného ukladá poisťovniam povinnosť kvantifikovať
podstupované riziko. Nami overený model je nástrojom, ktorý takúto kvantifikáciu
z pohľadu rizika stornovanosti umožňuje. Po prípadných úpravách a doladení vzniká
priestor na využitie modelov ako interných modelov poisťovne.
Analýza rizika stornovanosti však zďaleka nie je jedinou vhodnou aplikáciou
data miningu v nami analyzovanej poisťovni. Veríme, že v budúcnosti nájde ešte
širšie uplatnenie.
68
Záver
Ako sme v úvode našej práce poznamenali, data mining je perspektívnou
oblasťou, ktorej všetky možnosti ešte ani zďaleka nie sú v praxi využívané. V našej
práci sme sa taktiež vzhľadom na naše možnosti a rozsah práce zaoberali iba jednou
oblasťou aplikácie tejto metódy, avšak existuje ďalší priestor pre jej aplikáciu v nami
skúmanej poisťovni. Okrem využitia pri riadení ďalších typov rizík prichádza do
úvahy takisto využitie data miningu na vytváranie a riadenie dômyselných
marketingových kampaní poisťovne.
Cieľom našej práce bolo overenie vytvorených data miningových modelov na
nových dátach a identifikovanie prípadných zmien, ktoré v modeloch nastali. V rámci
analýzy sme zisťovali vplyv geografických a demografických faktorov na rušenie
zmlúv. Rovnako ako pri každej analýze, ktorá je postavená na historických údajoch, aj
pri data miningovej analýze platí, že kvalita výstupov závisí od kvality vstupných dát.
Dôležitým faktorom je aj počet historických pozorovaní, ktoré do analýzy vstupujú.
My sme mali k dispozícii pomerne obsiahlu databázu údajov. Zahŕňala informácie
o zmluvách poisťovne za obdobie siedmich rokov. Z pohľadu priemernej dĺžky
poistného vzťahu sa však jedná o krátke obdobie. Pre účely analýzy by bolo vhodné
disponovať ešte širšou databázou údajov, tá však v tomto momente, vzhľadom na
pomerne krátke pôsobenie poisťovne na poistnom trhu, nie je k dispozícii.
K analýze sme pristupovali s cieľom overenia predikčných modelov
zostavených v predchádzajúcom roku. Hoci sa obdobie jedného roka ukázalo ako
príliš krátke, podarilo sa nám pri jednotlivých modeloch spresniť a doplniť významné
premenné, ktoré vplývajú na nami skúmané riziko stornovanosti. Náš prínos vidíme aj
v overení
správnosti
zostavenia
jednotlivých
modelov.
Potvrdili
sme
ich
metodologickú správnosť a doladili drobné nedostatky. Pred prípadným aplikovaním
modelov do praxe však odporúčame overiť zostavené modely v budúcnosti na ešte
širšej databáze údajov. Samotné overovanie však čiastočne komplikuje zmena
ekonomickej situácie, ku ktorej došlo v predchádzajúcom období. Tá spôsobila zmenu
v návykoch a správaní obyvateľstva, čoho výsledkom sú odlišnosti v modeloch, na
ktoré sme poukázali.
Napriek problémom a úskaliam, ktorým sme pri analýze čelili, považujeme
vzhľadom na dosiahnuté výsledky a závery cieľ našej práce za splnený.
69
Resumé
Data mining is a comprehensive tool for in-depth data analysis, which finds
application in many areas. In our thesis we address one of the possible application of
this instrument and its application in the insurance industry. Given the scope of work,
we focus only on the analysis of one of a number of risks, risk of cancellation. In our
analysis, we drew conclusions from the analysis from the previous year. The aim of
our study was to verify existing data mining models to new data.
In the first chapter we have discussed the theoretical definition of data mining.
We have defined the concept of Business Intelligence and described the various risks
that affect the operation of all insurance companies. We have also introduced a
software tool SAS Enterprise Miner, which we have used to compile data mining
models. The subject of this chapter is the analysis itself. First, we describe the various
products. After the necessary adjustments to the data, we build data mining models for
individual products. With help of outputs of the nodes, we tried to identify significant
variables. In addition, we also described the structure of the new data. In the final
chapter, we evaluated the results of the analysis. We assessed the methodological
accuracy of the models and showed differences in the patterns of the new data
connection occurred. Finally, we evaluated the contribution of the analysis for the
insurer.
The outcomes of our analysis are adjusted data mining models, which should
be able to quantify the risk of cancellation more precisely. Before applying them in
practice, it would be appropriate to verify the models once again in the future on a
wider database.
70
Zoznam bibliografických odkazov
1. HŘEBÍČEK, J., ŽIŽKA, J. 2008. Vědecké výpočty v biologii a biomedicíně.
Multimediální podpora výuky klinických a zdravotnických oborů. [online]. Brno :
Portál Lékařské fakulty Masarykovy univerzity, 2008. [cit. 2010-02-25]. Dostupné
na internete: <http://portal.med.muni.cz/clanek-455-vedecke-vypocty-v-biologiia-biomedicine.htm>. ISSN 1801-6103.
2. KOLEKTÍV AUTOROV. 2004. Finančné účtovníctvo a riadenie s aplikáciou
IAS/IFRS. II.diel/1.časť. Banská Bystrica : Univerzita Mateja Bela, 2004. 369 s.
ISBN 80-8083-022-3.
3. MITRA, S., ACHARYA, T. 2003. Data Mining. Multimedia, Soft Computing, and
Bioinformatics. New Jersey : John Wiley & Sons, Inc., 2003. 401 s. ISBN 0-47146054-0.
4. NOVOTNÝ, O., POUR, J., SLÁNSKÝ, D. 2005. Business Intelligence. Praha :
Grada Publishing, a.s., 2005. 254 s. ISBN 80-247-1094-3.
5. RegDat. 2010. Databáza regionálnej štatistiky. [online]. Bratislava: Štatistický
úrad
SR,
2010. [cit.
2010-03-25].
Dostupné
na
internete:
<http://px-
web.statistics.sk/PXWebSlovak/>
6. SAS Institute. 2009. Data Mining in the Insurance Industry. [online]. North
Carolina : SAS Institute Inc., 2009. [cit. 2010-03-05]. Dostupné na internete:
<http://whitepapers.zdnet.com/abstract.aspx?docid=1130817>
7. SAS.com. 2010a. About SAS | SAS Slovakia. [Online] 2010. [cit. 2010-03-11].
Dostupné na internete: < http://www.sas.com/corporate/overview/index.html>
8. SAS.com. 2010b. SAS Customer Relationship Management | SAS Slovakia.
[Online] 2010. [cit. 2010-03-11]. Dostupné na internete: <http://www.sas.com/
offices/europe/slovakia/solutions/crm/dmining.html>
9. SCHRETEROVÁ, I. 2008. Solventnosť I, Solvency II a Basel II. In: Zborník z
medzinárodnej vedeckej konferencie Vývojové trendy v poisťovníctve II. Senec,
2008. ISBN 978-80-225-2556-5.
10. Slovstat. 2010. Databáza SLOVSTAT. [online]. Bratislava: Štatistický úrad SR,
2010. [cit. 2010-03-30]. Dostupné na internete: <http://www.statistics.sk/pls/
elisw/metainfo.explorer>
11. Smernica Európskeho parlamentu a Rady 2009/138/ES z 25. novembra 2009 o
začatí a vykonávaní poistenia a zaistenia (Solventnosť II).
71
12. TANG, Z., MACLENNAN, J. 2005. Data Mining with SQL Server 2005.
Indianapolis : Wiley Publishing, Inc., 2005. 460 s. ISBN: 978-0-471-46261-3.
13. UHROVÁ, I. 2008. Solvenstnosť II. In: Zborník z medzinárodnej vedeckej
konferencie Vývojové trendy v poisťovníctve II. Senec, 2008. ISBN 978-80-2252556-5.
14. VALOVÁ, I. 2008. Solvenstnosť II. In: Zborník z medzinárodnej vedeckej
konferencie Vývojové trendy v poisťovníctve II. Senec, 2008. ISBN 978-80-2252556-5.
15. ZÁBORSKÝ, J. 2006. Únia donúti poisťovne lepšie hodnotiť riziká. [online].
Bratislava : TREND Holding, s.r.o., 2006. [cit. 2010-02-22]. Dostupné na
internete: <http://www.etrend.sk/trend-archiv/rok-2006/cislo-26/unia-donuti-poist
ovne-lepsie-hodnotit-rizika.html>
16. Zákon č. 8/2008 Z. z. o poisťovníctve a o zmene a doplnení niektorých zákonov v
znení neskorších predpisov
72
Prílohy
Príloha 1 Podiely aktívnych a zrušených zmlúv podľa krajov pri produkte 1A.......... 74
Príloha 2 Vzájomné závislosti vybraných premenných pri produkte 1A.................... 74
Príloha 3 Tokový diagram predikčnej analýzy pri produkte 1A ................................ 75
Príloha 4 Hlavné dôvody zrušenia zmluvy podľa pohlavia pri produkte 1B .............. 75
Príloha 5 Porovnanie modelov na základe hodnôt ROC indexu pri produkte 1B ....... 76
Príloha 6 Tokový diagram predikčnej analýzy pri produkte 1B................................. 76
Príloha 7 Rušenie zmlúv pri produkte 1C podľa veku poistníka ................................ 77
Príloha 8 Preskúmanie rozdelení vybraných premenných pri produkte 1C ................ 77
Príloha 9 Tokový diagram predikčnej analýzy pri produkte 1C................................. 78
Príloha 10 Počet uzatvorených zmlúv podľa veku poistenca pri produkte 2A ........... 78
Príloha 11 Prírastok nových zmlúv v období X07 podľa krajov pri produkte 2A ...... 79
Príloha 12 Tokový diagram predikčnej analýzy pri produkte 2A............................... 79
Príloha 13 Počet aktívnych a zrušených zmlúv podľa doby na zmluve v poslednom
sledovanom období pri produkte 2B ........................................................ 80
Príloha 14 Nežiaduce typy zrušenia poistnej zmluve v jednotlivých krajoch pri
produkte 2B............................................................................................. 80
Príloha 15 Tokový diagram predikčnej analýzy pri produkte 2B ............................... 81
Príloha 16 Vzťah medzi vstupným vekom poistníka, nezamestnanosťou v okrese
a výškou anualizovaného poistného pri produkte 3A ............................... 81
Príloha 17 Nežiaduce typy zrušenia zmluvy podľa pohlavia pri produkte 3A............ 82
Príloha 18 Tokový diagram predikčnej analýzy pri produkte 3A............................... 82
Príloha 19 Pomer aktívnych a zrušených zmlúv vo vybraných okresoch pri
produkte 3B............................................................................................. 83
Príloha 20 Vzťah medzi nezamestnanosťou v kraji, vstupným vekom poistenca
a poistným na hlavné krytie bez zliav ...................................................... 83
Príloha 21 Tokový diagram predikčnej analýzy pri produkte 3B ............................... 84
73
Príloha 1 Podiely aktívnych a zrušených zmlúv podľa krajov pri produkte 1A
Prameň: Výstup z aplikácie SAS Enterprise Miner
Príloha 2 Vzájomné závislosti vybraných premenných pri produkte 1A
Prameň: Výstup z aplikácie SAS Enterprise Miner
74
Príloha 3 Tokový diagram predikčnej analýzy pri produkte 1A
Prameň: Výstup z aplikácie SAS Enterprise Miner
Príloha 4 Hlavné dôvody zrušenia zmluvy podľa pohlavia pri produkte 1B
Prameň: Výstup z aplikácie SAS Enterprise Miner
75
Príloha 5 Porovnanie modelov na základe hodnôt ROC indexu pri produkte 1B
Prameň: Výstup z aplikácie SAS Enterprise Miner
Príloha 6 Tokový diagram predikčnej analýzy pri produkte 1B
Prameň: Výstup z aplikácie SAS Enterprise Miner
76
Príloha 7 Rušenie zmlúv pri produkte 1C podľa veku poistníka
Prameň: Výstup z aplikácie SAS Enterprise Miner
Príloha 8 Preskúmanie rozdelení vybraných premenných pri produkte 1C
Prameň: Výstup z aplikácie SAS Enterprise Miner
77
Príloha 9 Tokový diagram predikčnej analýzy pri produkte 1C
Prameň: Výstup z aplikácie SAS Enterprise Miner
Príloha 10 Počet uzatvorených zmlúv podľa veku poistenca pri produkte 2A
Prameň: Výstup z aplikácie SAS Enterprise Miner
78
Príloha 11 Prírastok nových zmlúv v období X07 podľa krajov pri produkte 2A
Prameň: Výstup z aplikácie SAS Enterprise Miner
Príloha 12 Tokový diagram predikčnej analýzy pri produkte 2A
Prameň: Výstup z aplikácie SAS Enterprise Miner
79
Príloha 13 Počet aktívnych a zrušených zmlúv podľa doby na zmluve v poslednom
sledovanom období pri produkte 2B
Prameň: Výstup z aplikácie SAS Enterprise Miner
Príloha 14 Nežiaduce typy zrušenia poistnej zmluve v jednotlivých krajoch pri produkte 2B
Prameň: Výstup z aplikácie SAS Enterprise Miner
80
Príloha 15 Tokový diagram predikčnej analýzy pri produkte 2B
Prameň: Výstup z aplikácie SAS Enterprise Miner
Príloha 16 Vzťah medzi vstupným vekom poistníka, nezamestnanosťou v okrese a výškou
anualizovaného poistného pri produkte 3A
Prameň: Výstup z aplikácie SAS Enterprise Miner
81
Príloha 17 Nežiaduce typy zrušenia zmluvy podľa pohlavia pri produkte 3A
Prameň: Výstup z aplikácie SAS Enterprise Miner
Príloha 18 Tokový diagram predikčnej analýzy pri produkte 3A
Prameň: Výstup z aplikácie SAS Enterprise Miner
82
Príloha 19 Pomer aktívnych a zrušených zmlúv vo vybraných okresoch pri produkte 3B
Prameň: Výstup z aplikácie SAS Enterprise Miner
Príloha 20 Vzťah medzi nezamestnanosťou v kraji, vstupným vekom poistenca a poistným na
hlavné krytie bez zliav
Prameň: Výstup z aplikácie SAS Enterprise Miner
83
Príloha 21 Tokový diagram predikčnej analýzy pri produkte 3B
Prameň: Výstup z aplikácie SAS Enterprise Miner
84
Download

analýza poisťovacích produktov s využitím metód dataminingu