Univerzita Karlova v Praze
Matematicko-fyzik´aln´ı fakulta
Katedra pravdˇepodobnosti a matematick´e statistiky
Zobecnˇ
en´
e line´
arn´ı modely v pojiˇ
st’ovnictv´ı
RNDr. Martin Branda, Ph.D.
Zpracov´ano v r´amci projektu
Fondu pro podporu vzdˇel´av´an´ı v pojiˇst’ovnictv´ı
Praha 2013
Obsah
´
1 Uvod
3
2 Data
2.1 Chybˇej´ıc´ı a chybn´e hodnoty v datech . . . . . . . . . . . . . . . . . . .
4
5
3 Line´
arn´ı regrese
3.1 Aitken˚
uv model a v´aˇzen´e nejmenˇs´ı ˇctverce . . . . . . . . . . . . . . . .
7
8
4 Zobecnˇ
en´
e line´
arn´ı modely
4.1 Rodina exponenci´aln´ıch rozdˇelen´ı . . . . . . . . .
4.1.1 Norm´
aln´ı rozdˇelen´ı . . . . . . . . . . . . .
4.1.2 Gamma rozdˇelen´ı . . . . . . . . . . . . . .
4.1.3 Inverzn´ı Gaussovo rozdˇelen´ı . . . . . . . .
4.1.4 Poissonovo rozdˇelen´ı . . . . . . . . . . . .
4.1.5 Alternativn´ı rozdˇelen´ı . . . . . . . . . . .
4.2 Linkov´e funkce . . . . . . . . . . . . . . . . . . .
4.3 Pˇrehled rozdˇelen´ı . . . . . . . . . . . . . . . . . .
4.4 Srovn´an´ı regresn´ıch model˚
u . . . . . . . . . . . .
4.5 V´
aˇzen´ı . . . . . . . . . . . . . . . . . . . . . . . .
4.5.1 Offset . . . . . . . . . . . . . . . . . . . .
4.5.2 V´
ahy pozorov´an´ı . . . . . . . . . . . . . .
4.6 Odhad parametr˚
u. . . . . . . . . . . . . . . . . .
4.6.1 Metoda maxim´
aln´ı vˇerohodnosti . . . . .
4.6.2 Metoda iterativn´ıch v´aˇzen´
ych ˇctverc˚
u . .
4.6.3 Newton˚
uv-Raphson˚
uv algoritmus . . . . .
4.7 Testov´an´ı hypot´ez . . . . . . . . . . . . . . . . .
4.7.1 Testy v´
yznamnosti parametr˚
u. . . . . . .
4.7.2 Konfidenˇcn´ı intervaly . . . . . . . . . . .
4.8 Kvalita modelu a testy podmodel˚
u . . . . . . . .
4.8.1 Testov´an´ı podmodel˚
u . . . . . . . . . . .
4.8.2 Akaikeho informaˇcn´ı krit´erium . . . . . .
4.9 Odhad disperzn´ıho parametru . . . . . . . . . . .
4.10 Korelovan´
a data, n´ahodn´e efekty a GEE modely
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
9
9
11
11
13
13
14
14
15
16
16
16
17
17
17
18
20
20
20
21
21
21
22
22
22
5 Pˇ
r´ıklady zobecnˇ
en´
ych line´
arn´ıch model˚
u
5.1 Data . . . . . . . . . . . . . . . . . . . . . . . . . . . .
5.2 Dostupn´
y software . . . . . . . . . . . . . . . . . . . .
5.2.1 Line´
arn´ı regrese . . . . . . . . . . . . . . . . . .
5.3 Regresn´ı model oˇcek´avan´eho poˇctu pojistn´
ych ud´
alost´ı
5.3.1 Poissonovsk´
a regrese (log-line´
arn´ı model) . . .
5.3.2 Overdispersed Poisson˚
uv model . . . . . . . . .
5.4 Regresn´ı model v´
yˇse ˇskod – Gamma regrese . . . . . .
5.5 Regresn´ı model stornovosti – logistick´a regrese . . . .
5.6 Postup konstrukce zobecnˇen´eho line´
arn´ıho modelu . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
23
23
23
23
24
24
26
28
29
32
6 Reference
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
34
´
Uvod
1
Zobecnˇen´e line´
arn´ı modely nach´azej´ı ˇsirok´e uplatnˇen´ı v pojiˇst’ovnictv´ı, napˇr´ıklad pˇri
sazbov´an´ı a rezervov´an´ı v neˇzivotn´ım pojiˇstˇen´ı nebo pˇri podpoˇre obchodu1 . Logistick´a regrese se vyuˇz´ıv´
a k modelov´an´ı pravdˇepodobnosti sledovan´eho jevu, napˇr.
pojistn´e ud´alosti, storna smlouvy, n´akupu (pˇri)pojiˇstˇen´ı. Pomoc´ı Poissonovsk´e regrese m˚
uˇzeme modelovat oˇcek´avan´
y poˇcet pojistn´
ych ud´alost´ı bˇehem urˇcit´eho obdob´ı,
resp. ˇskodn´ı frekvenci. Gamma regrese je pak vhodn´a pro odhad oˇcek´avan´e v´
yˇse vyplacen´
ych ˇskod z pojistn´e ud´alosti, doby do storna, doby do (n´asleduj´ıc´ı) pojistn´e
ud´alosti apod.
Zobecnˇen´e line´
arn´ı modely by mˇely patˇrit mezi z´akladn´ı znalosti absolventa magistersk´eho oboru Finanˇcn´ı a pojistn´
a matematika na Matematicko-fyzik´
aln´ı fakultˇe
Univerzity Karlovy v Praze. Text pˇredkl´ad´
a z´akladn´ı poznatky, kter´e jsou nutn´e pro
pochopen´ı zobecnˇen´
ych line´
arn´ıch model˚
u, pˇredevˇs´ım s ohledem na volbu vhodn´eho
modelu, metody a v´
ypoˇcetn´ı n´aroˇcnost odhadu parametr˚
u a interpretaci v´
ysledk˚
u,
vˇse s pˇrihl´ednut´ım na ˇcetn´e aplikace v pojiˇst’ovnictv´ı zm´ınˇen´e v´
yˇse. C´ılem textu tedy
nen´ı poskytnout hlubok´
y pohled do teorie, ta je ˇcasto pouze naznaˇcena s pˇr´ısluˇsn´
ym
odkazem do odborn´e literatury.
Pˇred vznikem pˇredmˇetu pro v´
yˇse zm´ınˇen´
y obor bude pˇredn´
aˇska o zobecnˇen´
ych
line´
arn´ıch modelech souˇc´ast´ı vzdˇel´
avac´ı ˇc´asti cyklu v r´amci Semin´
aˇre z aktu´arsk´
ych
vˇed2 , kter´
y se kon´
a jiˇz tradiˇcnˇe od 8:10 kaˇzd´
y p´atek v semestru na matfyzu3 .
Na z´avˇer poznamenejme, ˇze text bude d´ale rozˇsiˇrov´an a aktu´aln´ı verze bude dostupn´a na webu autora, kter´
y bude vdˇeˇcn´
y za jak´ekoliv n´amˇety a pˇripom´ınky.
1
Modely mohou slouˇzit k nav´
yˇsen´ı prodeje produkt˚
u (up-selling) nebo prodeji dalˇs´ıch produkt˚
u
st´
avaj´ıc´ım z´
akazn´ık˚
um pojiˇst’ovny (cross-selling).
2
Program je dostupn´
y na www.actuaria.cz
3
Na adrese Sokolovsk´
a 83, Praha 8, v uˇcebnˇe K1.
2
Data
Zobecnˇen´e line´
arn´ı modely b´
yvaj´ı budov´any na datech, kter´e jsou z´ısk´
any z rozs´ahl´
ych
datab´
az´ı pojiˇst’ovny. Vyuˇz´ıvaj´ı se napˇr´ıklad v data-miningu, kter´
y se zab´
yv´
a z´ısk´
av´an´ım
netrivi´aln´ıch skryt´
ych a potenci´alnˇe uˇziteˇcn´
ych informac´ı z dat. Proto se nejprve budeme vˇenovat pr´avˇe dat˚
um a zamˇeˇr´ıme se na u
´pravu hrub´
ych dat do podoby vhodn´e
pro pr´aci s regresn´ımi modely.
V tomto textu vyuˇz´ıv´
ame n´asleduj´ıc´ı znaˇcen´ı:
• Z´
avisle promˇ
enn´
a (odezva): YT = (Y1 , . . . , Yn ), napˇr. poˇcet pojistn´
ych ud´alost´ı
v dan´em obdob´ı, v´
yˇse vyplacen´e ˇskody, pˇr´ıznak storna.
• Nez´
avisle promˇ
enn´
e (prediktory, regresory): oznaˇc´ıme-li i-t´e pozorov´an´ı nez´avisle
promˇenn´
ych xTi = (Xi1 , . . . , Xim ), m˚
uˇzeme n pozorov´an´ı seˇradit do matice


X11 . . . , X1m

.. 
X =  ...
. 
Xn1 . . . , Xnm
Pˇ
redpokl´
ad´
ame, ˇze matice m´
a plnou sloupcovou hodnost. Promˇenn´e d´ale
klasifikujeme na
– kvantitativn´ı - napˇr. vˇek, poˇcet aktivn´ıch smluv, poˇcet najet´
ych kiloˇ
metr˚
u a dalˇs´ı. Casto
jsou kategorizov´any kv˚
uli nevhodn´emu rozdˇelen´ı, odlehl´
ym pozorov´an´ım nebo nelinearitˇe vztahu mezi nimi a z´avisle promˇennou.
– kvalitativn´ı (kategori´aln´ı) - k´odov´any pomoc´ı 0-1 “dummy” promˇenn´
ych,
napˇr. pohlav´ı, region (kraj, okres) a dalˇs´ı.
V datab´
azi m´
ame, pˇr´ıpadnˇe nad datab´
az´ı vytvoˇr´ıme, data ve struktuˇre uveden´e v
n´asleduj´ıc´ı tabulce, kde kaˇzd´
y ˇr´
adek pˇredstavuje jednu pojistnou smlouvu v urˇcit´em
obdob´ı, napˇr´ıklad jednom roce. Z´avisle promˇennou je pro n´as poˇcet ˇskod na smlouvˇe
za jeden rok. Jako vysvˇetluj´ıc´ı promˇenn´e slouˇz´ı napˇr´ıklad pohlav´ı pojistn´ıka, poˇcet
obyvatel ˇzij´ıc´ıch v m´ıstˇe bydliˇstˇe pojistn´ıka a jeho vˇek k datu poˇc´atku obdob´ı:
Y
Poˇ
cet ˇ
skod
2
0
1
0
..
.
Data
Pohlav´ı Poˇ
cet obyvatel
muˇz
muˇz
ˇzena
ˇzena
..
.
15 423
1 205 321
20 893
580
..
.
Vˇ
ek
(v letech)
21
44
35
51
..
.
..
.
Z kategori´aln´ıch promˇenn´
ych obvykle vytv´aˇr´ıme bin´
arn´ı (0-1, dummy) promˇenn´e,
kde kaˇzd´
a promˇenn´
a odpov´ıd´
a jedn´e kategorii p˚
uvodn´ı kategori´aln´ı promˇenn´e. Softwarov´e bal´ıky jsou obvykle schopny vytvoˇrit dummy promˇenn´e automaticky pˇri
oznaˇcen´ı p˚
uvodn´ıch promˇenn´
ych jako kategori´aln´ıch. Velikost m´ısta bydliˇstˇe je kategorizov´ana na z´akladˇe jednoduch´eho pravidla. V re´aln´
ych aplikac´ıch se ˇcasto vyuˇz´ıv´
a
optim´aln´ı kategorizace4 vytvoˇren´
a pomoc´ı vhodn´
ych metod.
Y
Poˇ
cet ˇ
skod
2
0
1
0
..
.
Pohlav´ı
ˇzena muˇz
0
0
1
1
..
.
1
1
0
0
..
.
Data
Region
velk´a mal´
a venkov
mˇesta mˇesta
0
1
0
1
0
0
0
1
0
0
0
1
..
..
..
.
.
.
Vˇ
ek
(v letech)
21
44
35
51
..
.
..
.
Je-li pˇrid´
an absolutn´ı ˇclen, je z kaˇzd´e kategori´aln´ı promˇenn´e odebr´
ana jedna
dummy promˇenn´
a, j´ıˇz odpov´ıdaj´ıc´ı kategorie slouˇz´ı potom jako referenˇcn´ı. V´
ysledek
je zobrazen v tabulce, kter´
a pˇredstavuje data vhodn´a pro odhad regresn´ıho modelu.
2.1
X
Y
Poˇ
cet ˇ
skod
Abs.ˇ
clen
Pohlav´ı
ˇzena
2
0
1
0
..
.
1
1
1
1
..
.
0
0
1
1
..
.
Region
velk´a mal´
a
mˇesta mˇesta
0
1
1
0
0
1
0
0
..
..
.
.
Vˇ
ek
(v letech)
21
44
35
51
..
.
..
.
Chybˇ
ej´ıc´ı a chybn´
e hodnoty v datech
Pˇri pr´aci s re´aln´
ymi daty je potˇreba vˇenovat pozornost chybˇej´ıc´ım a chybn´
ym hodnot´am. Pˇr´ıklad chybn´
ych hodnot je uveden v n´asleduj´ıc´ı tabulce:
Y
Poˇ
cet ˇ
skod
2
-1
1
0
..
.
Data
Pohlav´ı Poˇ
cet obyvatel
muˇz
muˇz
ˇzeˇz
ˇzena
..
.
15 423
1 205 321
20 893
-112
..
.
Vˇ
ek
(v letech)
21
44
138
51
..
.
..
.
Chybˇej´ıc´ı hodnoty jsou obvykle v n´ahledu dat reprezentov´any speci´aln´ım znakem5 , pˇr´ıpadnˇe pr´azdn´
ym m´ıstem6 :
4
Optimal binning.
Zde u numerick´
ych promˇenn´
ych teˇckou.
6
Obvykle u textov´
ych ˇretˇezc˚
u.
5
Y
Poˇ
cet ˇ
skod
2
·
1
0
..
.
Data
Pohlav´ı Poˇ
cet obyvatel
muˇz
muˇz
Vˇ
ek
(v letech)
21
44
·
51
..
.
15 423
1 205 321
20 893
·
..
.
ˇzena
..
.
..
.
Bez oˇsetˇren´ı by po kategorizaci vznikla n´asleduj´ıc´ı data:
Y
Poˇ
cet ˇ
skod
Abs.ˇ
clen
Pohlav´ı
ˇzena
2
·
1
0
..
.
1
1
1
1
..
.
0
0
·
1
..
.
X
Region
velk´a mal´
a
mˇesta mˇesta
0
1
1
0
0
1
·
·
..
..
.
.
Vˇ
ek
(v letech)
21
44
·
51
..
.
..
.
S chybˇej´ıc´ımi a chybn´
ymi hodnotami pracujeme dle jejich v´
yskytu:
• V z´
avisle promˇ
enn´
e - pozorov´an´ı obvykle vypadnou z odhadu modelu, je
vˇsak moˇzn´e dopoˇc´ıtat oˇcek´avanou odezvu.
• V nez´
avisle promˇ
enn´
ych
– Kvantitativn´ı - nahrazen´ı chybˇej´ıc´ıch hodnot, napˇr. pr˚
umˇerem nebo pomoc´ı sofistikovanˇejˇs´ıch metod7 .
– Kvalitativn´ı (kategori´aln´ı) - vytvoˇren´ı speci´aln´ı kategorie.
Pouˇzit´ım uveden´
ych metod jsme zavedly speci´aln´ı kategorii pro chybˇej´ıc´ı informaci o
poˇctu obyvatel a nahradili chybˇej´ıc´ı vˇek pr˚
umˇern´
ym vˇekem klient˚
u:
Y
Poˇ
cet ˇ
skod
2
·
1
0
..
.
7
X
Abs.ˇ
clen
1
1
1
1
..
.
Pohlav´ı
ˇzena
0
0
1
1
..
.
Klasifikaˇcn´ı nebo regresn´ı stromy apod.
velk´a
mˇesta
0
1
0
0
..
.
Region
mal´
a missing
mˇesta
1
0
0
0
1
0
0
1
..
..
.
.
Vˇ
ek
(v letech)
21
44
38.43
51
..
.
..
.
3
Line´
arn´ı regrese
V t´eto ˇc´asti velice struˇcnˇe shrneme z´akladn´ı poznatky o modelu line´
arn´ı regrese,
kter´
y zobecnˇen´e line´
arn´ı modely zahrnuj´ı jako speci´aln´ı pˇr´ıpad. Line´
arn´ı regrese vˇsak
obvykle neb´
yv´
a vhodn´a pro aplikace v pojiˇst’ovnictv´ı. V´ıce o modelu je moˇzn´e se
doˇc´ıst ve Zv´
ara (2008).
Model line´
arn´ı regrese m˚
uˇzeme zapsat ve tvaru
Yi =
m
X
Xij βj + εi , i = 1, . . . , n,
j=1
kde pˇredpokl´
ad´
ame
1. chyby (disturbance) εi jsou nez´
avisl´e,
2. E[εi ] = 0,
3. rezidu´
aln´ı rozptyl varεi = σ 2 > 0.
ˇ
Casto
se vyuˇz´ıv´
a maticov´
y z´apis pomoc´ı symbol˚
u zaveden´
ych v pˇredeˇsl´e ˇc´asti
Y = Xβ + ǫ,
kde β T = (β1 , . . . , βm ) a ǫT = (ε1 , . . . , εn ).
Odhad parametr˚
u β prob´ıh´
a nejˇcastˇeji metodou nejmenˇs´ıch ˇctverc˚
u (LS), kdyˇz
za pˇredpokladu pln´e sloupcov´e hodnosti X dost´
av´ame
βˆ = arg minm
β∈R
m
n
X
X
Xij βj )2
(Yi −
j=1
i=1
T
= arg minm (Y − X β)T (Y − XT β)
β∈R
T
= (X X)−1 (XT Y).
Odhad t´eˇz splˇ
nuje soustavu norm´aln´ıch rovnic
XT Xβ = XT Y
a je nestrann´
y, tj. Eβˆ = β, s rozptylem varβˆ = σ 2 (XT X)−1 . Vyrovnan´e hodnoty
spoˇcteme pomoc´ı vztahu
ˆ = Xβˆ = X(XT X)−1 XT Y
Y
a rezidua jako
ˆ = (I − X(XT X)−1 XT )Y,
u=Y−Y
kde I je jednotkov´a matice rozmˇer˚
u n × n. Nestrann´
y odhad rezidu´
aln´ıho rozptylu
σ 2 z´ısk´
ame pot´e pomoc´ı vztahu:
σ
ˆ2 =
E[uT u]
.
n−m
Za pˇredpokladu normality εi ∼ N (0, σ 2 ) nav´ıc plat´ı Y ∼ Nn (Xβ, σ 2 I)
a βˆ ∼ Nm (β, σ 2 (XT X)−1 ).
3.1
Aitken˚
uv model a v´
aˇ
zen´
e nejmenˇ
s´ı ˇ
ctverce
V t´eto ˇc´asti struˇcnˇe pop´ıˇseme model line´
arn´ı regrese s poruˇsen´
ym pˇredpokladem na
rozptyl, tzv. Aitken˚
uv model. Necht’ pro rozptyl chyb plat´ı
var ǫ = Wσ 2 ,
kde W je obecn´
a pozitivnˇe definitn´ı matice, tj. chyby nemus´ı b´
yt nez´avisl´e se stejn´
ym
−1
T
rozptylem. Pomoc´ı rozkladu W = C C, kde C je regul´
arn´ı odmocninov´a matice,
pˇrep´ıˇseme model do tvaru
CY = CXβ + Cǫ,
kter´
y jiˇz odpov´ıd´
a pˇredeˇsl´emu modelu line´
arn´ı regrese s nez´
avisl´
ymi chybami. Odhad
β je v tomto pˇr´ıpadˇe ˇreˇsen´ım soustavy norm´aln´ıch rovnic
XT W−1 Xβ = XT W−1 Y.
Tedy dostaneme odhad parametr˚
u
βˆ = (XT W−1 X)−1 XT W−1 Y,
kde βˆ ∼ (β, σ 2 (XT W−1 X)−1 ). S analogick´
ym vztahem se setk´
ame pˇri odhadu parametr˚
u v zobecnˇen´
ych line´
arn´ıch modelech. Dalˇs´ı odhady a statistiky z´ısk´
ame analogicky jako v modelu bez poruˇsen´eho pˇredpokladu na rozptyl chyb.
4
Zobecnˇ
en´
e line´
arn´ı modely
Zobecnˇen´e line´
arn´ı modely jsou definov´any pomoc´ı tˇr´ı stavebn´ıch element˚
u:
1) Z´avisle promˇenn´
a Yi m´
a rozdˇ
elen´ı z exponenci´
aln´ı rodiny s hustotou8
yθi − b(θi )
+ c(y, φ) , y ∈ R
(1)
f (y; θi , φ) = exp
a(φ)
pro zn´
am´e funkce a, b, c, nezn´am´
y kanonick´
y parametr θi z´avisej´ıc´ı na pozorov´an´ı a nezn´am´
y disperzn´ı parametr φ spoleˇcn´
y pro cel´
y model.
2) Line´
arn´ı prediktor vznik´
a jako line´
arn´ı kombinace
ηi =
m
X
Xij βj = xTi β,
(2)
j=1
kde βj jsou nezn´am´e parametry a Xij jsou zn´
am´e hodnoty regresor˚
u.
3) Striktnˇe monot´onn´ı a dvakr´at diferencovateln´
a linkov´
a funkce propojuj´ıc´ı stˇredn´ı
hodnotu z´avisle promˇenn´e a line´
arn´ı prediktor:
E[Yi ] = µi = g −1 (ηi ).
(3)
Pˇri budov´an´ı modelu a odvozov´an´ı teoretick´
ych v´
ysledk˚
u se vyuˇz´ıvaj´ı n´asleduj´ıc´ı
pˇredpoklady:
• Rozdˇelen´ı Yi z´avis´ı na xi .
• Pozorov´an´ı (Yi , xi ) jsou nez´
avisl´e n´ahodn´e vektory nebo Yi jsou nez´avisl´e n´ahodn´e
veliˇciny a xi jsou mˇeˇren´e konstanty. My budeme nad´
ale uvaˇzovat druh´
y pˇr´ıpad.
4.1
Rodina exponenci´
aln´ıch rozdˇ
elen´ı
Obecn´
y tvar hustoty rozdˇelen´ı z exponenci´aln´ı rodiny m˚
uˇzeme zapsat jako
T (z)A(ξ) + B(ξ)
+ C(z, φ)
f (z; ξ, φ) = exp
a(φ)
s disperzn´ım parametrem φ a parametrem polohy ξ. Kanonick´
y tvar hustoty dostaneme, poloˇz´ıme-li y = T (z), θ = A(ξ)
yθ − b(θ)
f (y; θ, φ) = exp
+ c(y, φ) ,
a(φ)
ˇ
kde θ ∈ R, a(φ) ∈ (0, ∞) a a : R+ → R+ . Casto
se vyuˇz´ıv´
a n´asleduj´ıc´ı pˇrepis pomoc´ı
a(φ) = ϕ ∈ (0, ∞)
yθ − b(θ)
f (y; θ, ϕ) = exp
+ c(y, ϕ) .
ϕ
8
Uv´
ad´ıme jednu z parametrizac´ı, dalˇs´ı pop´ıˇseme d´
ale v textu.
Pozn. Pˇri studiu r˚
uzn´
ych zdroj˚
u je nutn´e vˇenovat pozornost pouˇzit´e parametrizaci. V literatuˇre se bˇeˇznˇe objevuj´ı r˚
uzn´e parametrizace, napˇr´ıklad pro zn´
am´e funkce
a, b, c˜, a nezn´am´e parametry θ, φ:
yθ − b(θ)
· c˜(y, φ).
f (y; θ, φ) = exp
a(φ)
Tento tvar vyuˇz´ıvaj´ı v knize de Jong a Heller (2008), my jej nebudeme d´ale uvaˇzovat.
Pro n´ahodnou veliˇcinu Y patˇr´ıc´ı do rodiny exponenci´aln´ıch rozdˇelen´ı plat´ı: Je-li
b dvakr´at spojitˇe diferencovateln´
a, potom
E[Y ] = b′ (θ),
var(Y ) = a(φ)b′′ (θ) = ϕb′′ (θ).
Pro parci´
aln´ı derivaci hustoty podle parametru θ totiˇz plat´ı
∂f (y; θ, φ)
y − b′ (θ)
= f (y; θ, φ)
∂θ
a(φ)
integrac´ı obou stran podle y dostaneme (za pˇredpokladu, ˇze je moˇzn´e zamˇenit poˇrad´ı
derivace a integr´alu)
Z
∂f (y; θ, φ)
0 =
dy
∂θ
Z
∂
=
f (y; θ, φ)dy
∂θ
EY − b′ (θ)
.
=
a(φ)
Pro druhou parci´
aln´ı derivaci hustoty plat´ı
∂ 2 f (y; θ, φ)
= f (y; θ, φ)
∂θ2
y − b′ (θ)
a(φ)
2
−
b′′ (θ)
a(φ)
integrac´ı obou stran podle y dostaneme (za pˇredpokladu, ˇze je moˇzn´e zamˇenit poˇrad´ı
derivace a integr´alu)
Z 2
∂ f (y; θ, φ)
0 =
dy
∂θ2
Z
∂2
f (y; θ, φ)dy
=
∂θ2
E[(Y − b′ (θ))2 ] b′′ (θ)
=
−
.
(a(φ))2
a(φ)
Obecn´
y d˚
ukaz je moˇzn´e prov´est pomoc´ı momentov´e vytvoˇruj´ıc´ı funkce.
Pomoc´ı rozptylov´
e funkce definovan´e jako
V (µ) = b′′ [(b′ )−1 (µ)]
m˚
uˇzeme vztah pro rozptyl pˇrepsat jako
var(Y ) = a(φ)V (µ) = ϕV (µ).
Rozptylov´a funkce tedy vyjadˇruje vztah mezi stˇredn´ı hodnotou a rozptylem. Z´aroveˇ
n
jednoznaˇcnˇe identifikuje rozdˇelen´ı z exponenci´aln´ı rodiny.
Rodina exponenci´aln´ıch rozdˇelen´ı zahrnuje:
• Norm´
aln´ı, gamma, inverzn´ı Gaussovo, Poissonovo, alternativn´ı,
• Ch´ı-kvadr´
at, exponenci´aln´ı, binomick´e, geometrick´e, multinomick´e, beta,
• se zn´
am´
ym parametrem: Weibullovo, negativnˇe binomick´e, Paretovo.
V n´asleduj´ıc´ıch ˇc´astech podrobnˇe probereme jednotliv´e ˇcleny z prvn´ı uveden´e skupiny
rozdˇelen´ı.
4.1.1
Norm´
aln´ı rozdˇ
elen´ı
Znaˇc´ıme Y ∼ N (µ, σ 2 ): Pro y ∈ R m˚
uˇzeme hustotu vyj´adˇrit jako
(y − µ)2
1
exp −
f (y; µ, σ) = √
2σ 2
2πσ


b(θ)


}|
{
z





 yµ − µ2 /2 y 2
1
2
−
log(2πσ
)
−
= exp
,


2σ 2 2{z
σ2


}
|
|{z}




ϕ
c(y,ϕ)
kde θ = µ, b(θ) = µ2 /2 a ϕ = σ 2 . Potom dostaneme
• EY = b′ (θ) = µ,
• var(Y ) = ϕb′′ (θ) = σ 2 , tj. rozptyl nez´
avis´ı na stˇredn´ı hodnotˇe V (µ) = 1 (jako
jedin´e rozdˇelen´ı z exponenci´aln´ı rozdˇelen´ı).
4.1.2
Gamma rozdˇ
elen´ı
Znaˇc´ıme Y ∼ Γ(a, p): Pro 0 < y < ∞ m˚
uˇzeme hustotu vyj´adˇrit jako
ap p−1
y
exp {−ay}
Γ(p)
= exp {(p − 1) log y − ay + p log a − log Γ(p)}
y(−a/p) + log a/p
= exp
1/p
+p log p − log Γ(p) + (p − 1) log y
f (y; a, p) =
kde θ = −a/p, ϕ = 1/p, b(θ) = − log(−θ). Potom dostaneme
• EY = b′ (θ) = −1/θ = p/a = µ,
0.4
0.3
0.2
0.1
-15
-10
5
-5
10
15
Obr´azek 1: Hustoty N (0, 1), N (0, 2), N (0, 4)
0.15
0.10
0.05
5
10
15
20
25
30
Obr´azek 2: Hustoty Γ(2, 2), Γ(4, 2), Γ(6, 2)
• var(Y ) = ϕb′′ (θ) = p/a2 = µ2 /p, tj. rozptyl z´avis´ı na stˇredn´ı hodnotˇe V (µ) =
µ2 .
Parametrizace v SASu je odliˇsn´
a Y ∼ Γ(µ, ν): Pro 0 < y < ∞ m˚
uˇzeme hustotu
vyj´adˇrit jako
ν
1
yν
yν
f (y; µ, ν) =
exp −
,
Γ(ν)y µ
µ
kde a = ν/µ a p = ν, ϕ = ν −1 , var(Y ) = µ2 /ν
0.5
0.4
0.3
0.2
0.1
5
10
15
20
25
30
Obr´azek 3: Hustoty IG(5, 1), IG(5, 5), IG(5, 30)
4.1.3
Inverzn´ı Gaussovo rozdˇ
elen´ı
Znaˇc´ıme Y ∼ IG(µ, λ): Pro 0 < y < ∞ m˚
uˇzeme hustotu vyj´adˇrit jako
s
λ(y − µ)2
λ
exp −
f (y; µ, λ) =
2πy 3
2µ2 y
−λy 2 λµy
λµ2
1
1
3
= exp
+ 2 − 2 + log λ − log 2πy
2µ2 y
µ y
2µ y 2
2
2
y/(−2µ ) + 1/µ
λ
1
1
3
= exp
−
+ log λ − log 2πy ,
1/λ
2y 2
2
√
kde θ = −1/(2µ2 ), b(θ) = − −2θ a ϕ = 1/λ. Potom dostaneme
√
• EY = b′ (θ) = 1/ −2θ = (−2θ)−1/2 = µ,
• var(Y ) = ϕb′′ (θ) = (−2θ)−3/2 /λ = µ3 /λ, tj. rozptyl z´avis´ı na stˇredn´ı hodnotˇe
V (µ) = µ3 .
4.1.4
Poissonovo rozdˇ
elen´ı
Znaˇc´ıme Y ∼ P o(λ): Pro y = 0, 1, 2, . . . m˚
uˇzeme hustotu vyj´adˇrit jako
λy e−λ
y!
y log λ − λ
= exp
− log y! ,
1
f (y; λ) =
kde θ = log λ, b(θ) = eθ a ϕ = 1. Potom dostaneme
• EY = b′ (θ) = eθ = λ,
• var(Y ) = ϕb′′ (θ) = eθ = λ, tj. rozptyl z´avis´ı na stˇredn´ı hodnotˇe V (µ) = µ.
æ æ
0.20
æ
0.15
æ
à à
à
0.10
à
æ
à
à
ìììì
ì
à
0.05æ
à
ì
ì
ì
ì
ìà
à
æ
à
ì
ì
à
æ
à
à ììììì
à ì
à ì
ì
5
ì
ì
à
ì
ìì
à
ì
æ
ì
à à
æ ì
à æ
à æ
æ æ æ æ æ æ æ æ æ æ
ìì
à æ
à æ
à æ
à æ
à æ
à æ
à æ
æ
à æ
à
10
15
20
25
30
ì
Obr´azek 4: Hustoty Po(3), Po(10), Po(20)
4.1.5
Alternativn´ı rozdˇ
elen´ı
Znaˇc´ıme Y ∼ Alt(p): Pro y ∈ {0, 1} m˚
uˇzeme hustotu vyj´adˇrit jako
f (y; p) = py (1 − p)1−y
(
)
p
+ log(1 − p)
y log 1−p
= exp
+0 ,
1
p
kde θ = log 1−p
, b(θ) = log(1 + eθ ) a ϕ = 1. Potom dostaneme
• EY = b′ (θ) =
eθ
1+eθ
= p,
• var(Y ) = ϕb′′ (θ) = p(1 − p), tj. rozptyl z´avis´ı na stˇredn´ı hodnotˇe V (µ) =
µ(1 − µ).
4.2
Linkov´
e funkce
V t´eto ˇc´asti uv´ad´ıme nejˇcastˇeji pouˇz´ıvan´e linkov´e funkce:
• identita: g(µ) = µ
• logaritmus: g(µ) = log(µ)
• logit: g(µ) = log(µ/(1 − µ))
• probit: g(µ) = Φ−1 (µ), kde Φ je distribuˇcn´ı funkce standardn´ıho norm´aln´ıho
rozdˇelen´ı
• log-log: g(µ) = − log(− log(µ))
• komplement´arn´ı log-log: g(µ) = log(− log(1 − µ))
• mocninn´
y: g(µ) = µp pro p 6= 0 (pro p = 0 logaritmick´
y)
1.0
0.8
0.6
0.4
0.2
-4
-2
2
4
2
4
1.0
0.8
0.6
0.4
0.2
-4
-2
Obr´azek 5: Porovn´an´ı inverz´ı link˚
u: Logit (modr´a), Probit (ˇcerven´
a), kompl.
(oranˇzov´a), log-log (zelen´a)
D˚
uleˇzit´
ym pojmem pˇredevˇs´ım pro teorii je kanonick´
y link, kter´
y splˇ
nuje g(µ) =
θ, tedy mus´ı platit g(µ) = (b′ )−1 (µ) a tak´e
g ′ (µ) =
1
.
V (µ)
V ˇc´asti o odhadu parametr˚
u uvedeme zjednoduˇsen´ı vztah˚
u pˇri uˇzit´ı kanonick´eho
linku. Souˇcasn´e softwarov´e bal´ıky vˇsak um´ı pracovat s libovoln´
ym linkem bez omezen´ı
na kanonick´
y.
4.3
Pˇ
rehled rozdˇ
elen´ı
V n´asleduj´ıc´ı tabulce uv´ad´ıme pˇrehled rozdˇelen´ı z exponenci´aln´ı rodiny spolu s jejich
hlavn´ımi charakteristikami:
Rozdˇelen´ı
N (µ, σ 2 )
Hustota
√ 1 e−
2πσ
µy e−µ
y!
P o(µ)
Γ(µ, ν)
IG(µ, λ)
Alt(µ)
4.4
(y−µ)2
2σ 2
1
Γ(ν)y
q
yν
µ
ν
−
λ
e
2πy 3
e
− yν
µ
λ(y−µ)2
2µ2 y
µy (1 − µ)1−y
Disperze
ϕ
Kanonick´
y
link θ(µ)
Stˇredn´ı
hodnota µ(θ)
Rozptylov´a
funkce V (µ)
σ2
µ
θ
1
1
log(µ)
eθ
µ
1
ν
− µ1
− 1θ
µ2
1
λ
− 2µ1 2
√1
−2θ
µ3
1
µ
log 1−µ
eθ
1+eθ
µ(1 − µ)
Srovn´
an´ı regresn´ıch model˚
u
V t´eto ˇc´asti kr´atce srovn´ame model line´
arn´ı regrese se zobecnˇen´
ym line´
arn´ım modelem.
en´
y line´
arn´ı model
Line´
arn´ı regrese Zobecnˇ
Rozdˇelen´ı:
Yi ∼ N (µi , σ 2 )
Z´avislost:
E[Yi ] = xTi β
Rozptyl:
varYi = σ 2
Yi ∼ EF(θi , ϕ)
E[Yi ] = g −1 (xTi β)
varYi = ϕV (µi )
Za pˇredpokladu normality a identick´eho linku, tj. g(µ) = µ, dostaneme line´
arn´ı regresi jako speci´aln´ı pˇr´ıpad zobecnˇen´eho line´
arn´ıho modelu.
4.5
V´
aˇ
zen´ı
Zobecnˇen´e line´
arn´ı modely umoˇzn
ˇuj´ı dva zp˚
usoby v´
aˇzen´ı, kter´e jsou vhodn´e pro r˚
uzn´e
situace.
4.5.1
Offset
Offset je ˇclen v line´
arn´ım prediktoru s pevnˇe dan´
ym koeficientem. V pojiˇst’ovnictv´ı
obvykle slouˇz´ı jako korekce modelu s ohledem na expozici v riziku (poˇcet rizik, d´elka
platnosti smlouvy apod.). Napˇr´ıklad pro expozici ni i−t´eho ˇr´adku a logaritmick´
y link
poloˇz´ıme line´
arn´ı prediktor roven
ηi = ln ni + x′i β,
kde ln ni slouˇz´ı jako offset. Dostaneme tedy
′
µi = eηi = ni · exi β .
4.5.2
V´
ahy pozorov´
an´ı
Pˇri zahrnut´ı apriorn´ıch vah pozorov´an´ı w, kdy v parametrizaci pokl´
ad´
ame a(φ) =
ϕ/w, plat´ı
E[Y ] = b′ (θ),
ϕb′′ (θ)
a(φ)b′′ (θ)
=
.
var(Y ) =
w
w
Pomoc´ı rozptylov´e funkce m˚
uˇzeme vztah pro rozptyl pˇrepsat
ϕV (µ)
a(φ)V (µ)
=
.
w
w
Tyto v´ahy jsou vyuˇz´ıv´
any pˇri modelov´an´ı pr˚
umˇern´e v´
yˇse ˇskody (w = poˇcet ˇskod)
nebo ˇskodn´ı frekvence (w = d´elka expozice).
var(Y ) =
4.6
4.6.1
Odhad parametr˚
u
Metoda maxim´
aln´ı vˇ
erohodnosti
Nad´ale pˇredpokl´
ad´
ame, ˇze m´
a z´avisle promˇenn´
a Yi rozdˇelen´ı s hustotou f (y; θi , ϕ),
kter´a z´avis´ı na prediktorech a nezn´am´
ych koeficientech β skrze vztah θi = (b′ )−1 (g −1 (x′i β)).
Vˇerohodnostn´ı funkce je pak pro nez´
avisl´a pozorov´an´ı definov´ana jako
L(Y; β, ϕ) =
n
Y
f (Yi ; θi , ϕ)
i=1
Obvykle pracujeme s logaritmickou vˇerohodnostn´ı funkc´ı
l(Y; β, ϕ) =
n
X
log(f (Yi ; θi , ϕ)),
i=1
kterou je moˇzn´e d´ıky obecn´emu tvaru hustoty d´ale pˇrepsat
l(Y; β, ϕ) =
n
X
Yi θi − b(θi )
ϕ
i=1
+ c(Yi , ϕ).
Praktick´
y odhad parametr˚
u je zaloˇzen na derivac´ıch logaritmick´e vˇerohodnostn´ı
funkce. V neobecnˇejˇs´ı formˇe m˚
uˇzeme parci´
aln´ı derivaci prvn´ıho ˇr´adu dle parametru
βj vyj´
adˇrit jako
∂l
∂βj
kde jsme vyuˇzili
=
n
n
X
X
(Yi − µi )Xij
∂f ∂θi ∂µi ∂ηi
=
,
∂θi ∂µi ∂ηi ∂βj
g ′ (µi )ϕV (µi )
i=1
∂f
∂θi
∂θi
∂µi
∂µi
∂ηi
∂ηi
∂βj
i=1
=
=
=
Yi − b′ (θi )
Y i − µi
=
,
ϕ
ϕ
1
1
=
,
′′
b (θi )
V (µi )
1
,
′
g (µi )
= Xij .
Poznamenejme, ˇze obecnˇe plat´ı V (µi ) > 0 (nenulovost rozptylu) a g ′ (µi ) > 0, coˇz
vypl´
yv´
a z ryz´ı monotonie linkov´e funkce. Pro pˇrehlednost uved’me vztahy mezi parametry
η = x′ β
β
−→
µ = b′ (θ)
η = g(µ)
η
←→
µ
µ = g −1 (η)
←→
θ
θ = (b′ )−1 (µ)
Pro maximalizaci vˇerohodnostn´ı funkce jsou vyuˇz´ıv´
any n´asleduj´ıc´ı dvˇe iteraˇcn´ı
metody9 :
• Metoda iterativn´ıch v´
aˇ
zen´
ych nejmenˇ
s´ıch ˇ
ctverc˚
u
βˆ(k) = (XT W(k−1) X)−1 XT W(k−1) Z(k−1) ,
kde W je v´ahov´a matice a Z je linearizovan´
a odezva, kter´e budou definov´any
n´ıˇze.
• Iteraˇcn´ı Newton˚
uv-Raphson˚
uv algoritmus
βˆ(k) = βˆ(k−1) − (H(k−1) )−1 ∇(k−1) ,
kde ∇ znaˇc´ı gradient logaritmick´e vˇerohodnostn´ı funkce a H jej´ı Hessovu matici.
Detailnˇejˇs´ı popis algoritm˚
u je obsahem n´asleduj´ıc´ıch sekc´ı.
4.6.2
Metoda iterativn´ıch v´
aˇ
zen´
ych ˇ
ctverc˚
u
(0)
Zvolte poˇc´ateˇcn´ı odhady jako µ
ˆi = Yi a pomoc´ı n´ıˇze uveden´
ych vztah˚
u dopoˇcteme
(0)
(0)
W
a Z . Pro k ≥ 1 opakuj
n´asleduj´ıc´ı kroky, dokud nen´ı splnˇeno krit´erium
ˆ(k) ˆ(k−1) konvergence β − β
< ε:
1. Spoˇcti nov´
y odhad parametr˚
u
βˆ(k) = (XT W(k−1) X)−1 XT W(k−1) Z(k−1) .
2. Spoˇcti nov´
y odhad vektoru stˇredn´ıch hodnot
(k)
µ
ˆi
= g −1 (xTi βˆ(k) ).
3. Aktualizuj v´ahy W(k) a linearizovanou odezvu Z(k)
)
(
1
(k)
,
W = diag
(k)
(k)
[g ′ (ˆ
µi )]2 V (ˆ
µi )
Z(k) = g(ˆ
µ(k) ) + g ′ (ˆ
µ(k) )(Y − µ
ˆ(k) ).
9
Horn´ı index k znaˇc´ı iteraci.
Poznamenejme, ˇze nen´ı tˇreba zn´
at odhad disperzn´ıho parametru ϕ.
Pozn. V popsan´e metodˇe se vyuˇz´ıv´
a n´asleduj´ıc´ı tvar derivace vˇerohodnostn´ı
funkce
n
n
X
X
∂l ∂µi
(Yi − µi ) ∂µi
∂l
=
=
.
∂βj
∂µi ∂βj
ϕV (µi ) ∂βj
i=1
i=1
Definujeme-li v´ahy
w(µi ) =
[g ′ (µ
1
,
2
i )] V (µi )
pak m˚
uˇzeme parci´
aln´ı derivace zapsat jako
∂l
∂βj
n
=
1X
w(µi )g ′ (µi )(Yi − µi )Xij = 0.
ϕ
i=1
Pokus´ıme se vyj´
adˇrit vztah pro odhad koeficient˚
u β. Pro pˇrehlednost je moˇzn´e vyuˇz´ıt
maticov´
y z´apis. Necht’ W = diag{([g ′ (µi )]2 V (µi ))−1 }, G = diag{g ′ (µi )}, potom
dostaneme
XT WG(Y − µ) = 0.
K obˇema stran´
am pˇriˇcteme (XT WX)β = XT Wg(µ), tedy m´
ame
XT W[g(µ) + G(Y − µ)] = (XT WX)β,
ˆ
z´ısk´
ame vztah pro odhad parametr˚
u
a za pˇredpokladu regularity matice (XT WX)
splˇ
nuj´ıc´ı
βˆ = (XT WX)−1 XT WZ,
kde Z = g(µ)+g ′ (µ)(Y −µ) b´
yv´
a naz´
yv´
ano linearizovan´
a odezva. Vˇsimnˇete si podobnosti se vztahem pro odhad parametr˚
u v Aitkenovˇe modelu line´
arn´ı regrese. Pˇrestoˇze
vypad´
a i tento exaktnˇe, nen´ı moˇzn´e jej pˇr´ımo vyuˇz´ıt pro v´
ypoˇcet odhadu parametr˚
u,
nebot’ vektor Z a matice W z´avis´ı na aktu´aln´ım odhadu vektoru µ a ten z´avis´ı na
odhadu parametr˚
u β. Je tedy nutn´e aplikovat iteraˇcn´ı metodu uvedenou v´
yˇse.
Pozn. Pro kanonick´
y link doch´az´ı ke zjednoduˇsen´ı pˇredeˇsl´
ych vztah˚
u
w(µi ) =
[g ′ (µ
1
1
= V (µi ) = ′
,
2
g (µi )
i )] V (µi )
tedy
∂l
∂βj
n
=
1X
(Yi − µi )Xij = 0,
ϕ
i=1
coˇz m˚
uˇzeme pˇrepsat maticovˇe
XT (Y − µ) = 0.
4.6.3
Newton˚
uv-Raphson˚
uv algoritmus
Abychom mohli aplikovat Newton˚
uv-Raphson˚
uv algoritmus, je nutn´e spoˇc´ıst druh´
e
parci´
aln´ı derivace logaritmick´e vˇerohodnostn´ı funkce:
X
n
(Yi − µi )Xij ∂µi ∂ηi
∂
∂l
∂
,
=
∂βj ′ ∂βj
∂µi g ′ (µi )ϕV (µi ) ∂ηi ∂βj ′
i=1
kde
−1
g ′′ (µi )V (µi ) + g ′ (µi )V ′ (µi )
(Yi − µi )
∂
=
−
(Y
−
µ
)
,
i
i
∂µi g ′ (µi )ϕV (µi )
g ′ (µi )ϕV (µi )
(g ′ (µi ))2 ϕ(V (µi ))2
∂µi
1
=
,
∂ηi
g ′ (µi )
∂ηi
= Xij ′ .
∂βj ′
Definujeme-li diagon´
aln´ı matici
g ′′ (µi )V (µi ) + g ′ (µi )V ′ (µi )
−1
,
− (Yi − µi )
V = diag
(g ′ (µi ))2 ϕV (µi )
(g ′ (µi ))3 ϕ(V (µi ))2
m˚
uˇzeme Hessovu matici zapsat ve tvaru
H = XT VX.
Oznaˇc´ıme vektor prvn´ıch parci´
aln´ıch derivac´ı logaritmick´e vˇerohodnostn´ı funkce
∂l
∂l
T
.
,...,
∇ =
∂β1
∂βm
(0)
ˆ (0) . Pro k ≥ 1 opakuj
ˆ (0) a H
= Yi , ∇
n´asleduj´ıc´ı kroky, dokud nen´ı splnˇeno krit´erium konvergence βˆ(k) − βˆ(k−1) < ε:
Algoritmus: Poˇc´ateˇcn´ı odhady µ
ˆi
1. Spoˇcti nov´
y odhad parametr˚
u
βˆ(k) = βˆ(k−1) − (H(k−1) )−1 ∇(k−1)
2. Spoˇcti
(k)
µ
ˆi
= g −1 (xTi βˆ(k) ).
3. Aktualizuj ∇(k) a H(k) .
4.7
4.7.1
Testov´
an´ı hypot´
ez
Testy v´
yznamnosti parametr˚
u
Wald˚
uv test se vyuˇz´ıv´
a pro test hypot´ezy H0 : βj = c (nejˇcastˇeji c = 0), kde testov´a
statistika je tvaru
(βj − c)2
∼ χ21 .
ϕ var(βj )
Pro test obecnˇejˇs´ı hypot´ezy H0 : Cβ = c a c ∈ Rq , kde matice C m´
a q ˇr´adk˚
u, slouˇz´ı
(Cβ − c)T [ϕC(XT WX)−1 CT ]−1 (Cβ − c) ∼ χ2q .
4.7.2
Konfidenˇ
cn´ı intervaly
Konfidenˇcn´ı intervaly pro z´avisle promˇennou jsou zaloˇzeny na asymptotick´e normalitˇe
√ ˆ
d
→ N (0, ϕ(XT WX)−1 ).
odhadu parametr˚
u, kdy za urˇcit´
ych pˇredpoklad˚
u plat´ı n(β−β)
Potom interval spolehlivosti (yl , yu ) pro stˇredn´ı hodnotu z´avisle promˇenn´e dostaneme
pomoc´ı
q
T ˆ
−1 x,
ˆ
g(yl ) = x β − z ϕx
ˆ T (XT WX)
q
−1 x,
ˆ
g(yu ) = xT βˆ + z ϕx
ˆ T (XT WX)
kde z je pˇr´ısluˇsn´
y kvantil standardn´ıho norm´aln´ıho rozdˇelen´ı, x je vektor regresor˚
u
ˆ
a v´ahovou matici W jsme nahradili jej´ım odhadem W.
4.8
Kvalita modelu a testy podmodel˚
u
V´
yznamnou roli hraje saturovan´
y model, v nˇemˇz je poˇcet parametr˚
u roven poˇctu
pozorov´an´ı10 a plat´ı
µ
ˆi = Yi , θˆi∗ = (b′ )−1 (Yi ).
Vˇerohodnost saturovan´eho modelu je totiˇz rovna nejvˇetˇs´ı dosaˇziteln´e vˇerohodnosti
pro dan´
a data
∗
l (Y) =
n
X
Yi θˆ∗ − b(θˆ∗ )
i
i
ϕ
i=1
+ c(Yi , ϕ).
ˇ alovan´
Slouˇz´ı tedy jako (nedosaˇziteln´a) hranice nejvyˇsˇs´ı kvality“ pˇri dan´em rozdˇelen´ı. Sk´
a
”
deviance pot´e ud´av´a ztr´
atu na logaritmick´e vˇerohodnosti v˚
uˇci saturovan´emu modelu
ˆ = 2(l∗ (Y) − l(Y, β))
ˆ
D∗ (Y, β)
n
1X
=
Yi (θˆi∗ − θˆi ) − (b(θˆi∗ ) − b(θˆi )),
ϕ
i=1
ˆ Nˇekdy je vyuˇz´ıv´
kde θˆi = (b′ )−1 (g −1 (x′i β)).
ana (neˇsk´alovan´
a) deviance definovan´
a
jako
ˆ = ϕD∗ (Y, β).
ˆ
D(Y, β)
Poznamenejme, ˇze existuj´ı explicitn´ı vztahy pro devianci pro konkr´etn´ı rozdˇelen´ı.
4.8.1
Testov´
an´ı podmodel˚
u
Je-li βˆ odhad parametr˚
u v modelu a βˆ′ odhad parametr˚
u v podmodelu, potom
asymptoticky plat´ı
ˆ ∼ χ2 ,
D∗ (Y, βˆ′ ) − D∗ (Y, β)
d
10
Obecnˇe pro model neplat´ı vlastnosti ML odhad˚
u.
kde d je rozd´ıl poˇctu parametr˚
u v porovn´avan´
ych modelech. Tento test vlastnˇe odpov´ıd´
a testu pomˇerem vˇerohodnost´ı.
Dalˇs´ı test je zaloˇzen na F-statistice, kde asymptoticky
ˆ
D(Y, βˆ′ ) − D(Y, β)
∼ Fd,n−m
dϕˆ
a m je poˇcet parametr˚
u v modelu, ze kter´eho byl odhadnut disperzn´ı parametr ϕ.
ˆ
4.8.2
Akaikeho informaˇ
cn´ı krit´
erium
Akaikeho informaˇcn´ı krit´erium slouˇz´ı pro porovn´an´ı v´ıce model˚
u, kdyˇz zohledˇ
nuje
nejen hodnotu vˇerohodnostn´ı funkce ale i poˇcet parametr˚
u:
ˆ ϕ)
AIC = −2(l(Y; β,
ˆ − m).
Preferujeme model s minim´aln´ı hodnotou AIC.
4.9
Odhad disperzn´ıho parametru
Odhad disperzn´ıho parametru nen´ı obvykle souˇc´ast´ı metody maxim´
aln´ı vˇerohodnosti.
Vhodn´e vlastnosti m´
a Pearson˚
uv odhad ve tvaru
n
1 X (Yi − µ
ˆ i )2
ϕˆ =
.
n−m
V (ˆ
µi )
i=1
Vyuˇz´ıv´
a se taky odhad zaloˇ
zen´
y na devianci
ϕˆ =
4.10
ˆ
D(Y, β)
.
n−m
Korelovan´
a data, n´
ahodn´
e efekty a GEE modely
Jsou-li data korelovan´
a v r´
amci shluku i o velikosti ni , m˚
uˇze vyuˇz´ıt model s n´
ahodn´
ym
absolutn´ım ˇ
clenem ve tvaru
g(µik ) = αi + xTik β, k = 1, . . . , ni ,
kde αi ∼ N (0, σ 2 ). Pˇri dan´em αi jsou pozorov´an´ı ve shluku nez´avisl´a.
Dalˇs´ı moˇznost´ı jsou Generalized Estimating Equations, kde plat´ı
n
X
i=1
dTi U−1
i (Yi − µi ) = 0,
kde di = {∂µi /∂βj }j je sloupcov´
y vektor derivac´ı a Ui je zobecnˇen´
a varianˇcn´ı matice
shluku i zahrnuj´ıc´ı strukturu z´avislosti pozorov´an´ı.
5
Pˇ
r´ıklady zobecnˇ
en´
ych line´
arn´ıch model˚
u
5.1
Data
Zaˇcneme popisem dat, na nˇeˇz aplikujeme nˇekolik zobecnˇen´
ych line´
arn´ıch model˚
u.
Uvaˇzujeme 50 000 smluv povinn´
eho ruˇ
cen´ı (pojiˇstˇen´ı odpovˇednosti z provozu motorov´eho vozidla) simulovan´e dle m´ırnˇe upraven´
ych re´aln´
ych charakteristik:
• Z´avisle promˇenn´e: poˇ
cet a v´
yˇ
se ˇ
skod za posledn´ı rok, pˇr´ıznak storna
• Nez´
avisle promˇenn´e:
– tarifn´ı skupina dle objemu motoru vozidla (TS): 5 kategori´ı (do 1000,
do 1350, do 1850, do 2500, nad 2500 ccm),
– st´
aˇ
r´ı pojistn´ıka spojit´e (veks): 18-75 let,
– st´
aˇ
r´ı pojistn´ıka (vek): 3 kategorie (18-30, 30-65, 65 a v´ıce),
– velikosti m´ısta bydliˇ
stˇ
e (region): 4 kategorie (nad 500 000 obyvatel, nad
50 000, nad 5 000, do 5 000),
– pohlav´ı (pohlavi): 2 kategorie (1 - ˇzena, 2 - muˇz).
5.2
Dostupn´
y software
Procedury a funkce pro pr´aci se zobecnˇen´
ymi line´
arn´ımi modely je moˇzn´e nal´ezt
napˇr´ıklad v n´asleduj´ıc´ıch softwarech:
• SAS: procedura GENMOD
• Statistica: Generalized Linear Models (GLZ)
• IBM SPSS: GENLIN (ne GLM!!!)
• Mathematica: GeneralizedLinearModelFit
• R: glm
• a dalˇs´ı.
My budeme d´ale vyuˇz´ıvat SAS a proceduru GENMOD.
5.2.1
Line´
arn´ı regrese
Pro pˇrehlednost shrneme kaˇzd´
y zobecnˇen´
y line´
arn´ı regresn´ı model seznamem, kter´
y
ud´av´a z´akladn´ı stavebn´ı kameny kaˇzd´eho modelu. Na u
´vod uv´ad´ıme model line´
arn´ı
regrese, kter´
y vˇsak nebudeme na pojistn´
a data d´ale aplikovat.
• Z´avisle promˇenn´
a: spojit´
a
• Rozdˇelen´ı: norm´aln´ı Yi ∼ N (µi , σ 2 )
• Stˇredn´ı hodnota: EYi = µi
• Linkov´a funkce: identita g(µ) = µ
• Rozptylov´a funkce: V (µ) = 1
• Disperzn´ı parametr: ϕ = σ 2
Obr´azek 6: Syntax v SASu
5.3
5.3.1
Regresn´ı model oˇ
cek´
avan´
eho poˇ
ctu pojistn´
ych ud´
alost´ı
Poissonovsk´
a regrese (log-line´
arn´ı model)
V pˇr´ıkladu vyuˇzit´ı Poissonovsk´e regrese budeme modelovat oˇcek´avan´
y poˇcet pojistn´
ych ud´alost´ı na smlouvˇe bˇehem jednoho roku v z´avislosti na tarifn´ı skupinˇe,
st´aˇr´ı pojistn´ıka a pohlav´ı. Vyuˇzijeme n´asleduj´ıc´ı stavebn´ı prvky, resp. vlastnosti Poissonovsk´e regrese:
• Z´avisle promˇenn´
a: poˇcet pojistn´
ych ud´alost´ı na smlouvˇe za 1 rok
• Rozdˇelen´ı: Poissonovo Yi ∼ P o(λi )
• Stˇredn´ı hodnota: EYi = λi
• Linkov´a funkce: g(µ) = log(µ)
• Rozptylov´a funkce: V (µ) = µ
• Disperzn´ı parametr: ϕ = 1
Krit´eria pro hodnocen´ı dobr´e shody, resp. kvality modelu, najdeme v n´asleduj´ıc´ı
tabulce. Uvedeny jsou deviance, Pearsonovy statistiky a hodnota logaritmick´e vˇerohodnostn´ı
funkce. N´
azvy sloupc˚
u uv´ad´ıme vˇzdy tak, jak jsou obsaˇzeny ve v´
ystupu ze SASu.
Krit´erium
Deviance
Scaled Deviance
Pearsonuv Ch´ı-kvad
Scaled Pearson X2
Log verohodnost
DF
5E4
5E4
5E4
5E4
Hodnota
18582.5892
18582.5892
50208.1517
50208.1517
-12571.1203
Hodnota/DF
0.3717
0.3717
1.0043
1.0043
Dalˇs´ı v´
ystup ze softwaru uv´ad´ı odhady parametr˚
u (Odhad) spolu s chybou odhadu
(Stand. chyba), intervaly spolehlivosti (Waldovy meze interv. spol.), Waldovou testovou statistikou v´
yznamnosti parametr˚
u (Ch´ı-kv.) a odpov´ıdaj´ıc´ı p-hodnotou (Pr >
Ch´ıKv).
Par.
Int
TS
TS
TS
TS
TS
vek
vek
vek
pohlavi
pohlavi
ˇ ala
Sk´
1
2
3
4
5
1
2
3
1
2
DF
Odhad
Stand.
chyba
0
1
1
1
1
1
1
1
0
1
0
0
0.0000
-2.9646
-2.9421
-2.9016
-2.7451
-2.7284
0.5700
0.2183
0.0000
-0.2278
0.0000
1.0000
0.0000
0.0521
0.0517
0.0512
0.0490
0.0488
0.0426
0.0456
0.0000
0.0342
0.0000
0.0000
Waldovy
meze interv.
spol.
0.0000 0.0000
-3.0666 -2.8625
-3.0435 -2.8407
-3.0019 -2.8013
-2.8411 -2.6491
-2.8240 -2.6329
0.4865 0.6535
0.1289 0.3076
0.0000 0.0000
-0.2948 -0.1607
0.0000 0.0000
1.0000 1.0000
Ch´ı-kv.
Pr > Ch´ıKv
.
3243.56
3235.33
3216.13
3141.87
3131.40
178.95
22.94
.
44.32
.
.
<.0001
<.0001
<.0001
<.0001
<.0001
<.0001
<.0001
.
<.0001
.
Interpretace parametr˚
u a v´
ypoˇcet odhadu oˇcek´avan´eho poˇctu ˇskod prob´ıh´
a takto:
• Pro TS = 1 (do 1000 ccm), vek = 1 (18–30 let), pohlavi = 1 (ˇzena) dost´
av´ame
hodnotu line´
arn´ıho prediktoru a odhad stˇredn´ı hodnoty
η = −2, 9646 + 0, 5700 − 0, 2278 = −2, 6224
µ = exp{−2, 9646 + 0, 5700 − 0, 2278} = exp{−2, 6224}
= 0, 0516 · 1, 7683 · 0, 7963 = 0, 0726,
kde posledn´ı z´apis m˚
uˇze b´
yt interpretov´an jako multiplikativn´ı pˇr´ıspˇevek kategorie k v´
ysledn´emu odhadu oˇcek´avan´eho poˇctu pojistn´
ych ud´alost´ı.
• Pravdˇepodobnosti poˇctu ud´alost´ı na smlouvˇe m˚
uˇzeme snadno spoˇc´ıst po dosazen´ı odpov´ıdaj´ıc´ıho odhadu parametru λ do hustoty Poissonova rozdˇelen´ı,
napˇr´ıklad pro v´
yˇse spoˇcten´
y λ = 0, 0726 m´
ame
– P (Y = 0) = 0.9300,
– P (Y = 1) = 0.0675,
– P (Y = 2) = 0.0025,
– P (Y = 3) = 5.93 10−5 ,
– P (Y = 4) = 1.07 10−6 ,
– ...
Pro dalˇs´ı hodnoty prediktor˚
u dost´
av´ame
• TS = 1 (do 1000 ccm), vek = 1 (18–30 let), pohlavi = 2 (muˇz)
η = −2, 9646 + 0, 5700 + 0 = −2, 3946
µ = exp{−2, 9646 + 0, 5700 + 0} = exp{−2, 3946}
= 0, 0516 · 1, 7683 · 1 = 0, 0912.
• TS = 5 (nad 2500 ccm), vek = 1 (18–30 let), pohlavi = 2 (muˇz)
η = −2, 7284 + 0, 5700 + 0 = −2, 1584
µ = exp{−2, 7284 + 0, 5700 + 0} = exp{−2, 1584}
= 0, 0653 · 1, 7683 · 1 = 0, 1155.
V´
ysledky testov´an´ı v´
yznamnosti regresor˚
u jsou uvedeny v n´asleduj´ıc´ıch tabulk´ach.
Statistiky LR pro anal´
yzu typu 1 odpov´ıdaj´ı postupn´emu pˇrid´
av´an´ı regresor˚
u, tedy
z´aleˇz´ı na poˇrad´ı regresor˚
u v zad´an´ı.
Zdroj
TS
vek
pohlavi
Deviance
18822.16
18627.20
18582.59
DF
Ch´ı-kvadr´
at
Pr > Ch´ıKv
2
1
194.96
44.61
<.0001
<.0001
Statistiky LR pro anal´
yzu typu 3 testuj´ı v´
yznamnost regresoru pˇri ponech´an´ı
vˇsech ostatn´ıch regresor˚
u v modelu, tedy nez´
aleˇz´ı na poˇrad´ı, v jak´em jsou zad´any.
Zdroj
TS
vek
pohlavi
DF
4
2
1
Ch´ı-kvadr´
at
34.98
194.41
44.61
Pr > Ch´ıKv
<.0001
<.0001
<.0001
Vid´ıme, ˇze regresory jsou v´
yznamn´e na vˇsech obvykle vyuˇz´ıvan´
ych hladin´ach.
5.3.2
Overdispersed Poisson˚
uv model
Z´akladn´ı vlastnost´ı Poissonova rozdˇelen´ı je rovnost stˇredn´ı hodnoty a rozptylu. To
vˇsak b´
yv´
a v praxi ˇcasto poruˇseno a my pozorujeme rozptyl vˇetˇs´ı neˇz je stˇredn´ı hodnota, coˇz vede k jevu naz´
yvan´emu overdispersion. Existuj´ı dva pˇr´ıstupy, jak tento
jev zohlednit v zobecnˇen´
ych line´
arn´ıch modelech. Prvn´ı je vyuˇzit´ı negativnˇe binomick´eho modelu s dalˇs´ım nezn´am´
ym parametrem, druh´
y pot´e vyuˇzit´ı overdisperzed
Poissonova modelu, kde je hodnota disperzn´ıho parametru uvolnˇena a odhadnuta.
Overdisperzed Poisson˚
uv zobecnˇen´
y line´
arn´ı model je charakterizov´an takto:
• Z´avisle promˇenn´
a: poˇcet pojistn´
ych ud´alost´ı na smlouvˇe za 1 rok
• Rozdˇelen´ı: Overdispersed Poissonovo11 Yi ∼ O-P o(λi , ϕ)
• Stˇredn´ı hodnota: EYi = λi
• Linkov´a funkce: g(µ) = log(µ)
• Rozptylov´a funkce: V (µ) = µ
• Disperzn´ı parametr: ϕ ∈ (0, ∞)
11
Nejedn´
a se o skuteˇcn´e pravdˇepodobnostn´ı rozdˇelen´ı.
Parci´
aln´ı derivace dle parametr˚
u m´
a n´asleduj´ıc´ı tvar
n
X Y i − µi
∂ql
=
∂βj
ϕV (µi )
i=1
∂µi
∂βj
potom odpov´ıdaj´ı kvazi-(logaritmick´e-)vˇ
erohodnostn´ı funkci pro obecnou rozptylovou funkci V a disperzn´ı parametr ϕ
ql =
n Z
X
i=1
µi
Yi
Yi − t
dt.
ϕV (t)
Poznamenejme, ˇze umˇel´e“ nav´
yˇsen´ı rozptylu se vyuˇz´ıv´
a i pro binomick´e, resp. alter”
nativn´ı rozdˇelen´ı.
D´
ale uvedeme tabulky bez podrobnˇejˇs´ıho koment´aˇre, upozorn´ıme pouze na zmˇeny.
Krit´eria pro hodnocen´ı dobr´e shody:
Krit´erium
Deviance
Scaled Deviance
Pearsonuv Ch´ı-kvad
Scaled Pearson X2
Log verohodnos
DF
5E4
5E4
5E4
5E4
Hodnota
18582.5892
49992.0000
50208.1517
135072.9917
-33819.5845
Hodnota/DF
0.3717
1.0000
1.0043
2.7019
Anal´
yzu odhad˚
u parametr˚
u uv´ad´ı n´asleduj´ıc´ı tabulka, kde je v posledn´ım ˇr´adku
odhad disperzn´ıho parametru:
Par.
Int
TS
TS
TS
TS
TS
vek
vek
vek
pohlavi
pohlavi
ˇ ala
Sk´
1
2
3
4
5
1
2
3
1
2
DF
Odhad
Stand.
chyba
0
1
1
1
1
1
1
1
0
1
0
0
0.0000
-2.9646
-2.9421
-2.9016
-2.7451
-2.7284
0.5700
0.2183
0.0000
-0.2278
0.0000
1.6097
0.0000
0.0521
0.0517
0.0512
0.0490
0.0488
0.0426
0.0456
0.0000
0.0342
0.0000
0.0000
Waldovy
meze intrv.
spol.
0.0000 0.0000
-3.0666 -2.8625
-3.0435 -2.8407
-3.0019 -2.8013
-2.8411 -2.6491
-2.8240 -2.6329
0.4865 0.6535
0.1289 0.3076
0.0000 0.0000
-0.2948 -0.1607
0.0000 0.0000
0.6097 0.6097
Ch´ı-kv.
Pr > Ch´ıKv
.
3243.56
3235.33
3216.13
3141.87
3131.40
178.95
22.94
.
44.32
.
.
<.0001
<.0001
<.0001
<.0001
<.0001
<.0001
<.0001
.
<.0001
.
Statistiky LR pro anal´
yzu typu 1 pˇri postupn´e pˇrid´
av´an´ı regresor˚
u, kdy z´aleˇz´ı na
poˇrad´ı v zad´an´ı, v tomto pˇr´ıpadˇe vyuˇz´ıv´
ame F-testy:
Zdroj
Odchylka
TS
vek
pohlavi
18822.16
18627.20
18582.59
DF
cit
DF
jmen
F
hodnota
Pr > F
2
1
49992
49992
262.25
120.02
<.0001
<.0001
Statistiky LR pro anal´
yzu typu 3 v´
yznamnosti regresoru pˇri ponech´an´ı vˇsech
ostatn´ıch regresor˚
u v modelu:
Zdroj
TS
vek
pohlavi
5.4
DF
cit
4
2
1
DF
jmen
49992
49992
49992
F
hodnota
23.53
261.51
120.02
Pr > F
<.0001
<.0001
<.0001
Regresn´ı model v´
yˇ
se ˇ
skod – Gamma regrese
Pomoc´ı Gamma regrese budeme modelovat oˇcek´avanou v´
yˇsi ˇskody z pojistn´e ud´alosti
na smlouvˇe v z´avislosti pouze na tarifn´ı skupinˇe. K redukci poˇctu regresor˚
u doch´az´ı
kv˚
uli u
´bytku dat, kdy v´
yˇse modelujeme pouze na z´akladˇe nastal´
ych ˇskod, kter´
ych
je d´ıky n´ızk´e ˇskodn´ı frekvenci obvykle znatelnˇe menˇs´ı poˇcet. Gamma regrese m´
a
n´asleduj´ıc´ı vlastnosti:
• Z´avisle promˇenn´
a: spojit´
a kladn´
a v´
yˇse ˇskody
• Rozdˇelen´ı: Yi ∼ Γ(µ, ν)
• Stˇredn´ı hodnota: EYi = µ
• Linkov´a funkce: g(µ) = log(µ) (nen´ı kanonick´
y link)
• Rozptylov´a funkce: V (µ) = µ2
• Disperzn´ı parametr: ϕ = 1/ν
Krit´eria pro hodnocen´ı dobr´e shody (ML odhad parametru mˇeˇr´ıtka):
Krit´erium
Deviance
Scaled Deviance
Pearson Chi-Square
Scaled Pearson X2
DF
3458
3458
3458
3458
Hodnota
0.0007
3464.2364
0.0007
3466.7934
Hodnota/DF
0.0000
1.0018
0.0000
1.0025
Anal´
yzu odhad˚
u parametr˚
u a r˚
uzn´e odhady parametru mˇeˇr´ıtka najdeme v n´asleduj´ıc´ı
tabulce:
Par.
Waldovy
meze intrv.
spol.
Int
0
0.0000
0.0000 0.0000
0.0000
TS
1 1
10.3127
0.0033 10.3062
10.3192
TS
2 1
10.3592
0.0033 10.3528
10.3656
TS
3 1
10.4662
0.0032 10.4599
10.4725
4 1
10.5388
0.0030 10.5329
10.5447
TS
TS
5 1
10.7211
0.0030 10.7153
10.7269
Scale
0
146.0294 0.0000 146.0294 146.0294
Tabulky pro testov´an´ı v´
yznamnosti jednotliv´
ych regresor˚
u
naˇsem modelu uvaˇzujeme jen jeden regresor.
5.5
DF
Odhad
Stand.
chyba
Ch´ı-kv.
Pr > Ch´ıKv
.
9613383
9966668
1.061E7
1.244E7
1.306E7
.
<.0001
<.0001
<.0001
<.0001
<.0001
neuv´ad´ıme, nebot’ v
Regresn´ı model stornovosti – logistick´
a regrese
V t´eto ˇc´asti uvedeme model pravdˇepodobnosti storna smlouvy bˇehem jednoho roku v
z´avislosti na tarifn´ı skupinˇe, velikosti m´ısta bydliˇstˇe, pohlav´ı, st´aˇr´ı pojistn´ıka. Model
logistick´e regrese m´
a obecnˇe n´asleduj´ıc´ı vlastnosti:
• Z´avisle promˇenn´
a: bin´
arn´ı – jev nastal/nenastal, tj. storno bˇehem jednoho roku
– ano/ne
• Rozdˇelen´ı: binomick´e (alternativn´ı): Yi ∼ Alt(pi )
• Stˇredn´ı hodnota: EYi = pi
• Linkov´a funkce: logit g(µ) = log(µ/(1 − µ))
• Rozptylov´a funkce: V (µ) = µ(1 − µ)
• Disperzn´ı parametr: ϕ = 1
Stˇredn´ı hodnota alternativn´ı promˇenn´e je rovna pravdˇepodobnosti, tedy
′
EYi = pi =
ex i β
′ .
1 + ex i β
Krit´eria pro hodnocen´ı dobr´e shody
Krit´erium
Deviance
Scaled Deviance
Pearsonuv Ch´ı-kvad
Scaled Pearson X2
Log verohodnost
DF
5E4
5E4
5E4
5E4
Anal´
yza odhad˚
u parametr˚
u
Hodnota
56802.0249
56802.0249
49969.3190
49969.3190
-28401.0124
Hodnota/DF
1.1363
1.1363
0.9996
0.9996
Par.
Intercept
TS
TS
TS
TS
TS
region
region
region
region
pohlavi
pohlavi
veks
ˇ ala
Sk´
1
2
3
4
5
1
2
3
4
1
2
DF
Odhad
Stand.
chyba
1
1
1
1
1
0
1
1
1
0
1
0
1
0
-1.6157
-0.3326
-0.2814
-0.2248
-0.0711
0.0000
0.4820
0.2633
0.1272
0.0000
0.5584
0.0000
0.0058
1.0000
0.0429
0.0323
0.0322
0.0320
0.0314
0.0000
0.0290
0.0296
0.0300
0.0000
0.0206
0.0000
0.0006
0.0000
Waldovy
meze intrv.
spol.
-1.6998 -1.5316
-0.3959 -0.2692
-0.3445 -0.2183
-0.2874 -0.1622
-0.1326 -0.0095
0.0000 0.0000
0.4252 0.5389
0.2053 0.3214
0.0683 0.1860
0.0000 0.0000
0.5180 0.5989
0.0000 0.0000
0.0046 0.0071
1.0000 1.0000
Ch´ı-kv.
Pr > Ch´ıKv
1417.00
105.90
76.36
49.51
5.12
.
275.76
79.06
17.96
.
731.75
.
82.36
<.0001
<.0001
<.0001
<.0001
0.0237
.
<.0001
<.0001
<.0001
.
<.0001
.
<.0001
Interpretace parametr˚
u je moˇzn´e prov´est pomoc´ı ˇ
sance
pi
= exp{x′i β} = exp
1 − pi
X
m
j=1
Xij βj .
Pokud zv´
yˇs´ıme regresor ˜j o jednotku Xi˜j + 1 a ostatn´ı nemˇen´ıme, potom pro ˇsanci
plat´ı




m
m




X
X
p˜i
= exp
Xij βj + (Xi˜j + 1)β˜j = exp
Xij βj exp{β˜j },




1 − p˜i
j=1
j=1,j6=˜
j
tj. eβ˜j vyjadˇruje zmˇenu ˇsance pˇri zv´
yˇsen´ı pˇr´ısluˇsn´eho regresoru o jednotku.
Predikovanou hodnotu, tedy pravdˇepodobnost storna bˇehem jednoho roku, pro
TS = 5 (nad 2500 ccm), region = 4 (do 5000), pohlavi = 2 (muˇz), veks = 22 let
spoˇcteme jako
η = −1, 6157 + 0 + 0 + 0 + 22 · 0.0058 = −1, 4881
exp{−1, 4881}
µ =
= 0, 1842.
1 + exp{−1, 4881}
Statistiky LR pro anal´
yzu typu 1 pˇri postupn´e pˇrid´
av´an´ı regresor˚
u, kdy z´aleˇz´ı na
poˇrad´ı v zad´an´ı:
Zdroj
Intercept
TS
region
pohlavi
veks
Deviance
58087.7242
57937.9201
57626.8576
56884.5504
56802.0249
DF
Ch´ı-kvadr´
at
Pr > Ch´ıKv
4
3
1
1
149.80
311.06
742.31
82.53
<.0001
<.0001
<.0001
<.0001
Statistiky LR pro anal´
yzu v´
yznamnosti regresoru pˇri ponech´an´ı vˇsech ostatn´ıch
regresor˚
u v modelu:
Zdroj
TS
region
pohlavi
veks
DF
4
3
1
1
Ch´ı-kvadr´
at
154.02
309.14
743.64
82.53
Pr > Ch´ıKv
<.0001
<.0001
<.0001
<.0001
Zvl´aˇstn´ı pozornost vˇenujeme ROC kˇrivce slouˇz´ıc´ı k posouzen´ı kvality modelu
a nastaven´ı prahov´e hodnoty. Pro predikovan´e pravdˇepodobnosti, kter´e jsou vyˇsˇs´ı
neˇz prahov´a hodnota, oˇcek´av´ame, ˇze sledovan´
y jev sp´ıˇse nastane, u hodnot niˇzˇs´ıch
naopak. ROC kˇrivka pot´e zakresluje:
• Na svisl´
e ose grafu relativn´ı ˇcetnost skuteˇcnˇe pozitivn´ıch pˇr´ıpad˚
u TP, tedy
pravdˇepodobnost, ˇze jako spr´
avn´
y bude vyhodnocen pozitivn´ı pˇr´ıpad:
Sensitivity = TP/(TP+FN).
• Na vodorovn´
e ose relativn´ı ˇcetnost faleˇsnˇe pozitivn´ıch pˇr´ıpad˚
u FP, tedy
pravdˇepodobnost, ˇze jako spr´
avn´
y bude vyhodnocen negativn´ı pˇr´ıpad:
1-Specificity = FP/(TN+FP).
Vych´az´ıme pˇritom z n´asleduj´ıc´ı tabulky, kde znaˇc´ıme True (T), False (F), Positive
(P), Negative (N):
skuteˇcnost/predikce
1
0
1
TP
FN
0
FP
TN
ˇ ım je vˇetˇs´ı plocha pod ROC kˇrivkou, resp. ˇc´ım v´ıce je kˇrivka vypoukl´
C´
a nahoru, t´ım lepˇs´ı m´
a model predikˇcn´ı schopnost. Kˇrivka pro n´aˇs model je zakreslena
na n´asleduj´ıc´ım obr´
azku.
5.6
Postup konstrukce zobecnˇ
en´
eho line´
arn´ıho modelu
Obecnˇe m˚
uˇze b´
yt zobecnˇen´
y line´
arn´ı model konstruov´an v n´asleduj´ıc´ıch kroc´ıch:
1. Vyberte rozdˇelen´ı
2. Vyberte link
3. Vyberte nez´
avisle promˇenn´e
4. Odhadnˇete parametry
5. Posud’te kvalitu modelu
6. Iterujte od vhodn´eho kroku
ˇ
Casto
si nemus´ı b´
yt jisti, kter´e regresory do modelu zahrnout a kter´e naopak
vylouˇcit. Pro v´
ybˇer nejvhodnˇejˇs´ıch regresor˚
u jsou pouˇz´ıv´
any n´asleduj´ıc´ı sekvenˇcn´ı
postupy:
• Vzestupn´
y v´
ybˇ
er (forward selection) - zaˇcneme od pr´azdn´eho modelu, postupnˇe pˇrid´
av´ame statisticky v´
yznamn´e regresory.
• Sestupn´
y v´
ybˇ
er (backward selection) - zaˇcneme od modelu se vˇsemi regresory,
postupnˇe odeb´ır´
ame statisticky nev´
yznamn´e.
• Krokov´
y v´
ybˇ
er (stepwise selection) - zaˇcneme od pr´azdn´eho modelu, v kaˇzd´em
kroku pˇrid´
ame jeden statisticky v´
yznamn´
y regresor a pot´e se pokus´ıme odeb´ırat
statisticky nev´
yznamn´e (i v´ıce). Hladina pro pˇrid´
av´an´ı mus´ı b´
yt menˇs´ı neˇz hladina pro odeb´ır´
an´ı, jinak m˚
uˇze doj´ıt k zacyklen´ı.
Pˇri praktick´em pouˇzit´ı zobecnˇen´
ych line´
arn´ıch model˚
u m´
ame ˇcasto k dispozici
rozs´ahl´
y soubor dat. Ten je moˇzn´e n´ahodnˇe rozdˇelit na tr´enovac´ı“ a testovac´ı“
”
”
podsoubor. Na prvn´ım je model odhadnut, na druh´em potom ovˇeˇrena jeho kvalita,
resp. predikˇ
uˇze slouˇzit napˇr´ıklad stˇredn´ı ˇctvercov´a
Pcn´ı schopnost. Jako krit´erium m˚
chyba 1/n ni=1 (Yˆi − Yi )2 , kde Yˆi znaˇc´ı predikci pomoc´ı odhadnut´eho modelu.
6
Reference
• M. Denuit, X. Mar´echal, S. Pitrebois, J.-F. Walhin: Actuarial Modelling of
Claim Counts: Risk Classification, Credibility and Bonus-Malus Systems. John
Wiley & Sons, Chichester, 2007.
• C.-C. G¨
unthera, I.F. Tvete, K. Aas, G.I. Sandnes and O. Borgan: Modelling and
predicting customer churn from an insurance company. Scandinavian Actuarial
Journal. DOI:10.1080/03461238.2011.636502
• P. de Jong, G. Z. Heller: Generalized Linear Models for Insurance Data. Cambridge
University Press, 2008.
• P. McCullagh, J.A. Nelder: Generalized Linear Models. 2nd Ed. Chapman and
Hall, London, 1989.
• E. Ohlsson, B. Johansson: Non-Life Insurance Pricing with Generalized Linear
Models. EAA Series, Springer-Verlag Berlin Heidelberg, 2010.
• K. Zv´
ara: Regrese. Matfyzpress, Praha, 2008.
• Z´
apisky z pˇredn´
aˇsky Zobecnˇen´e line´
arn´ı modely (NSTP196), 2010, MFF UK,
pˇredn´
aˇsej´ıc´ı Doc. Mgr. Michal Kulich, Ph.D.
• SAS/STAT 9.3: User’s Guide.
Download

Lineární modely_Zpráva.pdf