Statistická teorie rozhodování
●
●
„intuitivní“ volby odhadů v předešlých modelech
mají statistické zdůvodnění
složitě zapíšeme „jednoduché“ věci, tím:
●
si uvědomíme „skryté“ předpoklady
●
možné jiné volby
●
●
v dalším většinou zůstaneme na intuitivní úrovni,
kniha jde do větší hloubky zdůvodnění.
Pozn. i lineární programování, zjištění vlastních
čísel matice atd. budu brát jako volání funkcí z
jiných přenášek.
Statistická teorie rozhodování
●
příznaky X, cíl Y, sdružená pravděpodobnost,
hledáme f(X) predikující cíl, chyba modelu L.
●
minimalizujeme očekávanou chybu predikce:
●
podmíněním:
Statistická teorie rozhodování 2
●
čili stačí minimalizovat bodově
●
řešení je
●
Při rozhodování podle soudedů aproximujeme
●
tj. aproximujeme
●
očekávanou hodnotu E průměrem z dat X,
●
místo bodu bereme data z „blízkého“ okolí.
Jde zlepšit odhad k-NN?
●
Odhad k-NN konverguje pro slušné
k očekávané hodnotě.
●
ALE POMALU!
●
Jiné přístupy přidají předpoklad o funkci
●
lineární regrese předpokládá
při odhadu modelu nepodmiňujeme x-em.
●
Srovnání:
●
lin. reg. aproximuje f(x) globálně lineární funkcí
●
k-NN aproximuje f(x) lokálně konstantní funkcí.
Aproximace funkcí (úvod)
●
Aproximujeme
●
Nejčastěji přidáváme předpoklady o f(x), první:
●
●
tj. existují vnější vlivy mimo X, které vytvářejí
chybu predikce nezávislou na X.
ALE: pro klasifikaci můžeme modelovat
pro binární G, 0-1 kódování
kde rozptyl závisí na x!
LZE: aproximovat logaritmus podílu P() .. logistická regrese
Linear basis expansions
●
Hledáme parametry modelu
minimalizující
●
●
kde náš model je tvaru
kde hk je zvolená množina funkcí vstupu, např.
pro neuronové sítě
ale třeba i logaritmy či
●
.
Pokud volíme hk např. rozhodovací stromy,
mluvíme o kombinaci modelů.
Strukturální regresní modely
●
penalizace za složitost, bayesovské metody
např. kubický splajn
●
jádrové (kernal) metody a lokální regrese
●
slovníkové metody, báze funkcí
Lineární metody pro regresi
●
●
Ridge, Lasso – penalizace
PCR, PLS – změna souřadného systému +
selekce
Vybereme nejlepší podmnožinu
●
do p=30,40 lze upočítat,
●
jinak postupně přidávat, postupně ubírat, apod.
Jak velkou podmožinu vybrat?
●
např. krosvalidace
●
1 std. err. interval u chyby nejsložitějšího,
●
nejmenší model, co se do intevalu vejde.
Ridge
●
Lambda parametr, penalizujeme součet β
●
se záměrně neobjevilo v penaltě.
●
můžeme centrovat příznaky a fixovat
●
Pro centrované vstupy
●
pro ortonormální vstupy
2
.
Počet stupňů volnosti – složitost f
●
Potřebujeme vyjádřit, že model s menším
je jednodušší
●
efektivní počet stupňů volnosti
N /k
●
●
u jiných modelů např. počet parametrů, VapnikChervonenkis dimenze, ...
k-NN složité zhruba N/k.
Ridge coef. - Cancer example
Laso regression
●
tj. penalta je
●
nutí některé koeficienty být nulové
●
ekvivalentí formulace
Ridge x Laso
Kvadratická chyba se lépe derivuje
●
Chybová funkce bez druhé mocniny
by vedla k podmíněnému mediánu
●
který je robustnější, jenže se hůř spočte.
Best subset, Ridge, Lasso
●
Pro ortonormální vstupy se koeficienty změní:
singulární rozklad
Singular Value Decomposition SVD
(centered)
●
di jsou singulární čísla matice X (singular values)
●
je-li nějaké nulové, je X singulární.
PCA - Analýza hlavních komponent
vlastní čísla, vlastní vektory
PCR, PLS
●
●
PCR Principal component regression
●
volí směry odpovídající největším vlastním číslům
●
pro tyto směry spočte regresní koeficienty.
●
Při size=p ekvivalentní k lineární regresi.
Partial least squares – navíc bere v potaz Y
●
spočte regresní koeficienty
●
tím váží vstupy a spočte první vlastní číslo a vektor
●
odtud první směr PLS, další obdobně, kolmé na 1.
Srovnání koef. metod, korelov. X
Penalta .?. apriorní pravděp. modelů
●
Ridge
●
je-li apriorní pravděpodobnost parametrů
nezávislé,
●
pak je Ridge maximálně pravděpodobný odhad.
●
Bayesův vzorec
–
–
P ( β / X )=
P ( X / β )⋅P ( β )
P(X )
P(X) konstanta, P ( β ) apriorní pravděpodobnost,
P ( X / β ) věrohodnost, P ( β / X ) aposteriorní pravd.
Maximálně věrohodný odhad
●
Předpokládáme
logaritmus pravděpodobnosti pozorování je
●
hledáme parametry , pro které je L maximální.
●
Pro
to vede k minimalizaci RSS.
●
U kategorizace
to vede k maximalizaci vzájemné entropie
cross-entropy
Základní modely (minule)
●
●
Lineární regrese
●
je hladká, stabilní
●
výrazně závisí na předpokladu linearity hranice
●
má malý rozptyl, potenciálně velké vychýlení (bias).
k-NN
●
●
●
se přizpůsobí libovolné (spojité..) hranici
predikce záleží na pozici a hodnotách pár okolních
bodů, proto je nestabilní
velký rozptyl, malé vychýlení (bias).
Bias-variance decomposition
●
●
●
Bias – vychýlení, systematická chyba
Var – rozptyl, odlišnost modelu pro různá data
téhož zdrojového rozložení
nejlépe obojí nula, často (ne vždy) jde proti
sobě.
Příklad vychýlení odhadu
Jádrové metody - příklad
●
●
Jádrová funkce určuje váhu bodu dle
vzdálenosti od x0
Nadaraya-Watson vážený průměr
Jádrové metody a lokální regrese
●
Hledáme odhad
jakožto
, kde
minimalizuje
je parametrizovaná funkce, např. polynom
nízkého řádu:
Klasifikace (diskrétní cíl G)
●
Chyba daná maticí L rozměru KxK, K počet tříd G.
●
nuly na diagonále, všude nezáporná
●
L(k,l) cena za označení prvku Gk jakožto Gl.
●
Bayesovsky optimální klasifikátor, bayes rate.
Download

Statistická teorie rozhodování