NEPARAMETRICKÉ METODY
Jsou to metody, kdy předmětem testu hypotézy není tvrzení o hodnotě parametru
nějakého konkrétního rozdělení, ale nulová hypotéza je formulována obecněji, např.
jako shoda rozdělení nebo nezávislost veličin.
Připomeňme, že parametrickými metodami testujeme hypotézy o parametrech
normálního rozdělení (t-testy, analýza rozptylu, lineární regresní model). Všechny tyto
testy vycházejí z předpokladu, že máme jeden nebo více výběrů z normálního rozdělení.
Tak silný předpoklad při praktických aplikacích nebývá často splněn (například proto, že
nemůžeme zajistit dostatečně náhodný výběr). Pokud neplatí ani přibližně nebo to
nevíme, pak musíme volit statistickou metodu, kterou dostaneme spolehlivé výsledky
bez nutnosti splnění předpokladů normality.
Jedním z alternativních postupů je použití tzv. neparametrických metod, které vycházejí
z pořadí pozorovaných hodnot v jejich vzestupném uspořádání a pokud se nulová
hypotéza týká mediánu rozdělení, právě neparametrické metody jsou velmi vhodné
a dokonce mají proti parametrickým i řadu výhod.
Obecně však platí, že tyto výhody jsou vyváženy nevýhodou – ve srovnání s testy
parametrickými jsou neparametrické testy slabší, tzn. že pravděpodobnost zamítnutí
nulové hypotézy v situaci, kdy neplatí, je menší. Proto by neparametrické testy měly být
užívány jen tehdy, když předpoklady pro parametrické testy splněny nejsou.
Shrnutí: Můžeme je použít i v případě, že neznáme rozložení náhodné veličiny – jsou
univerzálnější, ale mají menší statistickou účinnost, tj. schopnost rozpoznat i malé
odchylky od nulové hypotézy. Výpočetně jsou jednodušší a rychlejší. Obvykle vyžadují
větší počet pozorování než parametrické.
JEDNOVÝBĚROVÝ ZNAMÉNKOVÝ (MEDIÁNOVÝ) TEST
Nejjednodušším testem pro jeden výběr je znaménkový test:
1. uvažujme výběr ze spojitého rozdělení (nemusí být symetrické)
2. chceme testovat nulovou hypotézu, že medián tohoto rozdělení je roven dané hodnotě x0 proti
jednostranné alternativě, např. že medián tohoto rozdělení je větší než daná hodnota x0.
Znaménkový test je založen na principu sledování procenta naměřených hodnot menších, než
hodnota, se kterou soubor porovnáváme. Test zjistí, zda se toto procento statisticky významně liší
od 50% - proto mediánový test.
POSTUP:
1. Utvoříme nejprve rozdíly hodnot veličiny X a dané hodnoty x0: X1 − x0, X2 − x0, . . . , Xn − x0.
2. Náhodná veličina Z pak bude označovat počet těch rozdílů, které mají kladné znaménko, tj.
testovou statistikou Z je počet hodnot xi ve výběru větších než x0.
Tabulka kritických hodnot k1 a k2 pro znaménkový test
N
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
α = 0,05
k1
k2
0
6
0
7
0
8
1
8
1
9
1
9
2
10
2
11
2
12
3
12
3
13
4
13
4
14
4
15
5
15
α = 0,01
k1
k2
0
8
0
9
0
10
0
11
1
11
1
12
1
13
2
13
2
14
2
15
3
15
3
16
3
17
N
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
α = 0,05
k1
k2
5
16
5
17
6
17
6
18
7
18
7
19
7
20
8
20
8
21
9
21
9
22
9
23
10
23
10
24
11
24
α = 0,01
k1
k2
4
17
4
18
4
19
5
19
5
20
6
20
6
21
6
22
7
22
7
23
7
24
8
24
8
25
9
25
9
26
V případě malého rozsahu výběru (tj. pro
malá n) jsou tabelována čísla k1, k2 tak,
že
a
a
P ( Z £ k1 ) £ , P ( Z ³ k 2 ) £ .
2
2
Kritické hodnoty k1, k2 je možné nalézt
v tabulce. Hypotézu H0 tedy zamítáme,
jestliže zjistíme, že Y ≤ k1 nebo Y ≥ k2.
Příklad na Znaménkový test naleznete
v souboru
„6a_priklad_neparametricke_testy.xlsx“
Za předpokladu platnosti hypotézy H0 má náhodná velicina Z binomické rozdělení, Z ~ Bi(n, p) , kde
hodnota parametru p = 0,5 (z definice mediánu), n je rozsah výběru. Při oboustranném testu tvoří
kritický obor jednak příliš malé hodnoty Z (tj. hodnoty ležící blízko nule), jednak příliš velké hodnoty
Z (tj. hodnoty blízké n).
æ n öæ 1 ö æ 1 ö
P( Z ³ z ) = å çç ÷÷ç ÷ ç ÷
k = z è k øè 2 ø è 2 ø
n
Pravděpodobnost P(Z ≥ z) ≤ α lze spočítat jako
k
n-k
1 n ænö
= n × å çç ÷÷
2 k =z è k ø
Z vlastností binomického rozdělení můžeme určit za platnosti nulové hypotézy
n
n
střední hodnotu E ( Z ) = n × p =
a rozptyl testové statistiky var( Z ) = n × p × (1 - p ) =
2
4
Pro větší rozsahy výběru je možno použít aproximaci rozložení testovací statistiky pomocí
n
normálního rozložení a pak normovaná náhodná veličina
má přibližně
ZU=
normované normální rozdělení N (0, 1)
2 = 2Z - n
n
n
4
tj. rozložení testovací statistiky přibližně pro n větší než 20 můžeme aproximovat pomocí
normálního rozložení.
Znaménkový test bývá velmi často užíván jako test párový, kdy máme dva závislé výběry ze spojitých
dat, tzn. dvě pozorování pro každý objekt a testujeme hypotézu, že mediány obou veličin jsou
shodné, většinou proti hypotéze, že medián druhého výběru (měření) je větší (menší) než prvního
výběru (měření).
Jedná se např. o posouzení, zda došlo ke změně v čase apod. (snížení váhy nebo jiných
ukazatelů po úpravě stravy, cvičení apod., zlepšení výkonu)
JEDNOVÝBĚROVÝ WILCOXONŮV TEST
Wicoxonův test je silnější než znaménkové (snáz odhalí statisticky významné rozdíly). Použijeme ho
především v případech, kdy rozsah výběru je malý a veličina nemá normální rozdělení.
Tento test pracuje s pořadím naměřených hodnot. Seřadíme bez ohledu na znaménko odchylky od
"normy" a budeme se ptát, zda se statisticky významně liší průměrné pořadí odchylek v kladném a
záporném smyslu.
Postup:
1. vypočteme absolutní odchylky d i = xi - m
2. seřadíme tyto odchylky podle velikosti a označíme ri pořadí hodnot di
+
R
=
3. R označíme součet všech hodnot, pro která je
+
R
=
hodnot, pro která je
åm r
xi <
åm r
xi ³
i
a R- součet všech
i
4. menší z obou hodnot porovnáme s kritickou hodnotou Wilcoxonova testu
5. Pro větší n není toto rozdělení tabelováno, proto vypočteme testovací statistiku
W =
R+ -
1
× n (n + 1)
4
1
× n (n + 1)( 2n + 1)
24
a použijeme aproximaci rozložení testovací statistiky normálním rozložením.
Příklad na Wicoxonův test naleznete v souboru „priklady_neparametricke_testy.xlsx“
DVOUVÝBĚROVÝ ZNAMÉNKOVÝ TEST neboli MEDIÁNOVÝ TEST
Nejprve vypočteme medián pozorování z obou skupin spojených dohromady.
Testovací statistika S je pak počet pozorování z prvního výběru, která jsou větší, než společný
medián. Pro test využijeme to, že statistika S má hypergeometrické rozložení.
DVOUVÝBĚROVÝ WILCOXONŮV TEST
Opět spojíme oba soubory a ke každému pozorování vypočteme pořadí v tomto společném
souboru.
Sečteme všechny pořadová čísla pozorování, která byla v prvním souboru a označíme je R+.
Pro menší rozsahy výběrů porovnáme R+ s kritickými hodnotami dvouvýběrového Wicoxonova testu
Pro větší rozsahy použijeme aproximaci pomocí normálního rozložení tak, že vypočteme testovací
statistiku
W=
1
R + - × nx × ny
2
, která má normální rozdělení a pak stačí zjistit, zda W < u a
nx × n y
2
× (n x + n y + 1)
12
Většina programů, které v nabízí tento test, vypočte i dosaženou hladinu významnosti
(p-hodnotu).
Download

NEPARAMETRICKÉ METODY