Kurz 4st201 – cvičení č. 8
4ST201 – STATISTIKA
CVIČENÍ Č. 8
• analýza závislostí
→
kontingenční tabulky – test závislosti v kontingenční tabulce
→
analýza rozptylu
• regresní analýza
→
lineární regrese
Analýza závislostí
Budeme ověřovat existenci závislosti
•
dvou kategoriálních proměnných – kontingenční tabulky
o
např. závislost oblíbeného deníku a oblíbené televizní stanice, závislost průběhu choroby
na tom, zda byl pacient očkován
•
číselné proměnné na kategoriální proměnné – analýza rozptylu
o
např. závislost příjmu na dosaženém vzdělání, závislost spotřeby auta na typu použitého
benzinu
•
číselné proměnné na jedné nebo více jiných číselných proměnných – regresní analýza
o
•
např. závislost zisku firmy na počtu zaměstnanců, výši investic, objemu produkce,…
dvou číselných proměnných – korelační analýzy
o
např. závislost výše pojistného na výši příjmu, závislost měsíčních výdajů domácnosti na
počtu členů domácnosti
Závislost 2 kategoriálních proměnných - kontingenční tabulky
X/Y
Y1
Y2
…
Yj
…
Ys
ni.
X1
n11
n12
…
n1j
…
n1s
n1.
X2
n21
n22
…
n2j
…
n2s
n2.
n.2
…
n3.
okrajové četnosti – vyjadřují
…
n.1
…
n.j
n3s
…
nr2
…
…
nr1
…
…
…
Xr
…
n3j
…
…
…
…
n32
…
…
n31
…
…
Xi
…
…
Hodnoty proměnné X
Hodnoty proměnné Y
nrj
…
nrs
nr.
n.j
…
n.s
n
četnosti jednotlivých hodnot
proměnných X a Y
sdružené četnosti – vyjadřují četnosti kombinací jednotlivých hodnot proměnných X a Y
1
Kurz 4st201 – cvičení č. 8
Co testujeme?
•
test k ověření nezávislosti v kontingenční tabulce je speciální případ chí-kvadrát testu dobré shody
a porovnává výběrové (pozorované) četnosti s teoretickými četnostmi, které bychom očekávali
v případě nezávislosti sledovaných proměnných
•
kontingenční (kombinační) tabulka vzniká tříděním jednotek souboru podle variant dvou
kategoriálních znaků
Test
•
nulová hypotéza říká, že sledované proměnné jsou nezávislé, alternativní hypotéza nulovou
popírá a říká, že sledované proměnné jsou závislé
: = . . : •
1≤≤
1≤≤
testovým kritériem je veličina G, která má v případě nezávislosti a při dostatečně velkém počtu
pozorování přibližně chí-kvadrát rozdělení s ν = (r-1)(s-1) stupni volnosti, kde r je počet variant
prvního znaku (počet řádků) a s je počet variant druhého znaku (počet sloupců)
=
∑ ∑
,
kde =
!. ."
jsou teoretické četnosti, které by kontingenční
tabulka obsahovala v případě nezávislosti sledovaných znaků
Testové kritérium má při platnosti nulové hypotézy rozdělení
$ %&
*+ =< #+
− 1(& − 1(); ∞(
Kritický obor
•
# $ %& − 1(& − 1()
pro posouzení intenzity závislosti proměnných v kontingenční tabulce se používají různé
charakteristiky, nejpoužívanější jsou Pearsonův koeficient kontingence a Cramérův koeficient
kontingence, které jsou založené na hodnotě testového kritéria chí-kvadrát
/ = 0/& + ( = Pearsonův koeficient kontingence
3 = 0/&4 − 1( = Cramérův koeficient kontingence, kde 4 = 45; 6
Asociační tabulka
•
kontingenční tabulce o rozměru 2 řádky x 2 sloupce se říká asociační tabulka
•
v případě asociační tabulky lze hodnotu testového kritéria vypočítat pomocí vzorce
=
•
&77 7 7 (
7. . .7 .
$ %1);
, kritický obor má pak tvar *+ = 〈#+
∞(
těsnost závislosti v asociační tabulce lze měřit pomocí tzv. koeficientu asociace
9 =
11 22−12 21
, který nabývá hodnot <-1;1>
01. 2. .1 .2
2
Kurz 4st201 – cvičení č. 8
Př. 8.1
U 93 pacientů trpících chorobou bylo zjišťováno, zda byli očkováni a jaký průběh choroba má. Závisí
průběh choroby na tom, zda pacient byl očkován? Uvažujte α = 0,05. Vypočtěte ručně.
Pacient očkován
Průběh choroby
Lehký
Těžký
ANO
33
9
NE
15
36
Př. 8.2
Byla zjišťována souvislost mezi hladinou alkoholu v krvi (nízká, střední, vysoká) a rychlostí reakce (dobrá,
špatná) u 100 náhodně vybraných lidí. Existuje souvislost? Pokud ano, jaká je intenzita závislosti? Testuje na
hladině významnosti α = 0,05. Vypočtěte v MS Excel pomocí funkce CHITEST, pokud znáte teoretické
četnosti.
Rychlost reakce
Celkem
Hladina alkoholu
Nízká
Střední
Vysoká
Dobrá
Špatná
Empirické
53
12
Teoretické
39
26
Empirické
5
15
Teoretické
12
8
Empirické
2
13
Teoretické
9
6
60
40
Celkem
3
65
20
15
100
Kurz 4st201 – cvičení č. 8
Závislost číselné proměnné na kategoriální - Analýza rozptylu (ANOVA)
Co testujeme?
•
ověření existence vlivu kategoriálního faktoru (nezávisle proměnné) na hodnoty číselného
znaku (závisle proměnné) tj. ověření závislosti jedné číselné proměnné na jedné kategoriální
proměnné (faktoru)
•
faktor nabývá malého počtu (k) obměn a hodnoty závisle proměnné můžeme roztřídit do k skupin
podle tohoto faktoru
Př. Máme k dispozici údaje z filmové databáze www.csfd.cz o průměrném hodnocení kvality 15 filmů
uživateli webu. Filmy mají na škále 0-100 hodnocení 87, 87, 84, 81, 62, 64, 70, 74, 67, 58, 79, 83, 91, 84 a 88.
Filmy je možné roztřídit dle žánru do 3 skupin – akční, komedie a drama. Zajímá nás, zda faktor žánr má
vliv na to, jak jsou filmy hodnoceny.
•
ověření závislosti spočívá v porovnání výběrových průměrů uvnitř jednotlivých skupin (tj. jde o
určité rozšíření testu o shodě středních hodnot) – rozdílnost mezi skupinovými průměry
(charakterizovaná pomocí meziskupinové variability) je srovnávána s kolísáním hodnot uvnitř
skupin (charakterizovaným vnitroskupinovou variabilitou)
ŽÁNR
PRŮMĚRNÉ
HODNOCENÍ
HODNOCENÍ
Komedie
87
87
84
74
81
82,6
Akční
62
64
70
58
67
64,2
Drama
83
91
84
79
88
85,0
PRŮMĚRNÉ HODNOCENÍ ZA VŠECHNY FILMY =
•
77,3
meziskupinová variabilita vyjádřena jako meziskupinový součet čtverců (součet druhých mocnin
odchylek skupinových průměrů od celkového průměru sledované závislé veličiny) – vyjadřuje, jak
moc se od sebe liší jednotlivé skupiny
;<.= = >
•
C
&?A@ − ?B($ vnitroskupinová variabilita vyjádřena jako vnitroskupinový součet čtverců (součet druhých
mocnin odchylek jednotlivých hodnot uvnitř skupin od příslušných skupinových průměrů) –
vyjadřuje, jak moc se liší hodnoty uvnitř skupin
;<.D = >
•
C
>
E? − ?A@ F
$
celková variabilita závisle proměnné vyjádřena jako celkový součet čtverců – vyjadřuje, jak moc
různé jsou hodnoty závisle proměnné a platí,
;< = ;<.= + ;<.D = >
4
C
>
E? − ?BF
$
Kurz 4st201 – cvičení č. 8
Test
•
nulová hypotéza o nezávislosti formulována jako hypotéza o rovnosti středních hodnot
:μ = μ$ = ⋯ = μI : •
=> nezávislost závisle proměnné na faktoru
=> závislost závisle proměnné faktoru
testové kritérium F vychází z toho, že čím větší podíl na celkové variabilitě má variabilita
meziskupinová oproti vnitroskupinové, tím spíše má sledovaný faktor vliv na rozdílnost
hodnot závisle proměnné
J=
;<.= /&K − 1(
;<.D /& − K(
Při platnosti nulové hypotézy má testové kritérium rozdělení
J%&K − 1(, & − K(),
kde k je počet variant faktoru a n je počet pozorování.
*+ = 〈J+ %&K − 1(, & − K(); ∞(
Kritický obor
•
míru těsnosti závislosti závisle proměnné na třídícím faktoru lze měřit pomocí tzv. poměru
determinace, který je konstruován jak podíl meziskupinové variability na celkové variabilitě závisle
proměnné – nabývá hodnot o 0 do 1, přičemž závislost je tím těsnější, čím je hodnota poměru
determinace blíže 1
M$ =
•
;<.=
;<
statistický software často dává výstup analýzy rozptylu v následujícím formátu:
Zdroj
Součet čtverců
Stupně volnosti
Průměrný
Hodnota F
variability
(SS)
(Rozdíl)
čtverec (MS)
(F)
Faktor
;<.=
K−1
;<.= /&K − 1(
(Všechny
výběry)
;<.D
−K
;<.D /& − K(
Celkem
;<
−1
(Mezi výběry)
Reziduální
;?.4 /&K − 1(
;?.N /& − K(
Hodnota P
…
• ANALÝZA ROZPTYLU V MS EXCEL
o
V modulu ANALÝZA DAT nabídka „Anova: jeden faktor“
o
Jsou-li data ve formátu, kdy proměnné jsou v řádcích a pozorování ve sloupcích, pak
volbu „Sdružit“ nastavit na „Řádky“
o
Jsou-li data ve formátu, kdy proměnné jsou ve sloupcích a pozorování v řádcích, pak
volbu „Sdružit“ nastavit na „Sloupce“
5
Kurz 4st201 – cvičení č. 8
Př. 8.3
U 12 studentů jsme sledovali počet dosažených bodů na závěrečném testu (od 0 do 60). Vždy 4 z těchto
studentů chodili k jednomu ze 3 cvičících – panu Kubovi, panu Kubinovi, nebo panu Kubinčákovi. Má
osoba cvičícího vliv na počet dosažených bodů u závěrečného testu? Jaká je těsnost závislosti? Využijte
výstup z MS Excel. Zkuste v modulu Analýza dat výstup vytvořit (sdružit sloupce).
Zadání
Kuba
53
47
55
50
Body u
závěrečného
testu
Cvičící
Kubina
42
48
48
50
Kubinčák
39
46
39
43
Výstup z MS Excel
ANOVA
Zdroj variability
Mezi výběry
Všechny výběry
Celkem
SS
2
9
11
Rozdíl
MS
181,17
107,5
288,67
F
90,58
11,94
Hodnota P
7,58
F krit
4,256
0,0117
Př. 8.4
Pomocí experimentu byla testována spotřeba při použití 3 druhů benzinu, s každým druhem bylo
provedeno 5 pokusů. Doplňte tabulku ANOVA a rozhodněte na hladině významnosti 0,05, zda spotřeba
závisí na druhu benzinu. Změřte těsnost závislosti.
Zdroj variability
SS
Rozdíl
MS
F
Mezi výběry
Všechny výběry
0,080280
Celkem
0,250773
Př. 8.5.
Existuje závislost hodnocení filmu na serveru www.csfd.cz na jeho žánru? Testujte na 5% hladině
významnosti a posuďte těsnost testované závislosti. Vypočtěte v MS Excel pomocí modulu Analýza dat
(sdružit řádky).
ŽÁNR
Komedie
Akční
Drama
87
62
83
87
64
91
HODNOCENÍ
84
70
84
6
74
58
79
81
67
88
Download

4ST201 – STATISTIKA CVIČENÍ Č. 8