Tomáš Karel
LS 2012/2013
Doplňkový materiál ke cvičení z předmětu 4ST201.
Na případné faktické chyby v této presentaci mě prosím upozorněte.
Děkuji.
Tyto slidy berte pouze jako doplňkový materiál – není v nich obsaženo
zdaleka všechno, co byste měli umět. Dalším studijním materiálem je
učebnice, cvičebnice a také poznámky z přednášek a cvičení!
Tomáš Karel - 4ST201
21.11.2013
2
cv.
Program cvičení
1.
Úvod, popisná statistika
2.
Popisná statistika
3.
Míry variability, pravděpodobnost
4.
Pravděpodobnost, náhodné veličiny a jejich charakteristiky
5.
Pravděpodobnostní rozdělení
6.
TEST, odhady parametrů
7.
Testování hypotéz
8.
Chí – kvadrát test dobré shody,
9.
kontingenční tabulky, ANOVA, Regrese
10. Regrese, korelace
11. TEST, časové řady (bazické a řetězové indexy)
12. Časové řady
13. Indexní analýza



dosud jsme se zabývali testy o parametrech nějakého
rozdělení  předpokládali jsme tedy, že náhodný výběr
pochází z určitého rozdělení  ale i tento předpoklad
musíme ověřit
testy o tvaru rozdělení  testy dobré shody
testovaná hypotéza: test shody
empirickým rozdělením četností
mezi
teoretickým
a

hlavní podmínky použití:
◦ nezávislost jevů
◦ velký rozsah výběrového souboru
k
(ni  n   0,i ) 2
i 1
n   0 ,i
G
  2 [k  1]
Předpokládá se, že v České republice má:
◦
◦
◦
◦
41 % obyvatel krevní skupinu A
14 % obyvatel krevní skupinu B
7 % obyvatel krevní skupinu AB
38 % obyvatel krevní skupinu 0
V jistém týdnu darovalo krev celkem 215 dárců, kteří měli
následující krevní skupiny:
◦
◦
◦
◦
82
38
26
69
mělo
mělo
mělo
mělo
krevní
krevní
krevní
krevní
skupinu
skupinu
skupinu
skupinu
A
B
AB
0
Na 1% hladině významnosti rozhodněte, zda tyto zjištěné
údaje jsou v souladu s předpokladem o poměrném
zastoupení krevních skupin v České republice.
k
(ni  n   0,i ) 2
i 1
n   0 ,i
G
  2 [k  1]

kontingence = závislost 2 kvalitativních proměnných
◦ zkoumá závislost mezi kvalitativními znaky

k ověření závislosti se používá Chí-kvadrát test
nezávislosti, založený na porovnání empirických
teoretických četností
1) stanovení hypotézy
H0: X a Y jsou nezávislé
H1: non H0
2) výpočet testového kritéria
U 6800 osob byla zjišťována barva očí a vlasů.
Výsledky jsou zaneseny v tabulce.
Barva vlasů
Barva očí
světlá
kaštanová
černá
zrzavá
celkem
světle modrá
šedá nebo zelená
tmavohnědá
celkem
1768
946
115
2829
807
1387
438
2632
189
746
288
1223
47
53
16
116
2811
3132
857
6800
Rozhodněte, zda barva očí a barva vlasů jsou závislé
znaky.

kontingenční tabulka
Barva vlasů
Barva očí
světlá
kaštanová
černá
zrzavá
celkem
světle modrá
n11
n12
n13
n14
n1•
šedá nebo zelená
n21
n22
n23
n24
n2•
tmavohnědá
n31
n•1
n32
n•2
n33
n•3
n34
n•4
n3•
n
celkem
 3 obměny prvního kvalitativního znaku(barvy očí)
 4 obměny druhého kvalitativního znaku(barvy vlasů)

pokud by znaky byly nezávislé, potom bychom v průměru
očekávali následující hodnoty:
Barva vlasů
Barva očí
světlá
kaštanová
černá
zrzavá
celkem
světle modrá
1169,46
1303,00
356,54
2829
1088,02
1212,27
331,71
2632
505,57
563,30
154,13
1223
47,95
53,43
14,62
116
2811
3132
857
6800
šedá nebo zelená
tmavohnědá
celkem

sílu závislosti dvou kvalitativních proměnných můžeme vyjádřit
pomocí:
Pearsonova koeficientu kontingence:

Cramérova koeficientu kontingence:

pro zcela nezávislé veličiny: jsou C i V =0

1.
vytvoření kontingenční tabulky
karta Vložení  kontingenční tabulka
2.
očekávané relativní četnosti v případě
3.
testová statistika G
4.
Pearsonův koeficient kontingence
5.
Cramérův koeficient kontingence
nezávislosti

Z provedeného průzkumu máme informace o
pohlaví a preferenci bydliště. Na základě těchto
údajů rozhodněte, zda závisí preference trvalého
bydlení na pohlaví.
Bydliště
Pohlaví
Město
Venkov
Muž
71
91
Žena
82
56




závislost kvalitativní (slovní) a kvantitativní (číselné)
proměnné
nejčastější případ – potřebujeme posoudit, zda má
na určitou kvantitativní veličinu vliv kvalitativní
nebo kvantitativní faktor
metoda vychází z rozkladu rozptylu (součtu
čtvercových odchylek) na vnitroskupinovou a
meziskupinovou variabilitu
je-li uvažovaná numerická proměnná nezávislá na
zmíněné kategoriální proměnné, platí, že:

Je třeba rozhodnout, zda varianty testu (označíme je jako A,
B, C) jsou stejně náročné. Každou variantu si napsali 4
náhodně vybraní studenti. Jejich výsledky jsou zaneseny v
tabulce. Rozhodněte, zda se průměrný počet bodů získaný za
různé varianty testu významně liší. (Řešte ručně a v Excelu)
Varianta testu
Dosažené body
A
91
81
74
57
B
83
72
63
47
C
71
69
58
40
P2  R-square  0, 2178
Download

4ST201 STATISTIKA 2. cvičení 4.8.2013