Mgr. Karla Hrbáčková, Ph.D.
Základy kvantitativního
výzkumu
K čemu slouží statistika
• Popisuje velké soubory dat pomocí
charakteristických čísel (popisná statistika).
• Hledá skryté zákonitosti v souborech dat (explorační
statistika).
• S pomocí teorie pravděpodobnosti ověřuje platnost
hypotéz.
Statistický software
• Uživatelsky příjemný (Statistica 8, MiniTab)
• Profesionální (SPSS, SAS)
Typy dat
• Kategorizované proměnné (do jaké kategorie
respondent nebo případ patří)
a) nominální (nemá smysl pořadí kategorií)
b) ordinální (uspořádání, které vychází z logiky
kategorií, lze seřadit vzestupně nebo sestupně)
• Číselné proměnné (informace, kde se primárně
ptáme na nějaké číslo)
a) intervalová
b) poměrová (vyjádřena číselně sama o sobě)
Typy dat
• Nominální
i.
ii.
iii.
muž, žena
vesnice, město
absolvoval, neabsolvoval
• Ordinální
i.
ii.
1, 2, 3, 4, 5
silně souhlasím, souhlasím, nesouhlasím, silně nesouhlasím
• Intervalová
i.
10, 12, 15, 17, 20 bodů v testu
• Poměrová
i.
ii.
12, 18, 22, 38, 54 let
55, 6 kg
Proměnné
• V případě, že má výzkumný problém dvě proměnné,
určujeme závisle a nezávisle proměnnou.
• Nezávisle proměnná (proměnná, která je příčinou
změny)
• Závisle proměnná (proměnná, jejíž hodnoty se
změnily vlivem nezávisle proměnné)
• Jaký vliv má interaktivnost výuky na míru osvojených
znalostí?
Data nám slouží k přesnému výběru statistické metody
• Jestliže jsou obě proměnné nominální nebo ordinální,
použijeme kontingenční tabulku (chí-kvadrát), např.
rozdíly v postoji ke škole (pozitivní, negativní) mezi chlapci a dívkami
• Jestliže je jedna proměnná nominální a druhá
metrická (poměrová, intervalová), použijeme t-test,
např. rozdíly v EQ u studentů prvních a posledních ročníků gymnázií
• Jestliže je jedna proměnná metrická a druhá
nominální s více kategoriemi (nebo ordinální),
použijeme analýzu rozptylu, např. rozdíly v testu tvořivosti v
různých věkových kategoriích
• Jestliže jsou obě proměnné metrické nebo ordinální
a zjišťujeme závislost, použijeme test korelace
Popisná statistika
• Jaká je úspěšnost žáků 5. třídy ZŠ Vsetín Ohrada v
matematice?
• Školní úspěšnost operačně definujeme jako známku z
testu matematických znalostí.
• Vzorek bude tvořit 22 žáků 5. třídy
• 1, 1, 2, 4, 3, 3, 3, 2, 4, 1, 3, 2, 1, 5, 1, 1, 2, 4, 3, 2, 3, 3
(viz pracovní sešit.xls)
• Co můžeme o těchto datech říci?
Popis střední hodnoty
Proměnná
Známka z testu MA
Popis né statis tiky (pracovni_data2)
N platných Průměr Minimum Maximum Sm.odch.
22 2,454545 1,000000 5,000000 1,184313
Tabulka četností
Známka
Četnost ni
Relativní četnost
fi
Kumulativní
četnost
1
6
0,273
6
2
5
0,227
11
3
7
0,318
18
4
3
0,136
21
5
1
0,046
22
∑22
∑1,000
Histogram četností
Histogram z Známka z testu MA
pracovni_data 4v*22c
Známka z testu MA = 22*1*normal(x; 2,4545; 1,1843)
8
7; 32%
7
Počet pozorování
6
6; 27%
5; 23%
5
4
3; 14%
3
2
1; 5%
1
0
1
2
3
Známka z testu MA
4
5
Výsečový graf
Výsečový graf z Známka z testu MA
pracovni_data 4v*22c
5; 1; 5%
4; 3; 14%
1; 6; 27%
3; 7; 32%
2; 5; 23%
Známka z testu MA
Spojnicový graf
Spojnicový graf z Známka z testu MA
pracovni_data 4v*22c
5,5
5,0
4,5
Známka z testu MA
4,0
3,5
3,0
2,5
2,0
1,5
1,0
0,5
0
1
2
3
4
5
6
7
8
9 10 11 12 13 14 15 16 17 18 19 20 21 22 23
Krabicový graf
Krabicový graf z Známka z testu MA
pracovni_data2 8v*22c
5,5
5,0
4,5
4,0
3,5
3,0
2,5
2,0
1,5
1,0
0,5
Známka z testu MA
Medián = 2,5
25%-75%
= (1, 3)
Rozsah neodleh.
= (1, 5)
Odlehlé
Extrémy
Charakteristiky centrální tendence
• Čísla, která nejlépe zastupují celý soubor dat
I. Aritmetický průměr (data metrická)
II. Modus (data nominální)
III. Medián (data ordinální)
Výpočet střední hodnoty
• Průměr – intervalový popis střední hodnoty
• Medián – prostřední hodnota z řady hodnot
seřazených podle velikosti (nad mediánem leží
50% dat a pod mediánem 50% dat)
• Modus – ta hodnota, která se v daném
souboru dat vyskytuje nejčastěji
• 1,1,1,1,1,1,2,2,2,2,2,3,3,3,3,3,3,3,4,4,4,5
Příklad
•
•
•
•
•
•
Výsledky IQ testu
96, 96, 97, 99, 100, 101, 102, 104, 195.
Modus (nejfrekventovanější skóre) 96
Medián (prostřední skóre) 100
Průměr (aritmetický průměr) 110,6
V tomto případě centrální hodnotu nejlépe vystihuje
medián.
Výpočet průměru
Známka
Četnost ni
n . xi
1
6
6
2
5
10
3
7
21
4
3
12
5
1
5
∑22
∑54
Míra variability (charakteristika rozptýlení)
• Průměr nám nemusí poskytovat komplexní
informace o souboru.
• 1, 1, 1, 5, 5, 5 nebo 3, 3, 3, 3, 3, 3
• Rozptyl – míra rozptýlení, zda mezi průměry jsou či
nejsou významné rozdíly.
• Směrodatná odchylka – druhá odmocnina z
rozptylu, jak jsou data rozptýlena od průměru,
ukazatel vstupních dat.
Rozptyl a směrodatná odchylka
• Data 8, 12, 12, 12, 13, 16, 17, 18, 18
• Zakreslení dat na číselnou osu (zjišťuji průměrnou
vzdálenost od průměru).
• Vychází nula, jak tedy postupovat?
• Průměrný součet čtverců odchylek od aritmetického
průměru.
• Jaký je matematický postup výpočtu rozptylu
(průměrné odchylky od průměru)?
Výpočet rozptylu a směrodatné odchylky
x
x2
x
x2
1
-2
4
3
0
0
1
-2
4
3
0
0
1
-2
4
3
0
0
5
2
4
3
0
0
5
2
4
3
0
0
5
2
4
3
0
0
s2 =4
r=3
r=3
s2 =0
Příklad
• Dva soubory dat se stejným průměrem (data2, testy
v páté a šesté třídě.
• Co nám říká směrodatná odchylka?
• Jak vypadá distribuce dat?
Popis né statis tiky (pracovni _data2)
Prom ěnná N platných
Prům ěr
Minim um Maxim um
Sm .odch.
TEST5
22 20,00000 16,00000
23,00000 2,070197
TEST6
22 20,00000
8,00000
31,00000 7,131419
• K čemu je nám znalost směrodatné odchylky v praxi?
Příklad
• Petr je student sedmé třídy a v testu z JČ získal 40
bodů, v test z MA získal 30 bodů. Co můžeme říct o
srovnání jeho znalostí z obou předmětů?
Předmět
Počet bodů
Průměr
Směrodatná
odchylka
Jazyk český
40
35
10
Matematika
30
25
2
• JČ o půl směrodatné odchylky nad průměrem
• MA o 2,5 směrodatné odchylky nad průměrem
Otázky
• Jak jsem uspěl v případě, že jsem napsal test hodně
špatně, ale směrodatná odchylka bodů v testu je
velká?
• Jak jsem uspěl v případě, že jsem napsal test hodně
špatně a směrodatná odchylka bodů v testu je malá?
• Jak jsem uspěl v případě, že jsem napsal test hodně
dobře a směrodatná odchylka bodů v testu je velká?
• Jak jsem uspěl v případě, že jsem napsal test hodně
dobře a směrodatná odchylka bodů v testu je malá?
Otázky
• Jak jsem uspěl v testech ve srovnání s ostatními
spolužáky?
Počet bodů
Průměr
Směrodatná
odchylka
Matematika
87
75
13
Literatura
16
13
2
Všeobecné znalosti
31
34
6
• Vím, jak si vedu ve srovnání s ostatními, můžu to i
vyčíslit tzv. percentily nebo z skóre.
Směrodatná odchylka
-1
+1
68,27%, 95,4%, 99,73%
r = průměr
rozptyl
Hodnoty, kterých může
studovaná proměnná nabývat
Interval spolehlivosti
• Odhadujeme skutečnou hodnotu (průměr)
základního souboru na základě výběru (výzkumný
vzorek).
• Odhad se může měnit, my ho neznáme (jelikož jsme
jej nezměřili na celé populaci), proto určujeme
intervalový odhad.
• S předem zvolenou pravděpodobností obsahuje
skutečnou střední hodnotu v populaci.
• 11.800 Kč – 12.800 Kč
Testování hypotéz
• Při testování hypotéz (relační a kauzální výzkumné
problémy) formulujeme dvě vzájemně si odporující
hypotézy
• H0 – nulová hypotéza, jednoduché tvrzení o
neexistenci vztahu
• HA – tzv. alternativní hypotéza, negace nulové
hypotézy
Postup
• Stanovení nulové a alternativní hypotézy.
• Volba matematicko-statistické metody vedoucí k
rozhodnutí ve prospěch H0 nebo HA.
• Volba spolehlivosti.
• Kritérium pro rozhodnutí (signifikance).
Testová statistika
•
•
•
•
chí-kvadrát test (kontingenční tabulka)
t-test
koeficient korelace
analýza rozptylu
Spolehlivost
• Před samotným testováním volíme
spolehlivost, s jakou budeme chtít pracovat.
• Standardně se stanovuje 95%.
• Povolujeme riziko max. 5%, že uděláme
chybu.
Rizika chybných rozhodnutí
skutečnost
H0
HA
H0
OK
Chyba
1. druhu
HA
Chyba
2. druhu
OK
Signifikance
• Nejpodstatnější hodnota.
• Pravděpodobnost toho, že zamítneme nulovou
hypotézu, ačkoliv ona platí.
• Předem jsme si stanovili, že chceme pracovat s
pravděpodobností 95%.
• Signifikance nám toto riziko vyčísluje.
• Hodnota mezi 0 a 1.
Signifikance
• p < 0,05 – zamítám H0
• p > 0,05 – nezamítám H0 – riziko by bylo větší
než 5%
Chí-kvadrát
• Test nezávislosti chí-kvadrát
• Rozdíly ve známce z matematického testu u dívek a
chlapců
• H0: PCH = PD
• HA: PCH ≠ PD
• p < 0,05, zamítáme nulovou hypotézu
Zjistili jsme statisticky významný rozdíl v úspěšnosti u
dívek a chlapců.
Test nezávislosti chí-kvadrát
Kontingenční tabulka (pracovni_data2)
Četnost označených buněk > 10
(Marginální součty nejsou označeny)
Známka z testu pohlaví pohlaví Řádk.
MA
D
CH
součty
1
6
0
6
2
5
0
5
3
1
6
7
4
1
2
3
5
0
1
1
Vš .skup.
13
9
22
Souhrnná tab.: Očekávané četnos ti (pracovni_data2)
Četnost označených buněk > 10
Pears onův chí-kv. : 15,6964, sv=4, p=,003456
Známka z testu pohlaví pohlaví
Řádk.
MA
D
CH
součty
1
3,54545 2,454545
6,00000
2
2,95455 2,045455
5,00000
3
4,13636 2,863636
7,00000
4
1,77273 1,227273
3,00000
5
0,59091 0,409091
1,00000
Vš .skup.
13,00000 9,000000
22,00000
Korelační analýza
• Zkoumá vzájemný vztah kvantitativních proměnných
• Soubor TESTY
• Nejčastěji se používá Pearsonův koeficient korelace –
r.
• Nabývá hodnot od -1 do 1.
• Záporné hodnoty značí nepřímou závislost, kladné
přímou, nula značí nezávislost.
Korelace
Proměnná
Známka z testu MA
Známka z testu PŘ
Korelace (pracovni_data2)
Označ. korelace js ou významné na hlad. p < ,05000
N=22 (Celé případy vynechány u ChD)
Průměry Sm.odch. Známka z testu Známka z testu
MA
PŘ
2,454545 1,184313
1,000000
0,918770
2,318182 1,086119
0,918770
1,000000
Bodový graf: Známka z testu MA vs. Známka z testu PŘ (Celé příp. vynech. u ChD)
Známka z testu PŘ = ,25000 + ,84259 * Známka z testu MA
Korelace : r = ,91877
8
4
0
5,0
4,5
Známka z testu PŘ
4,0
3,5
3,0
2,5
2,0
1,5
1,0
0,5
0,0
0
1
2
3
Známka z testu MA
4
5
6 0
4
8
95% hladina spolehlivosti
T- testy
• Zda ženy dosahují stejného skóre v testu jako muži.
• H0: PM = PŽ (ženy dosahují stejných výsledků jako muži)
• HA: PM ≠ PŽ
• T- test nezávislé dle skupin
• p < 0,05, zamítáme nulovou hypotézu
T-testy
t-testy; grupováno: pohlaví (pracovni_s es it3)
Skup. 1: M
Skup. 2: Ž
Průměr
Průměr
t
sv
p
Proměnná
M
Ž
test
9,166667 15,11111 -4,63412 46 0,000030
Krabicový graf :
test
18
16
test
14
12
10
8
6
Ž
M
pohlaví
Průměr
Průměr±SmCh
Průměr±1,96*SmCh
ANOVA
• Zajímá nás vliv více nominálních proměnných na
kvantitativní proměnnou.
• H0 – mezi skupinami není statisticky významný rozdíl
• HA – mezi skupinami je statisticky významný rozdíl
• Zda má prospěch vliv na výsledek v testu.
Graf Anova
Kategoriz. krabicový graf:
test
20
18
16
test
14
12
10
8
6
C
D
E
F
prospěch
A
B
Průměr
Průměr±SmCh
Průměr±1,96*SmCh
Analýza rozptylu
Analýza rozptylu (pracovni_s esi t3)
Označ. efekty js ou význ. na hlad. p < ,05000
SČ
SV
PČ
SČ
SV
PČ
F
p
Prom ěnná
efekt
efekt
efekt
chyba
chyba
chyba
test
665,6992
5 133,1398 333,5508
42 7,941686 16,76468 0,000000
Předpoklady
• Základním předpokladem pro volbu testu je
normalita
• H0: Data pochází z normálního rozdělení
• HA: Data nepochází z normálního rozdělení
• Pokud nesplňuje normalitu, musíme použít
neparametrický test
• Základní statistiky, tabulky četností - normalita histogram
Test normality
Proměnná
Testy normality
N
otázka 1
max D
240
0,311871
K-S
Lilliefors
p < ,01
p < ,01
Download

zde