1 Měření závislosti statistických znaků
1.1 Dvourozměrný statistický soubor
Při analýze ekonomických skutečností nás často nezajímají jednotlivé veličiny jako takové,
ale i vztahy mezi nimi. Ptáme se, jak závisí poptávka na ceně produktu, platy zaměstnanců na
věku, vzdělání rodičů a dětí apod. V takových případech nestačí zkoumat jen jeden statistický
znak, ale současně sledovat znaků více.
Dosud jsme se v tomto modulu zabývali tzv. jednorozměrným statistickým souborem.
U každé statistické jednotky nás vždy zajímal pouze jeden znak, který jsme dále analyzovali –
sestrojili jsme tabulku a graf četností, spočítali střední hodnotu nebo směrodatnou odchylku.
Pokud zkoumáme vztah dvou nebo více znaků v rámci jednoho souboru, mluvíme
o
vícerozměrném
statistickém
souboru
(dvourozměrném,
třírozměrném,…).
U vícerozměrného souboru budeme zkoumat vzájemné vztahy sledovaných statistických
znaků.
Chceme-li zobrazit rozložení hodnot dvou kategoriálních znaků (nebo číselných znaků
s malým počtem obměn) v rámci vícerozměrného statistického souboru, můžeme sestrojit tzv.
kontingenční tabulku. Kontingenční tabulka je vlastně dvourozměrnou analogií tabulky
rozdělení četností, kterou znáte již z předcházející kapitoly. Její obecný tvar představuje
obrázek 3.1.
Y1
Y2
…
YS
CELKEM
X1
n11
n12
…
n1s
n1
X2
n21
n22
…
n2s
n2
…
…
…
…
…
…
XR
nr1
nr2
…
nrs
nr
n
n
…
n
n
CELKEM
1
2
s
Obr. 3.1 Kontingenční tabulka pro dva kategoriální znaky
Četnosti n11 (čteme „en – jedna – jedna“), n12, …, nrs v kontingenční tabulce jsou četnostmi
kombinací hodnot obou statistických znaků (např. X a Y) a nazývají se sdružené četnosti.
Jejich součtem je počet prvků souboru n.
2
r
s
n11 n12  nrs
nij
n
i 1 j 1
Dva symboly sumy v předcházejícím vzorci znamenají, že sčítáme všechny sdružené četnosti
přes řádky i sloupce.
Řádkové a sloupcové součty tabulky v posledním sloupci, resp. řádku tabulky, se nazývají
marginální (neboli okrajové) četnosti – představují vlastní jednorozměrná rozdělení obou
samostatných proměnných X a Y. Také pro marginální četnosti platí:
r
s
ni 
n j
i 1
n
j 1
Kontingenční tabulku lze vytvořit i v Excelu jednoduše pomocí stejnojmenného nástroje
Kontingenční tabulka. Jako vstup přitom slouží jednoduchá datová tabulka, jejíž první řádek
obsahuje názvy znaků a ostatní řádky příslušná data.
Kromě absolutních četností nij můžeme v kontingenční tabulce uvádět také relativní četnosti
pij přepočtené na celkový rozsah souboru n. Relativní četnosti spočítáme obdobně jako
u jednorozměrného rozdělení četností:
pij
nij
n
Z praktických důvodů se někdy uvádí kontingenční tabulka relativních četností, jejíž řádkové
(nebo sloupcové) součty jsou rovny 1. Tyto četnosti získáme jako podíl sdružených četností
nij a odpovídajících řádkových četností ni (nebo sloupcových četností n j). Tyto četnosti
nazýváme podmíněné řádkové (sloupcové) relativní četnosti a slouží k porovnání rozdělení
hodnot v jednotlivých řádcích (nebo sloupcích) tabulky.
Ukázku tabulky s podmíněnými sloupcovými četnostmi vidíte na obrázku 3.2. Z tabulky je
možné například vyčíst, že ve sledované skupině osob muži sledují více kanál ČT2 než ženy,
zatímco ženy se dívají častěji na Novu než muži.
3
MUŽI
ŽENY
ČT1
24%
25%
ČT2
20%
15%
NOVA
38%
42%
PRIMA
18%
18%
celkem
100%
100%
Obr. 3.2 Kontingenční tabulka s podmíněnými sloupcovými četnostmi
Dvourozměrné rozdělení četností lze znázornit také graficky – pomocí sloupcového grafu
neboli histogramu. K tomu však potřebujeme trojrozměrný souřadnicový systém, kde na dvě
osy vynášíme hodnoty obou znaků, na třetí osu jejich četnosti ve formě sloupců.
Obr. 3.3 Histogram 3D pro dvě proměnné
Takový třírozměrný graf (3D histogram) působí sice efektně, ale má řadu nevýhod. Například
pokud budou v popředí hodnoty s většími četnostmi, zakryjí nižší sloupce grafu odpovídající
hodnotám s nižšími četnostmi. Proto se v praxi používá spíše tzv. skupinový sloupcový graf
(histogram), který zobrazuje rozdělení hodnot jednoho znaku pro všechny obměny znaku
druhého.
4
45%
40%
35%
30%
ČT1
25%
ČT2
20%
15%
Nova
10%
Prima
5%
0%
muži
ženy
Obr. 3.4 Skupinový histogram pro dvě proměnné
Pokud jsou oba znaky ve dvourozměrném souboru číselné (kvantitativní, metrické), lze
soubor graficky zobrazit pomocí bodového diagramu (dot plot nebo XY plot), kde každé
dvojici hodnot [xi ; yj] v souboru odpovídá bod o těchto souřadnicích v dvourozměrné
soustavě souřadnic.
Tento typ grafu se však příliš nehodí pro soubory, kde se jednotlivé kombinace hodnot znaků
X a Y opakují, protože všechny takové dvojice se v XY grafu zobrazí jako jediný bod.
Bodový diagram
105
100
95
90
Y
85
80
75
70
65
60
174
176
178
180
182
184
186
188
190
192
X
Obr. 3.5 Ukázka bodového diagramu pro dvě proměnné
1.2 Číselné charakteristiky dvourozměrného souboru
Jsou-li obě proměnné v dvourozměrném souboru číselné, lze je popsat obdobnými číselnými
charakteristikami jako u souboru jednorozměrného.
5
U jednotlivých znaků lze spočítat míry polohy a variability podle stejných vzorců jako pro
jednorozměrný statistický soubor. Tyto charakteristiky vyjadřují vlastnosti každé proměnné
zvlášť, nazýváme je obdobně jako u kontingenční tabulky marginální charakteristiky.
Je-li soubor zadaný pomocí uspořádaných dvojic hodnot [xi ; yi], můžeme střední hodnoty
obou proměnných X a Y vypočítat podle vzorců:
n
n
xi
x
yi
i 1
y
n
i 1
n
Obdobně můžeme spočítat (výběrové) rozptyly obou zkoumaných statistických znaků:
n
n
xi2
s
2
x
yi2
n x
i 1
s
n 1
2
y
n y
i 1
n 1
Vzájemné vztahy mezi oběma znaky vyjadřují charakteristiky, které se nazývají sdružené. Do
této skupiny charakteristik patří kovariance a korelační koeficient.
Míru vzájemného vztahu znaků X a Y vyjadřuje charakteristika, která se nazývá kovariance
(někdy též vzájemný rozptyl). Spočítá se obdobně jako rozptyl jedné proměnné podle vzorce:
n
xi yi
sxy
n x y
i 1
n 1
Na rozdíl od rozptylu může mít kovariance kladnou i zápornou hodnotu, znaménko
kovariance určuje směr (orientaci) závislosti mezi oběma proměnnými. Platí přitom:
•
•
•
pokud je kovariance kladná (sxy > 0), je mezi oběma znaky přímá (pozitivní) závislost
– se zvyšující se hodnotou jednoho znaku se hodnota druhého znaku také spíše
zvyšuje
pokud je kovariance záporná (sxy < 0), je mezi oběma znaky nepřímá (negativní)
závislost – se zvyšující se hodnotou jednoho znaku se hodnota druhého znaku spíše
snižuje
jestli je kovariance rovna nule (sxy = 0), není mezi oběma znaky závislost – znaky jsou
nezávislé
Čím větší má kovariance absolutní hodnotu, tím je závislost mezi oběma znaky silnější.
Aby bylo možné určit míru závislosti mezi oběma znaky, případně porovnat dvě různé
závislosti mezi sebou, zavádí se takzvaný korelační koeficient. Ten se určuje podle vzorce:
6
rxy
sxy
sx s y
Korelační koeficient nabývá hodnot vždy z intervalu -1 až +1. Je tedy relativní
charakteristikou vyjadřující sílu vztahu mezi dvěma znaky v témže statistickém souboru.
Znaménko korelačního koeficientu určuje stejně jako u kovariance směr závislosti, absolutní
hodnota korelace intenzitu (sílu) závislosti.
0,0
ŽÁDNÁ ZÁVISLOST
0,0 - 0,1
velmi slabá závislost
0,1 – 0,3
slabá závislost
0,3 – 0,7
střední závislost
0,7 – 0,9
silná závislost
0,9 – 1,0
velmi silná závislost
1,0
absolutní závislost
Obr. 3.6 Korelační koeficient a síla závislosti
V programu Excel slouží k výpočtu korelačního koeficientu funkce CORREL. Parametry
funkce jsou obě proměnné.
Při absolutní závislosti dvou číselných znaků X a Y (rxy = 1 nebo rxy = -1) lze vztah mezi
hodnotami obou znaků vyjádřit pomocí lineární funkce:
yij
b0 b1 xij
V takovém případě všechny body v bodovém diagramu leží v přímce. Proto také říkáme, že
korelační koeficient měří sílu lineární závislosti.
1.3 Jednoduchá lineární regrese
Ideální lineární závislost mezi dvěma číselnými znaky není v praxi obvyklá. Přesto však
i v takovém případě můžeme vztah mezi dvěma statistickými proměnnými vyjádřit pomocí
lineární regresní funkce:
Y
b0 b1 x
Koeficienty b0 a b1 volíme tak, aby vzniklá přímka co nejlépe vystihovala daný statistický
soubor – viz obrázek 3.7.
7
Obr. 3.7 Dvourozměrný soubor a lineární regresní funkce
V regresním modelu bude každé pozorované hodnotě nezávislé proměnné xi odpovídat jednak
skutečná (empirická) hodnota závislé proměnné yi, jednak teoretická (modelová, vypočtená)
hodnota Yi, která leží na regresní přímce.
Ze všech přímek v rovině volíme jako nejlepší tu, u které je součet druhých mocnin (čtverců)
odchylek teoretických hodnot závislé proměnné Yi od empirických yi minimální – odtud název
metoda nejmenších čtverců. Obrázek 3.8 ukazuje čtverce odchylek na konkrétním příkladu.
Obr. 3.8 Metoda nejmenších čtverců – princip
Bez odvození a důkazu si nyní uvedeme, že koeficient b1 rovnice regresní přímky splňující
podmínku metody nejmenších čtverců má hodnotu:
8
sxy
b1
sx2
Tento koeficient se nazývá regresní koeficient a někdy se také značí byx. V Excelu ho můžeme
spočítat jednoduše pomocí funkce SLOPE. Parametry funkce se udávají v pořadí – závisle
proměnná Y, nezávisle proměnná X.
Význam regresního koeficientu je:
a) směrnice regresní přímky
b) průměrný přírůstek závisle proměnné Y, pokud se nezávislá proměnná X změní
o jednotku
Obdobně koeficient b0 se dá zjistit ze vztahu:
b0
y b1x
Tento koeficient vyjadřuje odhad závisle proměnné Y při nulové hodnotě X (pokud je taková
interpretace smysluplná). V Excelu jej spočítáme pomocí funkce INTERCEPT.
Zajímavou vlastností regresní přímky je, že prochází průsečíkem středních hodnot obou
proměnných, tedy bodem o souřadnicích x ; y . Tento bod se také nazývá těžiště
(dvourozměrného) statistického souboru.
Koeficienty regresní funkce mají často interpretaci, která závisí na konkrétních datech.
Například v obecné ekonomii vyjadřujeme vztah mezi spotřebou domácností C a jejich
příjmem (důchodem) Y rovnicí:
C
C0 c Y
kde C0 je takzvaná autonomní spotřeba a c mezní sklon ke spotřebě.
Kvalitu dané lineární regresní funkce vyjadřuje ukazatel R2, který se nazývá index
determinace (nebo determinační koeficient) a spočítá se podle vzorce:
R
kde:
2
sY2
s y2
sY2 … teoretický rozptyl (rozptyl teoretických hodnot Y)
s y2 … empirický rozptyl (rozptyl naměřených hodnot y)
Teoretický rozptyl spočítáme jako rozptyl hodnot Y získaných dosazením jednotlivých hodnot
nezávislé proměnné x do regresní rovnice. Empirický rozptyl je pak „normální“ rozptyl
hodnot závislé proměnné y.
9
Index determinace R2 nabývá hodnoty od 0 do 1 (od 0 do 100%) a určuje, jakou část
variability závislé proměnné Y lze vysvětlit vlivem nezávislé proměnné X. Čím vyšší je tato
hodnota, tím lépe vystihuje regresní přímka skutečnou závislost mezi X a Y.
Pro lineární regresi platí mezi indexem determinace R2 a korelačním koeficientem
r jednoduchý a jednoznačný vztah:
R2
r2
1.4 Závislost znaků v kontingenční tabulce
Podobně jako mezi číselnými znaky můžeme vyjadřovat sílu závislosti také mezi dvěma
kategoriálními znaky X a Y v kontingenční tabulce. Závislost mezi kvalitativními znaky se
nazývá také asociace. Tím je vyjádřena rozdílnost od závislosti číselných znaků, které říkáme
korelace.
Pokud by byly znaky X a Y v kontingenční tabulce skutečně nezávislé, musel by mezi
sdruženou relativní četností a marginálními relativními četnostmi platit vztah:
pij
pi  p j
Tento vztah by platil pro libovolnou dvojici indexů i a j, resp. dvojici hodnot xi a yj.
Neboť v praxi mnohem častěji nežli s relativními četnostmi pracujeme s četnostmi
absolutními, lze výše uvedený vztah vyjádřit ve tvaru:
eij
ni  nj
n
Hodnota eij se nazývá očekávaná četnost (z angl. expected = očekávaný). Takovou hodnotu by
měla sdružená četnost nij v případě, že by znaky X a Y byly skutečně nezávislé.
Z hodnot očekávaných četností eij lze sestavit analogii kontingenční tabulky – tzv. tabulku
očekávaných četností. Potom platí, že pokud se skutečná kontingenční tabulka a tabulka
očekávaných četností shodují, jsou sledované znaky X a Y nezávislé.
Čím větší jsou naopak rozdíly mezi oběma tabulkami, tím větší je mezi oběma znaky X a Y
v kontingenční tabulce závislost. Na sledování této rozdílnosti lze proto postavit míry
asociace. Základním individuálním ukazatelem je tzv. individuální chi-kvadrát (χ2) míra
asociace:
Gij
nij
eij
2
eij
10
Pokud je hodnota Gij větší než 5, můžeme v kontingenční tabulce i-tý řádek a j-tý sloupec
považovat za závislé.
Celková
2
-míra asociace se vypočte jako součet všech individuálních hodnot Gij přes celou
tabulku, tj. přes všechny kombinace xi a yj:
r
s
G
r
s
Gij
i 1 j 1
i 1 j 1
nij
eij
2
eij
Statistika G nabývá hodnoty z intervalu 0 až n h , kde n je počet jednotek souboru a h je
menší z hodnot r - 1, s - 1. Vyjadřuje v podstatě rozptyl mezi skutečnými a očekávanými
četnostmi v kontingenční tabulce.
Aby bylo možné srovnávat míry závislosti ze dvou různých kontingenčních tabulek, byla
zavedena relativní míra asociace, tzv. Cramerův kontingenční koeficient V:
V
G
n h
Hodnota Cramerova koeficientu kontingence se pohybuje mezi 0 a 1, přičemž platí, že čím
vyšší je hodnota V, tím je závislost mezi oběma znaky silnější. Hodnota V = 0 vyjadřuje
statisticky nezávislé znaky X a Y. Až na znaménko je tedy význam koeficientu kontingence
srovnatelný s korelačním koeficientem.
V Excelu nemáme žádné speciální funkce ani nástroje pro měření asociace v kontingenční
tabulce. Nejjednodušší je dodržet následující postup:
1. určit kontingenční tabulku empirických (absolutních) četností nij;
2. spočítat tabulku očekávaných četností eij;
3. s pomocí předcházejících tabulek vyjádřit tabulku individuálních chi-kvadrátů Gij.
Součet všech hodnot v tabulce individuálních chi-kvadrátů je celková míra asociace G. Z ní
lze již jednoduše podle výše uvedeného vzorce spočítat Cramerův koeficient kontingence V.
11
Vyzkoušejte si sami
1. U patnácti vybraných domácností byla zjištěna obytná plocha a nájemné:
číslo
plocha nájemné
(m2) (Kč)
82,6
970
57,3
795
70,4
1400
65,0
200
48,4
390
103,8
2320
73,6
1010
43,5
280
1
2
3
4
5
6
7
8
číslo
9
10
11
12
13
14
15
plocha nájemné
(m2)
(Kč)
66,1
1600
93,0
830
52,6
225
70,0
1325
84,2
1900
55,0
615
81,3
560
a) Vypočítejte charakteristiky obou znaků a pomocí korelačního koeficientu určete, zda
je mezi oběma proměnnými závislost.
b) Vyjádřete tuto závislost pomocí lineární regresní funkce a dále zkuste odhadnout
výši nájmu v bytě s rozlohou 90 m2.
2. V průzkumu názorových postojů studentů byly zjišťovány odpovědi na otázku „Jste pro
zavedení školného na vysokých školách?“ (znak X) s možnými odpověďmi: ano – nevím
– ne. Současně byla zjišťována politická orientace studentů (znak Y) s možnými
variantami levice – střed – pravice. Do průzkumu bylo zařazeno 280 studentů, výsledky
zobrazuje tabulka:
X\Y
LEVICE STŘED PRAVICE
ANO
11
20
28
NEVÍM
32
53
22
NE
43
52
19
a) Doplňte tabulku o marginální četnosti znaků X a Y. Z tabulky odečtěte, kolik studentů
odpovědělo „nevím“.
b) Změřte sílu závislosti postoje studentů k zavedení školného na vysokých školách na
jejich politické orientaci pomocí Cramerova kontingenčního koeficientu.
12
Download

Statistické metody_3.pdf