Poznámky k tématu „Korelace a jednoduchá lineární regrese“
(Téma není ve skriptech)
Mějme data ( x1 , y1 ),..., ( x n , y n ), která jsou náhodným výběrem z nějaké populace. Data tedy
pokládáme za nezávislé realizace dvojice náhodných veličin ( X , Y ). Průměry a směrodatné
odchylky dat jsou x, y a s x , s y .
Kovariance mezi oběma veličinami v souboru je definována jako
1 n
cov( x, y ) =
∑ ( xi − x ) ⋅ ( yi − y ).
n − 1 i =1
Rozptyl (variance) je kovariance veličiny se sebou samou. Kovariance závisí na jednotkách,
v jakých jsou data vyjádřena.
Korelační koeficient (též Pearsonův korelační koeficient) dostaneme z kovariance
„znormováním“:
cov( x, y )
r=
.
sx ⋅ s y
Korelační koeficient je bezrozměrný a nabývá hodnot od –1 do +1. (Není definovaný, pokud
některá ze směrodatných odchylek ve jmenovateli je nulová, tj. když jedna z veličin je v souboru
konstantní.) Hodnot –1 nebo +1 korelační koeficient nabývá pouze v případě, že všechna data (při
zobrazení pomocí xy-bodového grafu) leží přesně na přímce. (Znaménko korelačního koeficientu
pak závisí na tom, jestli přímka má kladný, nebo záporný sklon.)
Korelační koeficient je mírou koncentrace dat kolem přímky (konkrétně kolem regresní
přímky stanovené metodou nejmenších čtverců – viz dále) nebo jinými slovy mírou (lineární)
závislosti mezi veličinami.
Příklady: Data (n=300) s korelačním koeficientem –0,99; -0,9; -0,7; -0,5; -0,25; 0; +0,25;
+0,5; +0,7; +0,9; +0,99.
40
10
30
8
6
5
4
6
20
10
-20
3
2
2
0
0
-40
-15
-10 0
20
-10
-5
40
-2 0
5
10
-10
-5
1
0
5
0
10
-10
-5
-1 0
-2
-6
-3
-4
-10
-40
-4
-6
-12
3
4
3
2
3
2
2
1
1
-2
-5
4
1
0
0
-6
-1 0
2
-4
-2
4
-1
0
2
0
4
-6
-4
-2
-1 0
-2
-2
2
4
-2
-3
-3
-3
-4
-4
-4
5
5
-2
-8
-30
-4
2
0
15
-4
-20
-6
4
4
10
6
40
8
4
30
4
3
6
20
4
2
2
2
1
10
0
0
-10
-5
-1 0
-2
-3
0
5
-10
-5
0
-2
-4
-4
-5
-15
5
-10
-5
-2
10
5
0
10
-40
-20
-4
-10
-6
-20
-8
-10
-6
0
-12
-30
-40
0
20
40
V Excelu počítají Pearsonův korelační koeficient funkce CORREL a PEARSON a také nástroj
Analýza dat.
Korelační koeficient r vypočtený z empirických dat je aproximací (bodovým odhadem)
neznámého korelačního koeficientu ρ mezi týmiž veličinami v populaci. Často se testuje nulová
hypotéza H 0 : ρ = 0, tj. hypotéza, že studované veličiny jsou tzv. nekorelované. (Ne zcela přesně se
říká, že jsou nezávislé. Nezávislé veličiny jsou vždy také nekorelované, ale obráceně to platit
nemusí. „Jemnostmi“ jako je rozdíl mezi nezávislostí a nekorelovaností se ovšem nebudeme
podrobně zabývat.) Podíváme se na oboustranný test – alternativní hypotéza je H A : ρ ≠ 0 a nulová
hypotéza se zamítá při velké kladné i záporné korelaci r. (Existují také jednostranné testy.) Testová
statistika má tvar
r
T=
⋅ n − 2.
1− r2
Pokud studované veličiny mají normální rozdělení, má testová statistika T za předpokladu platnosti
nulové hypotézy Studentovo rozdělení t s n − 2 stupni volnosti. Nulová hypotéza se proto na
hladině významnosti α zamítá (tj. korelační koeficient r se prohlásí za statisticky významně
odlišný od 0), pokud absolutní hodnota | T | překročí kritickou hodnotu – (1 − α / 2) -kvantil
rozdělení t n − 2 . (Pro α = 0,05 se jedná o 97,5% kvantil, který se pro velké n blíží 1,96.)
Příklad - hladiny mléčné kyseliny (v mg na 100 ml) v krvi 6 matek a dětí:
matka
dítě
40
64
34
15
57
45
33
46
23
12
56
40
Vychází r = 0,935 a odtud T = 5,27. Kritická hodnota na hladině α = 0,05 je 0,975-kvantil
rozdělení t 4 , tj. 2,78 (vypočte se např. pomocí excelovské funkce TINV). Můžeme případně (např.
v Excelu pomocí funkce TDIST) vypočítat p-hodnotu testu (dosaženou hladinu významnosti) –
vychází p = 0,006. Korelace mezi hladinou mléčné kyseliny u matky a dítěte je tedy na hladině 5 %
(i 1 %) statisticky významně odlišná od nuly (stručněji: korelace je statisticky významná).
Ve statistických tabulkách se dají najít také kritické hodnoty přímo pro r při různém počtu
dat n (r se při použití takových tabulek nemusí přepočítávat na T). Tak pro n = 6 se uvádí pro r
kritická hodnota 0,811. (Korelace 0,935 v našem příkladu tuto hranici překračuje.) Pro větší n je
kritická hodnota daleko nižší, např. pro n = 50 je korelace statisticky významná na hladině 5 % již
při |r| > 0,279.
Testování, jestli korelace není nulová, není zdaleka jediná úloha o korelačních
koeficientech, kterou umí statistika řešit – dá se např. testovat nulová hypotéza, že korelace ρ je
rovna nějaké nenulové konstantě nebo lze pro ρ sestrojit konfidenční interval. Těmito dalšími
úlohami se však zabývat nebudeme.
Pearsonův korelační koeficient někdy není ideálním nástrojem pro vyšetřování síly
závislosti mezi veličinami. Důvody mohou být následující:
− Studované veličiny nemají normální rozdělení.
− V datech jsou odlehlé hodnoty (přidání či odstranění jediného odlehlého pozorování může r
naprosto změnit).
− Mezi studovanými veličinami lze předpokládat vztah, který je sice monotónní (čím větší x, tím
většinou větší y; popř. naopak), ale ne lineární („datový oblak“ je koncentrovaný kolem křivky,
nikoli přímky).
− Data jsou svou povahou ordinální. (Pearsonův korelační koeficient pak nemá dobrý smysl.)
V takových situacích se hodí použít Spearmanův (pořadový) korelační koeficient (říká se také
Spearmanův koeficient korelace pořadí). Ten se vypočte tak, že se původní data (zvlášť x a
zvlášť y) nahradí pořadím podle velikosti (při shodě – dvou či více shodných datech – se pořadí
zprůměruje) a z takto získaných dat (pořadí) se vypočte Pearsonův korelační koeficient.
V předchozím příkladu by to vypadalo takto:
pořadí mezi matkami
matka
40
64
34
15
57
45
pořadí mezi dětmi
dítě
3
6
2
1
5
4
33
46
23
12
56
40
3
5
2
1
6
4
Spearmanův korelační koeficient rS mezi hladinou mléčné kyseliny matky a dítěte dostaneme jako
„obyčejný“ (Pearsonův) korelační koeficient mezi 2. a 4. sloupcem tabulky. Vychází rS = 0,943.
Hypotéza, že korelace pořadí je (v populaci) nulová, se testuje jiným (složitějším) způsobem než
analogická hypotéza o Pearsonově korelačním koeficientu. Pokud nemáme k dispozici program,
který vypočte p-hodnotu, dají se pro malé n použít tabulky kritických hodnot pro rS . Pro náš případ
n = 6 uvádějí tabulky kritickou hodnotu pro rS na hladině 5 % rovnou 0,829 (místo 0,811 pro r). Pro
větší n – někdy se doporučuje už od n = 10, určitě pro n ≥ 30 – se ale kritické hodnoty pro r a rS liší
velmi málo (např. při n = 30 jen o cca 0,001), takže test pro rS lze, aniž bychom se dopustili velké
chyby, provádět úplně stejně jako test pro r.
Excel speciální nástroj na výpočet rS nemá. Spočítat pořadí podle velikosti (v našem
příkladu 2. a 4. sloupec tabulky) se dá pomocí funkce RANK alespoň v případě, že ve sloupci dat
nejsou žádné dvě hodnoty stejné. (Pokud by se např. 3. a 4. nejmenší číslo shodovalo, potřebujeme
oběma číslům přiřadit pořadí 3,5, ale funkce RANK určí pro obě čísla pořadí 3. Eventuální shody je
třeba vyhledat a pořadí vypočtené funkcí RANK upravit.) Dále se na vypočtené pořadí použije
funkce pro výpočet Pearsonova korelačního koeficientu.
Korelační koeficient vyjadřuje, jak těsný je (lineární) vztah mezi dvěma veličinami, ale
neříká, jaká je konkrétní podoba takového vztahu, např. jaká hodnota y zhruba přísluší dané hodnotě
x. Takovými úlohami se ve statistice zabývá regresní analýza. Všimneme si jen nejjednodušší úlohy
regresní analýzy, tzv. jednoduché lineární regrese. Ta se týká lineární závislosti jedné proměnné –
tzv. závisle proměnné (též vysvětlované proměnné, regresandu aj.) – na jedné nezávisle proměnné
(též vysvětlující proměnné, regresoru atp.).
V úloze jednoduché lineární regrese chceme data ( x1 , y1 ),..., ( x n , y n ) „proložit“ regresní
přímkou tvaru y = a + b ⋅ x, tedy najít „správné“ hodnoty koeficientů a, b takové přímky.
Koeficient a se nazývá úsek na ose y, popř. intercept, koeficient b je sklon (popř. směrnice) regresní
přímky. (Anglicky se těmto koeficientům říká intercept a slope.)
Data, s jakými se v medicíně setkáváme, zpravidla umožňují vyjádřit závislost y na x
pomocí přímky pouze přibližně. Pracujeme proto obvykle s regresní rovnicí y i = a + b ⋅ xi + ei , kde
kromě dat a koeficientů regresní přímky figuruje také chyba ei . Chybu ei lze zapsat také jako
ei = y i − (a + b ⋅ xi ). Odtud vidíme, že vyjadřuje, o kolik se regresní přímka „nestrefila“ do bodu
( xi , y i ) – o kolik výše nebo níže regresní přímka probíhá. (Vzdálenost mezi bodem a přímkou se
v tomto případě měří ve svislém směru – ne tak, jak jsme zvyklí např. ze středoškolské geometrie,
tj. ve směru kolmice spuštěné z bodu na přímku.) O chybách e1 , e2 , K , en se obvykle předpokládá,
že jsou hodnotami (realizacemi) nezávislých náhodných veličin, které mají vesměs normální
rozdělení s nulovou střední hodnotou a neznámým rozptylem σ 2 .
Co jsou „správné“ hodnoty koeficientů a, b, bychom mohli definovat nejrůznějšími
způsoby, a každé takové definici by odpovídala nějaká přímka proložená daty. Nejběžnější způsob
prokládání přímky daty ovšem představuje metoda nejmenších čtverců: Každá volba čísel a, b
určuje (pro konkrétní data ( x1 , y1 ),..., ( x n , y n ) ) n-tici chyb e1 , e2 , K , en , a té odpovídá součet
n
čtverců chyb
∑e
i =1
2
i
. Metoda nejmenších čtverců volí ze všech možných hodnot koeficientů a, b
takové, které dávají nejmenší možný součet čtverců chyb1.
To, že používáme metodu nejmenších čtverců, naštěstí neznamená, že bychom skutečně
museli složitě řešit optimalizační úlohu minimalizace součtu čtverců chyb. Z kritéria nejmenších
čtverců se dají matematicky odvodit jednoduché vzorce, do kterých stačí jenom dosadit.
Použijeme-li stejné značení průměrů, směrodatných odchylek a korelace vypočtených z dat
( x1 , y1 ),..., ( x n , y n ) jako v předcházejícím textu, dá se sklon regresní přímky stanovené metodou
nejmenších čtverců vyjádřit vzorcem
sy
b =r⋅ .
sx
Vzorec pro a si pak lze pamatovat podle toho, že regresní přímka prochází bodem ( x , y ) :
a = y − b ⋅ x.
V Excelu tyto vzorce realizují např. funkce SLOPE a INTERCEPT nebo nástroj Analýza dat, popř.
lze rovnici regresní přímky zobrazit jako součást xy-bodového grafu.
Pro dříve uvedená data (hladiny mléčné kyseliny v krvi matek a dětí), máme (x je hladina
u matky, y u dítěte) x = 42,5, y = 35,0, s x = 17,4, s y = 15,9 a r = 0,935, takže dostáváme
15,9
= 0,854, a = 35,0 − 0,854 ⋅ 42,5 = −1,31.
17,4
Graf z Excelu s daty a regresní přímkou může vypadat následovně:
b = 0,935 ⋅
Koncentrace kyseliny mléčné v krvi matky a dítěte
60
y = 0,8543x - 1,3082
50
dítě
40
30
20
10
0
0
10
20
30
40
50
60
70
matka
Často se testuje hypotéza, že sklon regresní přímky v populaci (mohli bychom ho značit
např. B; koeficient b je jeho bodovým odhadem) je nulový (tj. že závisle proměnná y na x fakticky
nezávisí). Testová statistika tohoto testu se v literatuře zapisuje v různém tvaru, ale důležité je, že
koeficient b je statisticky významně odlišný od nuly právě tehdy, když je statisticky významně od
1
Jen pro zajímavost: Existují i jiné možnosti než metoda nejmenších čtverců. V některých aplikacích se např. používá
regresní přímka stanovená tak, aby byl nejmenší možný medián absolutních hodnot chyb. Výhodou takové regresní
přímky – obecně odlišné od přímky sestrojené metodou nejmenších čtverců – je to, že na její průběh nemají velký vliv
odlehlá pozorování. Výpočet koeficientů takové regresní přímky je dosti náročný, ale na rozdíl od doby před několika
desítkami let se na současných počítačích prakticky provést dá.
nuly odlišný (na téže hladině významnosti) korelační koeficient r. Stačí tedy testovat významnost r.
Případně se dá použít také opačný „trik“ – testovat korelaci pomocí regrese. Např. nástroj Analýza
dat v Excelu, zvolíme-li korelaci, jen spočítá korelační koeficient, ale neprovede žádný test.
Zvolíme-li ovšem místo korelace regresi, dostaneme i test hypotézy o nulovém sklonu regresní
přímky, jehož výsledek (kde se najde: viz dokument o výpočtech) se vztahuje i na korelaci.
V části tohoto textu věnované korelačnímu koeficientu bylo bez hlubšího zdůvodnění
řečeno, že korelační koeficient je mírou koncentrace dat kolem (regresní) přímky. Toto tvrzení se dá
v kontextu lineární regrese zdůvodnit následujícím způsobem. Představme si, že máme data
( x1 , y1 ),..., ( x n , y n ), pro která se hodí model jednoduché lineární regrese. Když potřebujeme
„tipnout“ hodnotu y u nějakého objektu, o kterém nic nevíme (speciálně neznáme hodnotu
veličiny x), nezbude nám nic lepšího než použít průměr y. Čím větší je rozptyl s y2 , tím „mlhavější“
informaci o konkrétní hodnotě y u daného objektu průměr y podává. Jinými slovy, nemáme-li
žádnou pomocnou informaci, která by o hodnotě y něco napověděla, je s y2 mírou nejistoty o y.
Kdybychom u nového objektu znali x a opět měli hodnotu y „tipovat“, mohli bychom jako odhad
použít a + b ⋅ x. Tentokrát by mírou nejistoty o y už nebyl celkový rozptyl s y2 , ale rozptyl s e2 chyb
(neboli regresních reziduí) e1 , e2 , K , en , tzv. reziduální rozptyl. Souvislost mezi koncentrací dat
kolem regresní přímky a reziduálním rozptylem je evidentní. Co to má společného s korelací? Mezi
celkovým rozptylem, reziduálním rozptylem a korelačním koeficientem platí vztah
s e2
= 1− r2,
2
sy
což se také dá zapsat jako
s y2 − s e2
= r 2.
2
sy
Čitateli zlomku na levé straně se říká rozptyl vysvětlený variabilitou x nebo stručněji vysvětlený
rozptyl. Vysvětlený rozptyl udává, o kolik se zmenší nejistota o y tím, že známe x. Druhá mocnina
korelačního koeficientu r 2 , tzv. koeficient determinace2, tak říká, jak velká část celkového rozptylu
závisle proměnné y se dá vysvětlit (resp. odstranit) na základě znalosti hodnoty nezávisle
proměnné x. Lze to vyjádřit graficky (dole je uvedeno, jakou část celkového rozptylu jednotlivé
složky představují3):
celkový rozptyl
vysvětlený rozptyl
reziduální rozptyl
1− r2
r2
1
2
V české verzi Excelu – je to jen jedna z mnohých překladatelských perel – se místo „koeficient determinace“ říká
„spolehlivost“.
3
Kdo se nebojí vzorců, může si všimnout, že poměr délek dvou částí úsečky má mnoho společného s testovou
statistikou T uvedenou na 2. straně tohoto textu.
Download

. ), cov( ss yx r ⋅ =