4.1
Výběrové statistické metody
Nemusíme jíst celého vola jenom proto,
abychom zjistili, že má tvrdé maso.
Samuel Johnson
Kvantitativní metody B
Co se dozvíte
Výběr vzorku, náhodný výběr.
Odhady parametrů, bodový a intervalový odhad.
Intervalový odhad střední hodnoty, Studentovo
rozdělení.
Základní pojmy z testování hypotéz – hypotéza, testová
statistika, významnost testu.
Test hypotéz o střední hodnotě a podílu.
Kvantitativní metody B
2
Základní a výběrový soubor
výběrový soubor
(vzorek)
obsahuje vybrané statistické jednotky
parametry vzorku lze spočítat
vý
bě
r
základní soubor
základní soubor
(populace)
obsahuje všechny možné statistické jednotky
parametry populace neznáme, ale chceme určit
Kvantitativní metody B
výběrový soubor
3
Parametry výběru jsou náhodné veličiny
populace o velikosti N
n = Ck(N) různých k - prvkových výběrů
x1 = 14820
rozdělení výběrového
průměru
µ = 14500
x2 = 13970
0,0007
0,0006
0,0005
0,0004
…
0,0003
0,0002
0,0001
xn = 15220
Kvantitativní metody B
0
12000
12500
13000
13500
14000
14500
15000
15500
16000
16500
4
17000
Výběrové metody (metody šetření)
odhady parametrů - na základě znalosti výběrového souboru se
provádí co nejlepší odhad parametrů znaků základního souboru
bodový odhad - neznámý parametr se odhaduje jedinou
nejpravděpodobnější hodnotou
intervalový odhad – neznámý parametr se odhaduje pomocí
intervalu hodnot, které jsou s danou pravděpodobností
možnými hodnotami parametru
testování hypotéz – na základě znalosti výběrového souboru se
potvrzuje nebo vyvrací dané tvrzení o parametrech znaků
základního souboru
Kvantitativní metody B
5
Vlastnosti dobrého odhadu
est Q = un
nezkreslenost (nevychýlenost, nestrannost) - střední
hodnota nezkresleného odhadu se rovná
odhadovanému parametru
E (un ) = Q
konsistence - s rostoucím počtem prvků výběrového
souboru se konsistentní odhad zpřesňuje (jeho variabilita
se snižuje)
lim σ (un ) = 0
n →∞
vydatnost – vydatný odhad má nejmenší variabilitu ze
všech možných
Kvantitativní metody B
6
Odhad střední hodnoty µ
est µ = x
parametry výběrového průměru:
E(x ) = µx = µ
SE ( x ) = σ x =
σ
SE – standard error
střední chyba odhadu
n
centrální limitní věta – rozdělení průměru vzájemně
nezávislých náhodných veličin s konečnou střední
hodnotou µ a konečným rozptylem σ2 konverguje k
normálnímu rozdělení N(µ ; σ2)
Kvantitativní metody B
7
Intervalový odhad střední hodnoty
p - interval spolehlivosti – konfidenční interval
p=1–α
spolehlivost odhadu (obvykle 95%)
hladina významnosti = riziko chyby
α
dolní
kritická hodnota
horní
kritická hodnota
p=1-α
α/2
α/2
95%
2,5%
p/2
x0,025 x α/2
Kvantitativní metody B
2,5%
p/2
x0,5
x 1-α/2 x
0,975
8
Interval spolehlivosti střední hodnoty
α/2 – kvantil
rozdělení
výběrového průměru
1−α/2 – kvantil
rozdělení
výběrového průměru
jak určit střední chybu odhadu, neznáme-li σ ?
σ
s
SE ( x ) =
≈
n
n
Kvantitativní metody B
normální rozdělení je třeba nahradit
Studentovým rozdělením t
9
Interval spolehlivosti a rozdělení t
t(ν) – Studentovo rozdělení s ν = n – 1 stupni volnosti
0,4
z
0,35
ν = 20
0,3
vlastnosti t – rozdělení
ν=5
0,25
ν=2
• t1-α/2 > z1-α/2
0,2
interval je širší
0,15
• t1-α/2 (ν) z1-α/2 pro n>30
0,1
0,05
0
-3,8
-2,8
-1,8
-0,8
0,2
1,2
2,2
3,2
-0,05
Kvantitativní metody B
10
Příklad
Prodejna chce zjistit průměrný počet zákazníků v páteční odpolední
směně. Po dobu 2 měsíců tedy sleduje počet zákazníků, kteří prošli
pokladnami prodejny, s tímto výsledkem:
527
418
495
554
392
548
449
511
Určete 95% intervalový odhad pro průměrný počet zákazníků
obsloužených v jedné směně.
486, 75 − 2,365 ⋅
t0,975(7)
60,57
60,57
< µ < 486, 75 + 2,365 ⋅
8
8
436,1 < µ < 537, 4
Průměrný počet zákazníků obsloužených v páteční odpolední
směně se tedy bude dlouhodobě pohybovat mezi 437 a 537.
Kvantitativní metody B
11
Jednostranné intervaly
pravostranný interval:
levostranný interval:
Kvantitativní metody B
12
Interval spolehlivosti pro podíl π
nejlepším bodovým odhadem podílu π je relativní četnost ve výběru p
est π = p
kdy lze tento vzorec použít ?
n ⋅ p ⋅ (1 − p ) > 9
Kvantitativní metody B
rozptyl binomického rozdělení Bi(n;p) > 9
13
Co je to statistická hypotéza
hypotéza:
např.
tvrzení o vlastnostech základního souboru (obvykle
o hodnotě některého parametru), které se snažíme
na základě výběru potvrdit nebo vyvrátit
průměrný dosažený věk mužů v ČR je 67 let
Neymann – Pearsonova metoda - výběr ze dvou hypotéz:
nulová hypotéza H0
rovnovážný stav – rovnost
µ = 67
alternativní hypotéza H1
nerovnost
oboustranná
jednostranná
Kvantitativní metody B
µ ≠ 67
µ > 67
14
Princip testování - chyby
pokud se nepodaří nalézt hodnověrný důvod pro zamítnutí nulové
hypotézy H0 ve prospěch alternativy H1, pak přijímáme
(nezamítáme) nulovou hypotézu H0
známý systém presumpce neviny
chyby
při
rozhodování
skutečnost
naše rozhodnutí
Kvantitativní metody B
platí H 0
platí H 1
zvolíme H 0
zvolíme H1
správné
rozhodnutí
pravděpodobnost 1-α
chyba
I . druhu
pravděpodobnost α
hladina významnosti
chyba
I I . druhu
pravděpodobnost β
správné
rozhodnutí
pravděpodobnost 1-β
síla testu
15
Test hypotézy o střední hodnotě
dvojice testových hypotéz:
H0: µ = µ0
H1: µ ≠ µ0
vhodná testová statistika:
Kritická
hodnota
- z1-αα /2
při platnosti H0 má tato
statistika Studentovo
rozdělení t(n-1)
Kvantitativní metody B
Kritický
obor C
α /2
Kritická
hodnota
z1-αα /2
Oblast
přijetí A
1 -α
Kritický
obor C
α /2
16
Test o střední hodnotě - jednostranný
pravostranný test:
H0: µ = µ0
H1: µ > µ0
Kritická
hodnota
z1-αα
Oblast
přijetí A
Kritický
obor C
1-α
α
0.05
Kvantitativní metody B
jak vypadá levostranný test ?
17
Příklad
Platy v počítačové firmě o 14 zaměstnancích vykazují střední
hodnotu 31 500 Kč a směrodatnou odchylku 620 Kč.
Lze na základě této skutečnosti potvrdit hypotézu, že průměrné
platy v počítačových firmách jsou vyšší než 30 000 Kč?
test střední hodnoty:
H0: µ = µ0
H1: µ > µ0
x − µ0
31500 − 30000
t=
n=
14 = 8,72
s
620
kritická hodnota:
Kvantitativní metody B
t0,95(13) = 1,771
18
Příklad - pokračování
rozvaha (diskuse) testu:
t > t0,95(13) hodnota leží v kritickém oboru
přijmeme alternativní hypotézu
Přijímáme hypotézu, že průměrný plat v počítačových firmách je
vyšší než 30 000 Kč.
Kvantily Studentova rozdělení a MS Excel:
t1-α/2(ν)
TINV(α ; ν)
v našem příkladu:
TINV(0,1;13) = 1,771
Kvantitativní metody B
19
Co Vás čeká příště
Měření závislosti statistických dat
o
o
o
o
o
Asociace a korelace, míry závislosti.
Modelování statistické závislosti.
Regresní přímka, metoda nejmenších čtverců.
Vybrané nelineární závislosti.
Měření kvality modelu.
Kvantitativní metody B
20
Download

null