Populacija i uzorak
Sadržaj predavanja
• Šta je populacija, šta je uzorak a šta uzorkovanje?
• Statističko zaključivanje
• Klasifikacija uzoraka: sa i bez verovatnoće, sa i bez
zamenjivanja
• Uzoračke raspodele verovatnoća
– Uzoračka raspodela aritmetičkih sredina uzoraka,
Centralna granična teorema
– Uzoračka raspodela proporcija uzoraka
– Uzoračka raspodela varijansi uzoraka
Šta je populacija?
Populacija
•
skup svih istovrsnih
elemenata (jedinica
posmatranja: ljudi,
objekata, dogadjaja) koji
imaju neku zajedničku
karakteristiku od interesa
Ciljna/uzoračka populacija
• Ciljna populacija: skup
elemenata za koji želimo
da generalizujemo
zaključak.
• Uzoračka populacija:
populacija koja je
dostupna i koja
predstavlja ciljnu
populaciju (blisko koliko
je to moguće), i iz koje
potiče uzorak .
Šta je uzorak?
UZORAČKA POPULACIJA
UZORAK
Uzorak –
podskup osnovnog skupa
(izabran na neki način)
CILJNA POPULACIJA
Cilj i primena u statistici:
ispitivanje određene osobine i generalizacija zaključka na populaciju
Šta je uzorkovanje?
Uzorkovanje
• Proces odabira
reprezentativnog dela cele
populacije.
• Sastavni deo istraživačke
metodologije.
Element, jedinica posmatranja
• Osnovna jedinica o kojoj se
informacije sakupljaju.
Reprezentativnost
•
•
Reprezentativan uzorak
poseduje karakteristike slične
onima u populaciji.
Preduslovi reprezentativnosti:
1.
2.
•
Način izbora statističkih jedinica
u uzorak mora biti nezavisan od
vrednosti posmatranog obeležja.
Verovatnoća statističkih jedinica
da uđu u uzorak mora biti
unapred poznata.
Pristrasan uzorak – izabran na
takav način da su neke jedinice
iz uzoračke populacije imale
veću verovatnoću da uđu u
uzorak.
Tehnike uzorkovanja
• Sa verovatnoćom
(slučajni)
• Bez verovatnoće
(neslučajni)
Slučajni/ Neslučajni uzorak
Slučajni uzorak
Neslučajni uzorak
•
• Nije slučajna selekcija
jedinica.
• Nije poznata verovatnoća
jedinica posmatranja u
osnovnom skupu da budu
izabrane za uzorak.
•
Slučajna selekcija
jedinica.
Svaka jedinica u
populaciji ima poznatu
(jednaku i nezavisnu)
verovatnoću (šansu) da
uđe u uzorak.
Prost slučajni uzorak
1.
2.
3.
4.
5.
Jedinice posmatranja imaju
podjednaku verovatnoću da
uđu u uzorak.
Uključuje definisanje populacije i
identifikaciju uzoračkog okvira.
Vremenski je zahtevno.
Moze biti i nemoguće dobiti
kompletnu listu uzoračke
populacije.
Izbor jedinica iz uzoračkog okvira
može se uraditi uz pomoć
kompjuterski generisanog
procesa odabiranja ili tablice
slučajnih brojeva.
• Uzorkovanje sa zamenom –
nakon što je element izabran,
zamenjuje se i slučajno se odabira
drugi element. Ovo može dovesti
do toga da isti element bude
izabran više puta.
• Češće se primenjuje uzorkovanje
bez zamene. Obezbeđuje da, na
svakom koraku, svaki element koji
je preostao u populaciji ima istu
verovatnoću da će biti izabran.
Zaključci o populaciji se mogu doneti...
...odabirom reprezentativnog uzorka iz populacije
Sistematski uzorak
•
•
•
•
•
•
Jedinice posmatranja se biraju sa liste
uzoračke populacije izborom svake K-te
jedinice.
K – korak izbora (uzorački interval),
zavisi od veličine liste I željene veličine
uzorka.
K = N / n, gde je N veličina uzoračke
populacije, a n veličina uzorka
Nakon što je prva jedinica odabrana
(slučajni početak) automatski se biraju
ostale.
Može dati korisne informacije ako kod
jedinica u uzoračkoj populaciji postoji
uređenost po intenzitetu posmatrane
karakteristike.
Nije pogodan ako postoje ciklične
varijacije posmatrane karakteristike.
Stratifikovani uzorak
• Primenjuje se kod
heterogenih populacija u
odnosu na neku varijablu
npr. starosna grupa, pol,
geografska lokacija
(stratifikujuća varijabla).
• Populacija se deli na
stratume iz kojih se bira
slučajni uzorak.
• Osigurava da je svaka
subpopulacija
odgovarajuće zastupljena
u uzorku.
Klaster uzorak
• podela populacije na
klastere (grupe)
• zatim se na slučajan način
biraju klasteri koji ulaze u
uzorak (tako da se na
slučajan način biraju
grupe - klasteri, a ne
individue)
• koristan kada je
populacija velika ili
geofraski široko
rasprostranjena
Uzorkovanje bez verovatnoće
Karakteristike uzorkovanja
• Elementi uzorka su odabrani
na bazi sopstvene procene
istraživača.
• Rezultati sprovođenja ovih
tehnika su pristrasni.
• Nedostaje objektivnost u
odabiru uzoraka.
• Uzorci nisu pouzdani.
• Ove tehnike su pogodne i
ekonomične za korišćenje.
Generalizacija zaključaka
• Valjanost generalizacije
zaključaka sa neslučajnih
uzoraka na osnovni skup
ostaje nepoznata.
Tipovi uzoraka bez verovatnoće
Prigodni uzorak
• Izbor lako dostupnih
jedinica posmatranja.
Kvota uzorak
Podela populacije na
kategorije, npr. po polu, i
neslučajan odabir ispitanika iz
tih kategorija prema unapred
utvrđenom broju (kvota).
Namerni uzorak
• Istraživač bira one jedinice
posmatranja za koje smatra
da reprezentuju osnovni
skup.
• Koristan za pilot studije.
Proces uzorkovanja
Definisati Populaciju
Odrediti uzorački okvir
Izabrati način uzorkovanja
Uzorci bez verovatnoće
Uzorci sa verovatnoćom
Odrediti veličinu uzorka
Pristupiti realizaciji
Parametri, statistike
tj. parametri populacije i uzoračke statistike
• Parametri populacije su nepoznati
i nepristupačni za merenje.
– Npr, prosečna visina muškaraca u
Srbiji (18+) je nepoznata i
nemerljiva
• Zbog toga računamo uzoračku
statistiku koja se odnosi na
parametar od interesa, i
donosimo zaključak.
1.
2.
Parametar – statistička mera
date varijable u populaciji
Uzoračka statistika – statistička
mera date varijable u uzorku
Statistička
mera
Parametri
populacije
Uzoračke
statistike
Aritmetička
sredina

x
Varijansa
2
sd2
Standardna
devijacija

sd
Proporcija

p
Uzoračke raspodele verovatnoća
• Uzoračka raspodela verovatnoća je
raspodela verovatnoća neke statistike.
• Uzoračka raspodela verovatnoća dobija
se na osnovu raspodele svih mogućih
vrednosti iste statistike kreiranih u svim
mogućim slučajnim uzorcima iste veličine
koji su izabrani na isti način iz iste
populacije.
Uzoračke raspodele verovatnoća
Uzoračka
raspodela
uzoračkih
aritmetičkih
sredina
Uzoračka
raspodela
uzoračkih
proporcija
Uzoračka
raspodela
uzoračkih
varijansi
Uzoračka raspodela aritmetičkih sredina, proporcija, varijansi svih uzoraka iste
veličine izabranih na isti način iz iste populacije.
Kreiranje uzoračke raspodele
• Podaci o populaciji …
• Veličina populacije N=4
• Slučajna promenljiva, X,
je starost osobe
• Vrednosti X su:
18, 20, 22, 24 (godina)
A
B
C
D
Kreiranje uzoračke raspodele
(nastavak)
Parametri, zbirne mere, populacione raspodele:
1
μ  i X i
N
18  20  22  24

 21
4
σ
1
2
(
X

μ)
 2.236

i
i
N
Kreiranje uzoračke raspodele
(nastavak)
Formirajmo sve moguće uzorke veličine n = 2
va
1
Ops
2
18
ga
Opservacija
20
22
24
18 18,18 18,20 18,22 18,24
20 20,18 20,20 20,22 20,24
22 22,18 22,20 22,22 22,24
24 24,18 24,20 24,22 24,24
16 mogućih uzoraka
(uzorkovanje sa
vraćanjem)
16 uzoračkih
aritmetičkih
sredina
1ca 2ga Opservacija
Ops 18 20 22 24
18 18 19 20 21
20 19 20 21 22
22 20 21 22 23
24 21 22 23 24
Kreiranje uzoračke raspodele
(nastavak)
Uzoračka raspodela svih uzoračkih aritmetičkih sredina
16 uzoračkih aritmetičkih sredina
Raspodela uzoračkih
aritmetičkih sredina
1va 2ga Opservacija
Ops 18 20 22 24
18 18 19 20 21
20 19 20 21 22
_
P(X)
.3
.2
22 20 21 22 23
.1
24 21 22 23 24
0
18 19
20 21 22 23
24
_
X
Kreiranje uzoračke raspodele
(nastavak)
Zbirne mere uzoračke raspodele:
1
18  19  21    24
E(X)   Xi 
 21  μ
N
16
σX 

1
2
(
X

μ)
i

N
(18 - 21) 2  (19 - 21) 2    (24 - 21) 2
 1.58
16
Poređenje populacije sa uzoračkom
raspodelom
μ
Uzoračka raspodela aritmetičkih sredina; n
Populacija
N=4
2
σ
μX 
_
p(X)
.3
p(X)
.3
.2
.2
.1
.1
0
18
A
20
B
C
=
22
D
24
X
σX 
0
18 19
20 21 22 23
24
_
X
•
x  
x 

n
s X = SE
21 = 21
2, 236 2, 236 2, 236
1, 58 =
=
=
=1, 58
1, 41
n
2
• STANDARDNA GREŠKA (ARITMETIČKE SREDINE)
(standardna devijacija uzoračke raspodele svih
mogućih aritmetičkih sredina kreiranih u uzorcima
koji su na isti način i iste veličine slučajno izabrani
iz iste populacije)
Uopštavamo
• Ako je
populacija
normalno
raspodeljena
Normalna
populaciona
raspodela
μ
x
Normalna uzoračka
raspodela sa istom
aritmetičkom sredinom
μx
x
Uopštavamo – centralna granična
teorema
• Ako populacija
nije normalno
raspodeljena a
uzorak je dovoljne
veličine - n ≥ 30
(centralna
granična teorema)
Populaciona
raspodela
μ
x
Uzoračka raspodela
(postaje normalna sa porastom n)
Veća
veličina
uzorka
Manja veličina
uzorka
μx
x
Centralna granična teorema
Kada je
veličina
uzorka
dovoljno
velika…
n↑
Uzoračka
raspodela
postaje
normalna bez
obzira kakva je
raspodela
populacije.
x
Uopštavamo - Studentova t-raspodela
• Ako populaciona
varijansa nije poznata u
prethodno navedenim
situacijama
x-m
t=
sd / n
N
(
1
sd =
xi - x
å
n -1 i=1
2
)
2
• Mali uzorci a populacija je
normalno raspodeljena (ili
bar simetrično)
• William Gosset, 1908 g.,
pseudonim Student
• tipična kada je populaciona
varijansa nepoznata pa se
ocenjuje na osnovu
uzoračkih podataka
Studentova t - raspodela
Normalna raspodela
t raspodela, n=2, df=1
t raspodela, n=10, df=9
t raspodela, n=30, df=29
Jedan uzorak ili mnogi?
• Da li uvek imamo sve moguće uzorke iste veličine
izabrane na isti način iz iste populacije? – NE, imamo po
pravilu samo JEDAN uzorak i jasno nam je da će
izračunata statistika verovatno biti različita da smo
izabrali neki drugi uzorak.
• U tom jednom uzorku uvek smo sigurni da je SE
(standardna greška) mera odstupanja/variranja
aritmetičke sredine tog uzorka od aritmetičke sredine
populacije.
• Dakle, ne trebaju nam svi mogući uzorci, dovoljan je
samo jedan da bi donosili zaključke o populaciji iz koje
taj uzorak potiče.
Uzoračka raspodela proporcija
•
p
je populaciona
proporcija a p je uzoračka
proporcija
• Raspodela svih mogućih
uzoračkih proporcija ima
binomnu raspodelu koja
može da se aproksimira
normalnom (CGT) kada je:
np(1 – p) > 9
(ili: np≥5 i n(1-p)≥5)
x
p=
n
mp = p
s =
2
p
p (1- p )
n
Uzoračka raspodela varijansi
• Uzoračka varijansa je:
• Uzoračka raspodela varijansi (s2
ima aritmetičku sredinu σ2
• Ako je populaciona distribucija
normalna tada je
• Ako je populaciona distribucija
normalna tada promenljiva
ima 2 distribuciju sa n – 1
stepena slobode
n
1
2
s2 
(x

x
)
 i
n  1 i1
ms = s
2
2
4
2
s
s s22 =
n -1
(n - 1)s2
σ2
2 (hi-kvadrat) raspodela
• uzoračka raspodela varijanse
n=9
n=29
p(2)
n=99
0
50
2
100
150
Inferencijalna statistika – statistika
zaključivanja
• Zaključujemo o parametrima
populacije (na osnovu uzoračkih
statistika, a sada znamo kako se one
raspodeljuju i koliko jedan uzorak
odstupa od populacije iz koje
potiče).
• Kakav tip zaključaka donosimo?
Download

Populacija i uzorak