UVOD
1
Statistika
• Statistika
St ti tik jje nauka
k kkoja
j se bbavii prikupljanjem,
ik lj j
sređivanjem,
đi j
prezentacijom,analizom i interpretacijom podataka.
• Statistika
St ti tik jje skup
k metoda
t d kkoje
j ddoprinose
i
dda se ddođe
đ do
d
verodostojnih zaključaka i odluka u uslovima neizvesnosti.
• Kako se statistika oslanja na statističku teoriju to je ujedno i
metod i naučna disciplina.
• Predmet statističkog istraživanja su masovne pojave koje
su po svojoj prirodi promenljive.
2
• Prikupljanje i analiza podataka je važna u
različitim p
profesijama,
j
kao npr.
p ekonomiji,
j
biznisu, finansijama, inžinjerstvu, biologiji,
medicini poljoprivredi.
• Statističke metode se primenjuju u različitim
oblastima informatike “data
data mining”
mining ,
“knowledge discovery”,neuralnim
mrežama, fazi logici i sl.
3
Pod statističarem se često misli na osobu koja
manipuliše brojevima da bi nešto dokazala.
dokazala Pod
statistikom se, međutim ne podrazumeva metod
kojim neko može da dokaže sve.
sve Zadatak statističara
je da ispita ispunjenje pretpostavki određenih
statističkih metoda da bi se sprečila pogrešna
interpretacija i zaključivanje van okvira podataka.
4
5
6
7
Garbage in Garbage Out (GIGO)
8
KRATAK ISTORIJAT STATISTIKE
9
POPISI
3800 PNE Vavilon
V il
-održavan
ž
svake šeste
š
ili sedme godine da bi se prebrojali
magarci, volovi, buter, mleko, med, vuna...
2500 PNE Egipat
- prebrojavanje radne snage koja je na raspolaganju
za gradnju
d j piramida
i
id
1491 PNE Izrael
-prebrojavanje stanovnika za vojne potrebe i za prokupljanje
poreza
550 PNE Kina
-uveo Konfučoje da bi se utvrdile stanje poljoprivrede,
-industrije, trgovine
- Nova Francuska (Kanada)
1665-66
166
66
1719 Pruska
-Prvi evropski sistematski izveden popis
1790 SAD
-Prvi popis u SAD
1800
1857
Engleska, Francuska
Austrija
1866
Srbija
10
Prvii putt rečč statistika
P
t ti tik se pojavljuje
j lj j u prvojj polovini
l i i
XVIII veka, u radovima Gotfrida Ačenvala,
profesora univerziteta u Getingenu,
Getingenu zbog čega se
smatra “ocem statistike”.
Statistika se odnosila na skup
p numeričkih
podataka o stanju posmatrane pojave. Otuda se
kao poreklo reči statistika navodi latinska reč
status – stanje, kao i status = država.
Osnovni zadatak prvih statističkih ispitivanja bilo je
prikupljanje
podataka
o
brojnom
stanju
stanovništva, vojske, poreskih obveznika, imovine
za potrebe države.
11
Krajem
j
XVII veka p
počelo jje matematičko modeliranje
j
igara na sreću čime je udaren temelj verovatnoće i
statistike. Važna imena za statističku teoriju su Pascal,
Ferma Bernoulli,
Ferma,
Bernoulli Moivre,
Moivre Laplas,
Laplas Gauss.
Gauss
12
U 19. i 20. veku F. Galton i K.Pearson su doprineli
razvoju teorije o nasleđivanju.
Gosset i Fisher su početkom 20. veka postavili teorijske
osnove primene statistike u istraživačkom radu
radu.
y
, E. Pearson su tridesetih g
godina doprineli
p
J.Neyman,
razvoju statističkog zaključivanja.
13
Blaise Pascal (1623 - 1662)
Treatise on the Arithmetical Triangle
14
Jacob (Jacques) Bernoulli
1654 - 1705
Švajcarsko matematičar koji je prvi uveo termin integral.
15
Siméon Denis Poisson
1781 - 1840
Franculski matematičar poznat po radovima o određenom
integralu i Furijeovim redovima
16
Normalnu raspodelu je formulisao Abraham de Moivre (1667-1754)
1773. godine
De Moivre je doprineo razvoju analitičke geometrije i teorije verovatnoće.
17
Na značaj normalne raspodele u teoriji verovatnoće su
k
kasnije
ij ukazali
k
li matematičari
ič i
Pierre de Laplace (1749–1827)
Carl Friedrich Gauss (1777
(1777–1855)
1855).
18
Gaus je doprineo razvoju različitih oblasti matematike
( teorija brojeva,matematička analiza, diferencijalna
geometrija) fizike ( magnetizam
geometrija),
magnetizam, optika)
optika), geodezije i
astronomije.
Gaus je pisao o karakteristikama i primenama normalne
raspodele, tako da se on smatra ocem normalne raspodele.
Normalna raspodela se naziva Gausova raspodela.
19
Sir Francis Galton (1822
(1822–1911),
1911),
Antropolog, geograf, genetičar, psihometričar, statističar.
Uveo koncept korelacije i regresije 1888.
20
Karl Pearson
1857 - 1936
21
William Sealey Gosset
1876 - 1937
22
Sir Ronald Aylmer Fisher
1890 - 1962
23
Egon Sharpe Pearson
1895 - 1980
24
Razlika između matematike i statistike
U osnovi matematike je deduktivno dok je u osnovi
statistike induktivno rasuđivanje.
•Deduktivno rasuđivanje koje je u osnovi analitičkih
istraživanja polazi od skupa definicija i pretpostavki
(aksioma) iz kojih se primenom logičkih pravila dolazi do
zaključaka.
klj č k
•Definicije, pretpostavke i pravila nisu empirijski zasnovane.
•Induktivno rasuđivanje je generalizacija na osnovu
pojedinačnih ili grupnih posmatranja.
25
Razlika između verovatnoće i statistike
U teoriji verovatnoće se izučavaju matematički modeli
stvarnih pojava, dok se u statistici na osnovu stvarne
pojave formira matematički model.
26
•Osnovni skup ( populacija ili masa) je skup jednorodnih
j di i na kojima
jedinica
k ji se ispituje
i it j neka
k pojava.
j
•Skup je potrebno definisati prostorno, vremenski i sadržinski
( treba precizirati koje osobine imaju jedinice osnovnog skupa).
•Za svaku jedinicu mora da se zna da li pripada osnovnom
skupu ili ne.
•Elementi osnovnog skupa moraju imati bar jedno zajedničko
svojstvo.
•Elementi statističkog skupa se nazivaju jedinice.
jedinice Pojam
statističke jedinice mora biti precizno utvrđen.
•Karakteristike (odlike, osobine) po kojima se jedinice razlikuju
se nazivaju obeležja.
27
• Elementi statističkog skupa se nazivaju jedinice. Pojam
statističke jedinice mora biti precizno utvrđen.
• Karakteristike
K kt i tik ((odlike,
dlik osobine)
bi ) po kkojima
ji se jjedinice
di i
razlikuju se nazivaju obeležja (promenljive, varijable).
• Za
Z statističko
t ti tičk iistraživanje
t ži j ttreba
b odabrati
d b ti obeležje
b l žj kkoja
j
su u uzročnoj i logičnoj vezi sa ciljem posmatranja i koji
se mogu prikupiti.
prikupiti
28
Podela obeležja:
• Kvantitativna(numerička), kvalitativna(atributivna,
kategorijalna)
• Faktor-rezultat (faktorijalna, rezultatska)
• Cilj posmatranja (suštinska, nesuštinska)
• Način na koji se dolazi (osnovna -primarna, izvedena)
29
Kvantitativna (numerička)obeležja
•
•
•
•
•
•
•
visina
težina
t
temperatura
t
koeficijent inteligencije
broj studenata koji kasni na čas
vreme potrebno da se uradi zadatak
brzina vetra
Kvalitativna ((atributivna,, kategorijalna
g j
obeležja)
j )
• Pol
• Bračno stanje
• Rasa
• Religijska pripadnost
• Dijagnoza bolesti
• Boja cveta
• Krvna grupa
• Stav po određenom
pitanju (neslaganje,
neutralan stav, saglasnost
31
Klasifikacija obeležja
Tipovi obeležja
Kvantitativna
(numerička)
Prekidna
(diskretna)
Neprekidna
Kvalitativna
(kategorijalna)
Diskretna
Дискретна обележја
Непрекидна обележја-Теоријски,
нема размака између појединих вредности
Zašto je važno da se utvrdi tip
obeležja?
b l žj ?
Statistički podaci imaju različite
karakteristike
I b statističke
Izbor
t ti tičk metode
t d zavisi
i i od
d
tipa obeležja
35
FORMIRANJE DISTRIBUCIJE FREKVENCIJA
36
Prezentacija podataka
•
•
•
Opisivanje podataka se sastoji u sumiranju karakteristika i
prikazivanju na što razumljiviji način. Da bi se prikazali podaci
koriste se tabele, grafikoni, dijagrami. Izbor grafikona zavisi od
tipa podataka.
TIPOVI PODATAKA
Kvantitativni podaci se mere na numeričkoj skali.
Kvalitativni podaci mogu samo da se klasifikuju u kategorije.
37
PRIMER ZA PREKIDNO OBELEŽJE
1. Brojj članova domaćinstava u 50 slučajno
j odabranih seoskih domaćinstava
je bio:
3
3
5
7
4
3
5
4
4
4
1
3
5
5
6
2
4
6
6
5
2
5
3
6
6
1
6
3
4
5
6
5
5
5
4
6
4
5
4
2
7
5
4
5
5
8
2
4
3
5
a) Formirati statističku seriju.
b) Formirati neintervalnu seriju distribucije frekvencija i grafički je predstaviti.
c) Formirati intervalnu seriju distribucije frekvencija ako je i=2.
d) Izračunati relativne frekvencije (strukturu), kumulativnu seriju distribucije
frekvencija (kumulativ, kumulaciju) i kumulaciju strukture.
38
D t l t
Dotplot
1
2
3
4
5
6
7
8
X
39
Statistička serija:
1 1 2 2 2 2 3 3 3 3 3 3 3 4 4 4 4 4 4 4 4 4 4 4 5
5 5 5 5 5 5 5 5 5 5 5 5 5 5 6 6 6 6 6 6 6 6 7 7 8
40
Neintervalna serija distribucije frekvencija:
X
f
1
2
2
4
3
7
4
11
5
15
6
8
7
2
8
1
Zbir
50
41
G
Grupni
i iintervali
li
Frekvencija
F
k
ij
(f)
Relativne
R
l i
frekvencija
Struktura
(%)
K
Kumulacija
l ij
ispod
p
Kumulacija
K
l ij
strukture
(%)
iznad
ispod
p
iznad
1-2
6
0,12 (12%)
6
50
0,12
1,00
3-4
18
0,36 (36%)
24
44
0,48
0,88
5-6
23
0,46 (46%)
47
26
0,94
0,52
7-8
3
0,06 ( 6%)
50
3
1,00
0,06
Ukupno
50
1,00 (100%)
42
PRIMER ZA NEPREKIDNO OBELEŽJE
Dati su podaci o sadržaju gvožđa (%) u 62 uzorka:
39.3
28.5
21.0
24.0
23.6
16.7
21.8
26.7
23.1
23.8
18.4
27.8
21.7
24.3
35.3
27.8
21.1
24.8
19.8
27.0
21.2
24.6
19.2
27.0
21.5
23.6
32.7
27.2
21.6
23.4
33.4
22.6
22.5
23.4
33.6
26.3
25.4
23.2
20.2
22.0
25.8
23.2
20.0
22.5
25.4
23.2
30.0
26.4
25.6
23.0
30.8
26.7
25.4
23.0
30.0
26.8
25.6
23.0
28.3
26.7
23.0
24.7
43
Grupni intervali
Sredina grupnog
intervala
(x)
Frekvencija
(f)
Struktura
frekvencija
(%)
Kumulacija
ispod
iznad
Kumulacija
strukture
(%)
ispod
iznad
15.1-20.0
17.5
5
8.06
5
62
8.06
100.00
20.1-25.0
22.5
30
48.39
35
57
56.45
91.94
25.1-30.0
27.5
21
33.87
56
27
90.32
43.55
30.1-35.0
32.5
4
6.45
60
6
96.77
9.68
35.0-40.0
37.5
2
3.23
62
2
100.00
3.23
Ukupno
62
100 00
100.00
44
Koji grafikon treba koristiti?
• Zavisi od tipa podataka
• Zavisi od toga šta želi da se prikaže
• Zavisi
Z i i od
d raspoloživog
l ži
statističkog
t ti tičk softvera
ft
45
Tačkasti dijagram (Dot Plot)
• Prikazivanje numeričkog obeležja
obeležja.
• Horizontalna osa predstavlja mernu skalu.
• Jedna
J d ttačka
čk predstavlja
d t lj jjednu
d numeričku
ičk
vrednost obeležja.
46
Dotplot
5.0
5.5
6.0
6.5
7.0
7.5
8.0
8.5
X
Svaki simbol predstavlja do 2 observacije
MINITAB 14
47
Dijagram stablo-list
stablo list
• Sumiranje mernih podataka (numeričkog
obeležja).
• Svako
S k podatak
d t k se d
delili na “stablo”
“ t bl ” i “list.”
“li t ”
• Prvo, se “stablo” prikazuje u koloni.
• Zatim, se “list”pridružuje stablu.
48
DIJAGRAM STABLO LIST
5
5
5
5
6
6
6
6
6
7
7
7
7
7
8
8
Stem-and
Ste
a d Leaf
ea
2
5
6
889
0000000111
2333333
444555555555555555
666666666777777
88888888888888888888889999999
0000000000000000000000000000000000000000001111111111111
222222333333333
4444555555555555
6666777
88888888889
00000000
23
49
Histogram
• Podela intervala vrijacije na jednake
grupne intervale ( razmake)
• Odredjivanje broja (procenta) merenja
u svakom grupnom intervalu.
• Crtanje pravougaonika čije visine su
jednake broju (procentu) vrednosti
obeležja u pojedinim grupnim intervalima
j osa.
• Pravilno obeležavanje
50
HISTOGRAM
100
90
80
frekvencijaa
70
60
50
40
30
20
10
0
4.5
5.0
5.5
6.0
6.5
7.0
Dužina klasa (mm)
7.5
8.0
8.5
9.0
51
HISTOGRAM I POLIGON FREKVENCIJA
100
00
90
80
frekvencijaa
70
60
50
40
30
20
10
0
45
4.5
50
5.0
55
5.5
60
6.0
65
6.5
70
7.0
Dužina klasa (mm)
75
7.5
80
8.0
85
8.5
90
9.0
52
• Različiti načini predstavljanja podataka
podataka.
• Kod predstavljanja podataka ne treba ih ni
suviše malo ni suviše mnogo redukovati
redukovati.
• Kod kreiranja grafikona potrebno je da se
pravilno
il označe.
č T
Treba
b iimati
ti u vidu
id njihovu
jih
namenu!
53
Download

obeležja - Statistika