PRIMENA STATISTIKE
U KONSTRUISANJU
Osnovne statističke veličine u
konstruisanju
•
•
•
•
Srednja vrednost
Medijana
Moda
Mera rasipanja oko srednje vrednosti –
disperzija
• Granice poverenja
Osobine numeričkih podatakamere
Numeričko opisivanje podataka
Centralna
tendencija
Kvartili
Varijacija
Asimetrija
raspon
zakrivljenost
aritmetička
srednja vrednost
interkvartilini raspon
zašiljenost
medijana
varijansa
modus
geometrijska
srednja vrednost
standardna devijacija
koeficijent varijacije
3
Osobine numeričkih podataka
Centralna tendencija
(lokacija centra)
Varijacija (Rasipanje)
Asimetrija
4
Mere centralne tendencije
Centralna tendencija
Aritmetička
srednja vrednost
Medijana
Modus
N

xG  ( x1  x 2    xn )1/ n
xi
x  i 1
N
sredina rangiranih
vrednosti
5
Geometrijska
srednja vrednost
najfrekventnija
vrednost
Srednja vrednost
f(t)
• Slučajne veličine: diskretne (prekidne) i
kontinualne (neprekidne).
t
f(t)
a
b
t
Funkcija raspodele slučajne
veličine: a) kontinualne; b) diskretne
Srednja vrednost
• Srednja vrednost populacije (m), odnosno
nezavisno promenljive t čija je gustina
raspodele data funkcijom f(t) određena je
izrazom:
in
m   ti  pi (ti )
Za diskretne veličine
i 1

m   t  f (t )dt
Za kontinualne veličine

ti – srednja vrednost diskretne slučajne veličine
p(ti)– verovatnoća realizacije veličine ti
• Ako populacija ima ograničen broj uzoraka kao
dela cele populacije, srednju vrednost
posmatrane slučajne promenljive predstavlja
aritmetička sredina:
in
m
t
i 1
i
n
n– ukupan broj podataka
Ova srednja vrednost je utoliko bliža srednjoj
vrednosti cele populacije ukoliko je broj posmatranih
podataka veći.
Aritmetička srednja vrednost
(average, mean)
• Najčešće korišćena mera
• Ponaša se kao ”ravnotežna tačka”
• Na njenu vrednost utiču ekstremne vrednosti
(”outliers”)
• Izražava se u istim jedinicama kao i osnovni podaci
• Izraz za izračunavanje:
x
x1  x 2  

x

N
broj podataka
9
 xN
N
dobijena vrednost
Aritmetička srednja vrednost
Uticaj ekstremnih vrednosti
0 1 2 3 4 5 6 7 8 9 10
srednja vrednost = 3
1  2  3  4  5 15

3
5
5
10
0 1 2 3 4 5 6 7 8 9 10
srednja vrednost = 4
1  2  3  4  10 20

4
5
5
Prosta srednja vrednost vs.
ponderisana – težinska srednja vrednost
•
Ponderisana aritmetička srednja vrednost izračunava se kada su
podaci prikazani kao frekvence:
f x

x 
f
i
i
• Ako su podaci grupisani u klasne intervale, ponderisana srednja
vrednost se izračunava:
f (x

x
f
i
11
s )i
Geometrijska srednja vrednost
• n-ti koren proizvoda svih članova skupa
• Primer: 1,2,3,10
• Gx = 4-ti koren iz 60 = 2.78
• II način izračunavanja Gx:
1. logaritmovanje svakog broja u skupu
2. računanje aritmetičke sredine tih logaritama
3.dizanje osnove logaritma (ln-2.718 ili log-10)
na izračunatu aritmetičku sredinu logaritama
(korak 2)
12
Medijana (Me)
• Medijana je centralna vrednost u nizu podataka
– 50% vrednosti je iznad, 50% ispod medijane
• Pre određivanje medijane podaci se urede po veličini
• Na Me ne utiču ekstremne vrednosti
0 1 2 3 4 5 6 7 8 9 10
medijana = 3
13
0 1 2 3 4 5 6 7 8 9 10
medijana = 3
Određivanje medijane
•
Pozicija medijane (u uređenim podacima):
N1
pozicija medijane 
2
• Ako je broj podataka neparan, medijana je vrednost u
sredini niza
• Ako je broj podataka paran, medijana je srednja
vrednost dve vrednosti u sredini niza (između N/2 i
(N+2)/2)
•
Napomena:
N1
– izraz 2
nije vrednost medijane, već redni broj vrednosti
koja predstavlja medijanu
14
Medijana
• Označava vrednost nezavisno promenljive, čija je
kumulativna verovatnoća realizacije 0.5 (jednaka
verovatnoći da će bilo koji rezultat biti manji ili veći
od 0.5 – 50%).
0.5 
t 50
 f (t )dt
Za kontinualne veličine
f(t)

50%
Medijana
50%
t50
t
Moda - Modus (Mo)
• Vrednost koja se pojavljuje najčešće
• Na Mo ne utiču ekstremne vrednosti
• U skupu može biti jedan ili više modusa
• Skup može biti bez modusa
• Mo može da se odredi i za numeričke i kategoričke
podatke
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14
modus = 9
16
0 1 2 3 4 5 6
nema modusa
17
Moda
• Vrednost slučajne veličine koja odgovara najvećoj
verovatnoći njene realizacije, bez obzira da li je
diskretna ili kontinualna.
Za kontinualne veličine
f(t)
df (t )
0
dt
Moda
t
Skale merenja- mere centralne
tendencije
• intervalna/skala odnosa - x, Me, Mo
• ordinalna – Me, Mo
• nominalna – samo Mo!!!
19
Kvartili
• Kvartili dele skup uređenih podataka na četiri
jednaka dela
• Pozicione veličine
25%
25%
Q1




20
25%
25% 25%
Q2
Prvi kvartil, Q1 – 25% vrednosti su manje od Q1
Drugi kvartil, Q2 = medijana
Treći kvartil, Q3 = 25% vrednosti su veće od Q1
Q1 i Q3 nisu mere centralne tendencije
25%
Q3
Određivanje kvartila
• Pozicija (redni broj vrednosti) prvog
kvartila:
Q1 = (N+1)/4
• Pozicija (redni broj vrednosti) drugog
kvartila:
Q2 = (N+1)/2
• Pozicija (redni broj vrednosti) trećeg
kvartila:
Q3 = 3(N+1)/4
21
Percentili
Pozicija percentila:
P
NP 
 (N  1)
100
•
•
•
•
Prvi percentil P1: odvaja 1% vrednosti
Q1 = P25
Q2 = Me = P50
Q3 = P75
22
Mere varijacije
varijacija
raspon

interkvartilni
raspon
varijansa
standardna
devijacija
Mere varijacije daju informaciju
o rasipanju ili varijabilnosti
podataka
isti centar,
različita varijacija
23
koeficijent
varijacije
Raspon
• Najjednostavnija mera varijacije
• Raspon – razlika između najveže i najmanje vrednosti
u skupu
raspon = xmax – xmin
primer:
0 1 2 3 4 5 6 7 8 9 10 11 12
raspon = 14 - 1 = 13
24
13 14
Nedostatak raspona
• Ignoriše oblik raspodele podataka
7
8
9
10
11
raspon = 12 - 7 = 5
12
7
8
9
10
11
12
raspon = 12 - 7 = 5
• Osetljiv na ekstremne vrednosti
1, 1, 1, 1, 1, 1, 1, 1, 1,1,1, 2, 2, 2, 2, 2, 2, 2, 2, 3, 3, 3, 3, 4, 5
raspon = 5 - 1 = 4
1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 2, 2, 2, 2, 2, 2, 2, 2, 3, 3, 3, 3, 4, 120
raspon = 120 - 1 = 119
25
Varijansa
•
Prosečno (približno) kvadratno odstupanje vrednosti od srednje
vrednosti
– Izraz za izračunavanje:
n

V  i 1
(xi  x)2
N-1
– N – 1 – broj stepena slobode
26
Disperzija
• Mera rasipanja promenljive t oko ose srednje
vrednosti.
in
 2   (ti  m)2  p(ti )
Za diskretne veličine
i 1

 2   (t  m) 2  f (t )dt
Za kontinualne veličine

• Standardna devijacija:
  
Koristi se za informacije iz ograničenog
2 skupa podataka ako nije poznat zakon
raspodele.
• Procenjena standardna devijacija:
in
S
2
(
t

m
)
 i
i 1
n 1
• Najčešće korišćena mera varijacije
• Pokazuje varijaciju oko srednje
vrednosti
• Kvadratni koren iz varijanse
• Izražava se u istim jedinicama kao i
osnovni podaci
Standardna devijacija normalnog zakona raspodele
Broj stepena slobode - df, θ, φ
φ=N-1
φ - broj nezavisnih poredjenja
•
•
x1  x 2  x 3
x
3
3x  x1  x 2  x 3
x1 i x2 nezavisne vrednosti, φ = 2
•
29
Standardna devijacija - Sd
Podaci:
Sd 
30
4,9

6,3
X2  N(X)2
N 1
7,7
8,9
10,3
 6,368  2,523
11,7
Značenje standardne devijacije
mala standardna devijacija
velika standardna devijacija
31
Poređenje standardnih
devijacija
grupa A
sr. vrednost = 15.5
SD = 3,338
11
12
13
14
15
16
17
18
19
20
21
grupa B
11
12
13
14
15
16
17
18
19
20 21
sr. vrednost = 15.5
Sd = 0,926
grupa C
sr. vrednost = 15.5
Sd = 4,567
11
32
12
13
14
15
16
17
18
19
20 21
Asimetrija raspodele
Pokazuju kako su podaci distribuirani
•
–
zakrivljenost i zašiljenost
simetrična
levostrana
x
33
Me
Mo
x
= Me = Mo
desnostrana
Mo
Me
x
Numeričke mere za populaciju
i uzorak
• Statistički parametri koji se izračunavaju iz populacije
opisuju osobine populacije
• Statistički parametri koji se izračunavaju iz uzorka
opisuju osobine uzorka
• Srednja vrednost populacije – μ
• Srednja vrednost uzorka – x
• Standardna devijacija populacije – σ
• Standardna devijacija uzorka – Sd
34
Osobine varijanse i standardne
devijacije
• Svaka vrednost se koristi u izračunavanju
– razlika u odnosu na raspon i interkvartilni
raspon
• Veliki uticaj ekstremnih vrednosti
– izračunava se kvadrat odstupanja od srednje
vrednosti
35
Koeficijent varijacije - Kv
• Mera relativne varijacije (u odnosu na srednju
vrednost)
• Uvek se izražava u %
• Omogućava poredjenje više grupa podataka, čak i
kada su izraženi u različitim jedinicama
Sd
Kv =
 100
x
36
Granice poverenja
• Interval poverenja predstavlja dijapazon u kome se
sa određenom zadatom verovanoćom nalazi
stvarna vrednost, koja odgovara svim mogućim
realizacijama posmatane slučajne veličine dobjene
kao rezultat merenja. Isti smisao imaju i granice
poverenja kod utvrđivanja zakona raspodele.
Granice poverenja
Cα/2 – granice poverenja –
odgovaraju verovatnoći
realizacije u %, odnosno
kumulativnoj verovatnoći α.
m - Cα/2 ≤ m ≤ m + Cα/2
Histogram i poligon
• Izračunavanje relativnih i
kumulativnih učestanosti,
prikazivanje u obliku
histograma i poligona.
Histogram
a - Stepenasti dijagram;
b - poligon
• Svi rezultati merenja treba da se grupišu u
određene klase – intervale promene posmatrane
veličine.
ni
f r   100 % relativna učestanost
n
ni – broj rezultata merenja u svakoj pojedinačnoj klasi
n – ukupan broj rezultata merenja
n
ni
f q    100 %
i 1 n
kumulativna vrednost
učestanosti
Grafički prikaz: stepenasti dijagram i poligon. Za objektivno
odlučivanje je neophodno tačnije procenjivanje stvarnih
zakona raspodele.
Teorijske raspodele verovatnoće
• Pouzdanost je jednaka verovatnoći rada bez
otkaza.

R(t )   f (t )dt
t
f(t) – gustina intervala vremena rada do pojave otkaza
• Nepouzdanost je:
t
F (t )  1  R(t )   f (t )dt
0
• Intenzitet otkaza:
f (t )
 (t ) 
R(t )
Koriste se:
• Eksponencijalna
• Normalna i
• Vejbulova raspodela
Eksponencijalna raspodela
• Pripada grupi neprekidnih zakona raspodele.
• Funkcija gustine raspodele ima oblik:
f (t )  et , t  0
 -parametar raspodele
Funkcija pouzdanosti
R(t )  e
 t
Intenzitet otkaza
f (t ) e t
 (t ) 
  t  
R(t ) e
Normalna raspodela
• Pripada grupi neprekidnih zakona raspodele.
• Funkcija gustine raspodele ima oblik:

1
f (t ) 
e
 2
(t   ) 2
2
2
 – mera rasipanja oko srednje
vrednosti
 –očekivana vrednost
Funkcija pouzdanosti


1
R(t ) 
e

 2 t
(t   ) 2
2 2
dt
Intenzitet otkaza

(t   ) 2
2 2
f (t )
e
 (t ) 

(t   ) 2

R(t )

2 2
dt
e
t
Vejbulova raspodela
• Pripada grupi neprekidnih zakona raspodele.
• Funkcija gustine raspodele ima oblik:
kt 
f (t )   

k 1
e
t 
 

k
k –parametar oblika
 – parametar razmere
Funkcija pouzdanosti
R(t )  e
t 
 

k
Intenzitet otkaza
k 1
kt 
  e
f (t )    
 (t ) 

k
t


R(t )
 
e 
t 
 

k

kt 
 

k 1
• Verovatnosni papiri se koriste za proveru
mogućnosti interpertacije empirijske raspodele
pouzdanosti nekom teorijskom raspodelom.
• Ukoliko se podaci o kumulativnim učestanostima
otkaza, koji su uneti u verovatnosni papir nalaze
približno na pravoj liniji, hipoteza o valjanosti
teorijskog zakona se prihvata.
• Podaci uneti u verovatnosni papir daju mogućnost
da se odrede i svi parametri teorijskog zakona za
taj slučaj.
Verovatnosni papir
Statistički testovi
• Koriste se za proveru da li je prava provučena kroz
tačke koje odgovaraju eksperimentu, tj. empirijskoj
raspodeli u verovatnosnom papiru, zaista odgovara
toj raspodeli.
 Test Kolmogorov-Smirnov
 d-test
  – test
 Henrijeva prava ...
• Test Kolmogorov-Smirnov: stepen saglasnosti se
ocenjuje na bazi odstupanja pojedinih tačaka od
pretpostavljene teorijske raspodele (prave linije), tj.
poređenjem ovih odstupanja sa tzv. kritičnim
vrednostima d (tabela 5.2, udžbenik, str. 74).
Download

Statistika u konstruisanju