REGRESIONA I KORELACIONA ANALIZA
Na osnovu 8 parova vrednosti numeričkih obeležja X i Y:
Y
X
a)
b)
c)
d)
e)
12
5
14
11
10
7
13
8
17
11
12
7
11
6
15
9
Formirati dijagram rasturanja.
ˆ = a + bX .
Oceniti i grafički predstaviti linearni regresioni model: Y
Izračunati ocenjene vrednosti regresije i standardnu grešku regresije.
Testirati nultu hipotezu H 0 : β = 0 , protiv alternativne hipoteze H 1 : β ≠ 0.
Izračunati koeficijente korelacije i determinacije. Testirati statističku značajnost
koeficijenta korelacije.
Rešenje:
a)
b) Opšti oblik linearnog regresionog modela sa jednom nezavisnom promenljivom je:
Y = α + β X + ε , α i β su nepoznati parametri, ε je slučajna greška.
Ocene nepoznatih parametara α i β izračunate na osnovu uzorka za X i Y veličine n su a i b,
ˆ = a + bX.
tako da je ocenjeni regresioni model oblika Y
1
Jedan od metoda ocene nepoznatih parametara je metod najmanjih kvadrata, koji polazi od
kriterijuma da je zbir kvadrata razlika izmerenih i ocenjenih vrednosti zavisne promenljive
2
ˆ ) . Ocene a i b su:
najmanji tj. min ∑ ( Y − Y
∑ (X − X )(Y − Y )
∑ (X − X ) 2
b=
i
a = Y − bX .
Ocena b se može izraziti i u obliku:
b=
∑ XY −
∑
(∑ X∑ Y )
n
(∑ X )2
X2 −
.
n
Ocena a može da se izrazi i kao:
a=
∑ Y(∑ X 2 ) − ∑ X∑ XY
n (∑ X 2 ) − (∑ X) 2
I način
X=
∑ X 64
=
=8
n
8
Y=
∑ Y 104
=
= 13
n
8
Formira se tabela:
b=
X
Y
X−X
5
11
7
8
11
7
6
9
64
12
14
10
13
17
12
11
15
104
-3
3
-1
0
3
-1
-2
1
0
Y−Y
(X − X )(Y − Y ) (X − X )2 (Y − Y )2
-1
1
-3
0
4
-1
-2
2
0
3
3
3
0
12
1
4
2
28
∑ (X − X )(Y − Y ) = 28 = 0,8235
34
∑ (X − X ) 2
9
9
1
0
9
1
4
1
34
1
1
9
0
16
1
4
4
36
a = Y − bX =13- 0,8235 ⋅8 = 6,412
I I način
Formira se tabela:
Y
X
X2
Y2
XY
12
14
10
13
17
12
11
15
104
5
11
7
8
11
7
6
9
64
25
121
49
64
121
49
36
81
546
144
196
100
169
289
144
121
225
1388
60
154
70
104
187
84
66
135
860
2
∑ XY −
(∑ X∑ Y ) 860 − 64 ⋅ 104
8
64 2
546 −
8
a = Y − bX =13- 0,8235 ⋅ 8 = 6,412
b=
n
(∑ X )2
2
X
−
∑
n
=
=
28
= 0,8235
34
Ili:
a=
∑ Y(∑ X 2 ) − ∑ X ∑ XY = 104 ⋅ 546 − 64 ⋅ 860 = 1744 = 6,4118
272
n (∑ X 2 ) − (∑ X) 2
8 ⋅ 546 − 64 2
Ocenjeni regresioni model je:
ˆ = 6,412 + 0,8235X.
Y
Da bi se grafički predstavila regresiona prava dovoljno je odrediti dve tačke koje pripadaju pravoj
ˆ = a i X = X , Y = Y pripadaju pravoj. U slučaju ocenjenog regresionog
npr. tačke X=0, Y
ˆ = 6,412 i X = 8 , Y
ˆ = 13.
modela to su tačke X=0, Y
3
c) Ocenjene vrednosti regresije su:
ˆ = 6,412 + 0,8235 ⋅ 5 = 10,5295
Y
1
ˆ = 6,412 + 0,8235 ⋅11 = 15,4705
Y
2
ˆ = 6,412 + 0,8235 ⋅ 7 = 12,1765
Y
3
ˆ = 6,412 + 0,8235 ⋅ 8 = 13,0000
Y
4
ˆ = 6,412 + 0,8235 ⋅11 = 15,4705
Y
5
ˆ = 6,412 + 0,8235 ⋅ 7 = 12,1765
Y
6
ˆ = 6,412 + 0,8235 ⋅ 6 = 11,3530
Y
7
ˆ = 6,412 + 0,8235 ⋅ 9 = 13,8235
Y
8
Napomena:
Kod linearnog regresionog modela čiji su parametri ocenjeni metodom najmanjih kvadrata je
ˆ.
uvek ∑ Y = ∑ Y
Da bi se izračunala standardna greška regresije formira se tabela:
se =
se =
∑ (Y − Yˆ) 2
n−2
X
Y
ˆ
Y
ˆ
Y−Y
(Y − Yˆ )
5
11
7
8
11
7
6
9
64
12
14
10
13
17
12
11
15
104
10,5295
15,4705
12,1765
13,0000
15,4705
12,1765
11,3530
13,8235
104,0000
1,4705
-1,4705
-2,1765
0,0000
1,5295
-0,1765
-0,3530
1,1765
0,0000
2,16237
2,16237
4,73715
0,00000
2,33937
0,03115
0,12461
1,38415
12,94117
=
2
12,94117
= 1,4686
6
∑ Y 2 − a ∑ Y − b∑ XY = 1388 − 6, 412 ⋅ 104 − 0,8235 ⋅ 860 = 12.9420 = 1, 4687
n−2
6
6
Napomena:
Varijansa regresije je:
s e2 =
ˆ)
∑ (Y − Y
.
n−2
Standardna greška regresije je: s e =
2
∑ (Y − Yˆ) 2
n−2
4
ˆ
Reziduali regresije su: e i = Yi − Y
i
H0 :β = 0
H 1 : β ≠ 0.
b
t=
~ t n −2
sb
d)
s e2
sb =
t=
∑ (X − X )
2
=
2,158862
= 0,251984
34
0,8235
= 3,27 *
0,25198
t 6;0,05 = 2,447
t 6;0,05 = 3,707
Nulta hipoteza se odbacuje na pragu značajnosti 5% i zaključujemo da promenljiva X statistički
značajno utiče na varijaciju promenljivu Y.
Drugi način testiranja je primenom intervala poverenja.
(1 − α) % interval poverenja za parametar β je
b − t n − 2;α ⋅ s b < β < b + t n − 2;α ⋅ s b
95% interval poverenja je:
0,8235 − 2,447 ⋅ 0,25198 < β < 0,8235 + 2,447 ⋅ 0,25198
0,2069 < β < 1,4401
0 ∉ [0,2069,1,440] ⇒ H 1 .
e)
I način
∑ XY −
r=
(∑ X∑ Y )
860 −
n
⎡
(∑ X )2 ⎤ ⎡ 2 (∑ Y )2 ⎤
⎢∑ X 2 −
⎥ ⋅ ⎢∑ Y −
⎥
n ⎥⎦
n ⎥⎦ ⎢⎣
⎢⎣
=
64 ⋅104
8
64 2
104 2
(546 −
) ⋅ (1388 −
)
8
8
=
28
34 ⋅ 36
= 0,8003
II način
∑ (X − X )(Y − Y )
r=
∑ (X − X ) ∑ (Y − Y )
2
2
=
28
34 ⋅ 36
= 0,8003
Napomena:
• Prost (Pirsonov) koeficijent korelacije r je ocena na osnovu uzorka populacijskog
parametra ρ koji pokazuje jačinu linearne međuzavisnosti promenljivih X i Y.
•
r ∈ [− 1,1]
Koeficijent determinacije:
r 2 = 64,05%
Koeficijent determinacije pokazuje koliki je deo varijacije zavisne promenljive objašnjen
regresionim modelom.
5
Testiranje značajnosti koeficijenta korelacije
H0 : ρ = 0
H1 : ρ ≠ 0
t=
t=
r
~ t n −2
sr
0,8003
1 − 0,6405
sr =
⋅ 6 = 3,27 *
1− r2
n−2
t 6;0,05 = 2,447
t 6;0,05 = 3,707
Kako je 2,447<t<3,707 sledi da se nulta hipoteza odbacuje na pragu značajnosti 5%, dok se se ne
odbacuje na pragu značajnosti 1%. Prema tome linearna međuzavisnost promenljivih X i Y je
statistički značajna.
6
Download

REGRESIONA I KORELACIONA ANALIZA bX aYˆ + = 0