Dijagnostika i tretman multikolinearnosti u istraživanjima u psihologiji
ličnosti
- Master rad -
Mentor:
Kandidat:
dr Petar Čolović
Mirjana Oblaković
PS- 16/11
Novi Sad, 2013.
Univerzitet u Novom Sadu
Univerzitetski centar za primenjenu statistiku - UCPS
Ključna dokumentacijska informacija
Redni broj:
RBR
Identifikacioni broj:
IBR
Tip dokumentacije:
Monografska dokumentacija
TD
Tip zapisa:
Tekstualni štampani materijal
TZ
Vrsta rada (dipl., mag., dokt.):
Master rad
VR
Ime i prezime autora:
Mirjana Oblaković
AU
Mentor (titula, ime, prezime, zvanje):
doc. dr Petar Čolović
MN
Naslov rada:
NR
Jezik publikacije:
Dijagnostika i tretman multikolinearnosti u
istraživanjima u psihologiji ličnosti
Srpski (latinica) JP
Jezik izvoda:
JI
srp. / eng.
Zemlja publikovanja:
Republika Srbija
ZP
Uže geografsko područje:
Novi Sad, Vojvodina
UGP
Godina:
2013
GO
Izdavač:
autorski reprint
IZ
Mesto i adresa:
Novi Sad, Trg D. Obradovića 5 MA
Fizički opis rada:
FO
Naučna oblast:
(6 poglavlja / 95 stranica / 0 slika / 8 grafikona / 60
referenci / 0 priloga)
Statistika
NO
Naučna disciplina:
Statistika u društvenim naukama
ND
Predmetna odrednica, ključne reči:
PO
UDK
Čuva se:
ČU
Važna napomena:
VN
multikolinearnost, dijagnostika multikolinearnosti,
rešavanje multikolinearnosti, psihologija ličnosti,
Grejov model osetljivosti na pokrepljenje
Izvod:
IZ
Istraživanje se bavi analizom multikolinearnosti,
primenom dijagnostičkih metoda za otkrivanje
multikolinearnosti na realnim podacima iz
psihologije ličnosti, kao i primenom različitih
rešenja problema multikolinearnosti na datim
podacima. Radi ostvarivanja cilja istraživanja
primenjene su odabrane dijagnostičke metode i
ilustrovana
odabrana
rešenja
problema
multikolinearnosti u okviru dve vrste analize
(višestruka regresija i strukturalno modelovanje),
od kojih je svaka prikazana kroz 3 modela u okviru
kojih je sadržano 3 različita nacrta istraživanja, 2
različite veličine uzorka i 2 kategorije veličine
koeficijenta determinacije. U analizu su uključeni
podaci iz dva istraživanja. Iz prvog istraživanja
analizirana su dva modela (842 ispitanika), iz drugog
(678 ispitanika) jedan. Prediktorske varijable su pet
podskala Upitnika za ispitivanje osteljivosti na
potkrepljenje (BIS, BAS, Borba, Bežanje, Blokiranje),
dok su kriterijumi: skor na podskali Neuroticizamanksioznost i Agresivnost-hostilnost iz ZKPQ
upitnika, a iz drugog seta podataka kriterijum je
skor na skali BPAG. Rezultati impliciraju da treba
koristiti
kombinaciju
pokazatelja
za
dijagnostifikovanje
multikolinearnosti:
odnos
jednostavnih i parcijalnih korelacija, VIF,
karakteristične vektore sa uslovnim brojem i
korelacije koeficijenata. U određivanju štetnosti
multikolinearnosti treba imati u vidu veličinu
uzorka, koeficijent determinacije i grešku modela.
Što se tiče predloženih rešenja, ridž regresija može
da da pozitivna poboljšanja, ali se pokazalo da ne
stabilizuje sve koeficijente, pa je možemo koristiti
kada su nam potrebna manja poboljšanja
preciznosti. Formiranje kompozitnih varijabli
uprosečavanjem može dati zadovoljavajuće rešenje
dok regresija glavnih komponenti izgleda kao manje
efikasno rešenje od uprosečavanja – pogoršava se
fit modela. Što se tiče strukturalnog modelovanja,
pokazuje se da multikolinearnost može da bude
štetna. Ipak, uvođenje latentne varijable može
rezultovati zadovoljavajućim modelom ukoliko je
specifikacija modela sama po sebi zadovoljavajuća.
Rezultati sugerišu i da rešenju problema doprinose i
veličina uzorka i raspon kriterijumske skale.
Datum prihvatanja teme od strane NN
veća:
DP
Datum odbrane:
DO
Članovi komisije:
(ime i prezime / titula / zvanje / naziv
organizacije / status)
KO
predsednik: prof. dr Ljiljana Mihić, vanredni
profesor, psihologija, Filozofski fakultet, Novi Sad,
predsednik
član: prof. dr Snežana Smederevac, redovni
profesor, psihologija, Filozofski fakultet, Novi Sad,
član
član: doc. dr Petar Čolović, docent, psihologija,
Filozofski fakultet, Novi Sad, mentor
University of Novi Sad
University Centre for Applied Statistics
Key word documentation
Accession number:
ANO
Identification number:
INO
Document type:
Monograph documentation
DT
Type of record:
Textual printed material
TR
Contents code:
CC
Author:
Mirjana Oblaković
AU
Mentor:
doc. dr Petar čolović
MN
Title:
TI
Language of text:
Diagnosis and treatment of multicollinearity in
research of personality psychology
Serbian
LT
Language of abstract:
LA
eng. / srp.
Country of publication:
Serbia
CP
Locality of publication:
Novi Sad, Vojvodina
LP
Publication year:
2013
PY
Publisher:
Author’s publication
PU
Publication place:
Trg Dositeja Obradovića 5 PP
Physical description:
PD
Scientific field
(6 chapters / 95 pages / 0 pictures / 8 graphics / 60
references / 0 appendixes)
Applied statistics SF
Scientific discipline
Statistics in social sciences SD
Subject, Key words
SKW
UC
Holding data:
HD
multicollinearity, multicollinearity diagnostics,
multicollinearity resolving, personality psychology,
Gray's model of sensitivity on reinforcement
Note:
N
Abstract:
AB
This research deals with the analysis of
multicollinearity, diagnostic methods for the
detection of multicollinearity on real data from
psychology of personality, and the application of
different solutions to the problem of
multicollinearity in the given data. In order to
achieve the main objective of the research, selected
diagnostic methods and solutions were applied to
the problem of multicollinearity within the two
types of analysis (multiple regression and structural
modeling). Each of them is shown in 3 models that
contained three different research designs, two
different sample sizes and two strength classes of
the coefficient of determination. The analysis
included data from two studies. Two models were
analyzed from the study with 842 respondents, and
one model from the study with 678 respondents.
The predictor variables were five subscales of
Sensitivity on reinforcement questionnaire (BIS,
BAS, fight, flight, blocking), while the criteria were:
a score on the subscale Neuroticism-anxiety and
Aggression-hostility from ZKPQ questionnaire, as
well as the score on BPAG scale. The results imply
that a combination of indicators should be used for
diagnosing multicollinearity: the relationship
between simple and partial correlations, VIF,
eigenvalues
with conditional number and
correlations. In determining the harmfulness of
multicollinearity, the size of the sample, the
coefficient of determination and model error term
should be kept in mind. Regarding the proposed
solutions, ridge regression can bring a positive
improvement, but it turned out that it can't stabilize
all the coefficients, so it can be best used for minor
improvements of accuracy. Forming of a composite
variable by averaging can provide a satisfactory
solution. Regression of the main component seems
to be less effective solution than averaging - it
worsens the model's fit. As regards of structural
modeling, it is clear that multicollinearity can be
harmful. However, the introduction of the latent
variables can result in successful model fit if the
model specifications allow it. The results suggests
that solving the problem might also be facilitated
by the sample size and the range of criterion scales.
Accepted on Scientific Board on:
AS
Defended:
DE
Thesis Defend Board:
DB
president: prof. dr Ljiljana Mihić, vanredni profesor,
psihologija, Filozofski fakultet, Novi Sad, predsednik
member: prof. dr Snežana Smederevac, redovni
profesor, psihologija, Filozofski fakultet, Novi Sad,
član
member: doc. dr Petar Čolović, docent, psihologija,
Filozofski fakultet, Novi Sad, mentor
Rezime
Istraživanje se bavi analizom multikolinearnosti, primenom dijagnostičkih metoda za otkrivanje
multikolinearnosti na realnim podacima iz psihologije ličnosti, kao i primenom različitih rešenja problema
multikolinearnosti na datim podacima. Radi ostvarivanja cilja istraživanja primenjene su odabrane
dijagnostičke metode i ilustrovana odabrana rešenja problema multikolinearnosti u okviru dve vrste
analize (višestruka regresija i strukturalno modelovanje), od kojih je svaka prikazana kroz 3 modela u
okviru kojih je sadržano 3 različita nacrta istraživanja, 2 različite veličine uzorka i 2 kategorije veličine
koeficijenta determinacije. U analizu su uključeni podaci iz dva istraživanja. Iz prvog istraživanja
analizirana su dva modela (842 ispitanika), iz drugog (678 ispitanika) jedan. Prediktorske varijable su pet
podskala Upitnika za ispitivanje osteljivosti na potkrepljenje (BIS, BAS, Borba, Bežanje, Blokiranje), dok su
kriterijumi: skor na podskali Neuroticizam-anksioznost i Agresivnost-hostilnost iz ZKPQ upitnika, a iz
drugog seta podataka kriterijum je skor na skali BPAG. Rezultati impliciraju da treba koristiti kombinaciju
pokazatelja za dijagnostifikovanje multikolinearnosti: odnos jednostavnih i parcijalnih korelacija, VIF,
karakteristične vektore sa uslovnim brojem i korelacije koeficijenata. U određivanju štetnosti
multikolinearnosti treba imati u vidu veličinu uzorka, koeficijent determinacije i grešku modela. Što se
tiče predloženih rešenja, ridž regresija može da da pozitivna poboljšanja, ali se pokazalo da ne stabilizuje
sve koeficijente, pa je možemo koristiti kada su nam potrebna manja poboljšanja preciznosti. Formiranje
kompozitnih varijabli uprosečavanjem može dati zadovoljavajuće rešenje dok regresija glavnih
komponenti izgleda kao manje efikasno rešenje od uprosečavanja – pogoršava se fit modela. Što se tiče
strukturalnog modelovanja, pokazuje se da multikolinearnost može da bude štetna. Ipak, uvođenje
latentne varijable može rezultovati zadovoljavajućim modelom ukoliko je specifikacija modela sama po
sebi zadovoljavajuća. Rezultati sugerišu i da rešenju problema doprinose i veličina uzorka i raspon
kriterijumske skale.
Ključne reči: multikolinearnost, dijagnostika multikolinearnosti, rešavanje multikolinearnosti, psihologija
ličnosti, Grejov model osetljivosti na pokrepljenje
Summary
This research deals with the analysis of multicollinearity, diagnostic methods for the detection of
multicollinearity on real data from psychology of personality, and the application of different solutions to
the problem of multicollinearity in the given data. In order to achieve the main objective of the research,
selected diagnostic methods and solutions were applied to the problem of multicollinearity within the
two types of analysis (multiple regression and structural modeling). Each of them is shown in 3 models
that contained three different research designs, two different sample sizes and two strength classes of
the coefficient of determination. The analysis included data from two studies. Two models were analyzed
from the study with 842 respondents, and one model from the study with 678 respondents. The
predictor variables were five subscales of Sensitivity on reinforcement questionnaire (BIS, BAS, fight,
flight, blocking), while the criteria were: a score on the subscale Neuroticism-anxiety and Aggressionhostility from ZKPQ questionnaire, as well as the score on BPAG scale. The results imply that a
combination of indicators should be used for diagnosing multicollinearity: the relationship between
simple and partial correlations, VIF, eigenvalues
with conditional number and correlations. In
determining the harmfulness of multicollinearity, the size of the sample, the coefficient of determination
and model error term should be kept in mind. Regarding the proposed solutions, ridge regression can
bring a positive improvement, but it turned out that it can't stabilize all the coefficients, so it can be best
used for minor improvements of accuracy. Forming of a composite variable by averaging can provide a
satisfactory solution. Regression of the main component seems to be less effective solution than
averaging - it worsens the model's fit. As regards of structural modeling, it is clear that multicollinearity
can be harmful. However, the introduction of the latent variables can result in successful model fit if the
model specifications allow it. The results suggests that solving the problem might also be facilitated by
the sample size and the range of criterion scales.
Key words: multicollinearity, multicollinearity diagnostics, multicollinearity resolving, personality
psychology, Gray's model of sensitivity on reinforcement.
Sadržaj:
1
2
3
4
5
6
Uvod............................................................................................................................ 2
1.1 Jednostavna i višestruka regresija ......................................................................... 3
1.1.1
Regresioni koeficijenti ocenjeni metodom najmanjih kvadrata .................. 4
1.2 Strukturalne jednačine .......................................................................................... 7
1.3 Multikolinearnost - osnovna svojstva ................................................................. 11
1.3.1
Logika multikolinearnosti ......................................................................... 12
1.3.2
Matematika multikolinearnosti – matrična algebra ................................... 14
1.3.3
Singularnost matrice X’X.......................................................................... 16
1.3.4
Matematika multikolinearnosti – koeficijenti pravca ................................ 18
1.3.5
Vrste multikolinearnosti ............................................................................ 19
1.4 Mogući uzroci multikolinearnosti i dijagnostika ................................................ 20
1.4.1
Tolerancija, VIF i GVIF ............................................................................ 28
1.4.2
Karakteristični koreni korelacione matrice nezavisnih varijabli .............. 30
1.4.3
Uslovni broj (uslovni indeks) .................................................................... 30
1.5 Moguća rešenja za problem multikolinearnosti .................................................. 31
1.6 Multikolinearnost u naučnim istraživanjima ...................................................... 37
1.7 Multikolinearnost u psihologiji ličnosti .............................................................. 39
1.8 Problem multikolinearnosti u psihologiji ličnosti: konstrukti revidiranog
Grejovog modela kao prediktori anksioznosti/hostilnosti i agresivnosti ...................... 42
Metod ........................................................................................................................ 47
2.1.1
Instrumenti ................................................................................................ 47
2.1.2
Uzorak ....................................................................................................... 49
2.1.3
Postupak .................................................................................................... 49
2.1.4
Metodi obrade podataka ............................................................................ 49
Rezultati .................................................................................................................... 51
3.1 Modeli 1a, 2a i 3a – pokazatelji multikolinearnosti ........................................... 51
3.2 Model 1a, 2a i 3a - predlozi rešenja .................................................................... 60
3.2.1
Model 1a – prikaz rešenja ......................................................................... 60
3.2.2
Model 2a – prikaz rešenja ......................................................................... 63
3.2.3
Model 3a – prikaz rešenja ......................................................................... 65
3.3 Modeli 1b,2b i 3b – primeri strukturalnih jednačina .......................................... 68
3.3.1
Model 1b – fit, komentar i predložene modifikacije ................................. 71
3.3.2
Model 2b - fit, komentar i predložene modifikacije .................................. 74
3.3.3
Model 3b – fit, komentar i predložene modifikacije ................................. 78
Diskusija ................................................................................................................... 81
Zaključak................................................................................................................... 86
Literatura ................................................................................................................... 88
1 Uvod
Svaka nauka ima za cilj da istraži deo stvarnosti koja nas okružuje, da na neki način
opiše, analizira i naposletku predvidi onaj deo stvarnosti koja je predmet proučavanja te
nauke. Empirijske nauke, pomoću informacija iz prikupljenih podataka, teže da ove
ciljeve i ostvare. Aristotel tvrdi da je znanje zbog znanja najviši cilj nauke. Bacon pak
tvrdi da je pravi cilj svake nauke praktična korist, odnosno vlast nad prirodom - istiniti i
pravi cilj nauke nije pak nikakav drugi, nego da se ljudskom životu daju nova otkrića i
bogatstva (Bacon, 1964). Šta god od ovoga bilo tačno, sigurno je da razvoj nauke
svakako rezultuje praktičnom korisnošću za čoveka. No upravo razvojem nauke,
tehnologije i sveta uopšte, dolazi i do porasta informacija koji su samoj nauci na
raspolaganju. U skladu sa tim, u novije vreme se razvijaju sve egzaktnije tehnike koje
naučnicima omogućuju da opisuju, analiziraju i predviĎaju stvarnost. Zbog velike
količine podataka koji su nam na raspolaganju, postoji tendencija da se ti podaci
sumiraju, analiziraju i naposletku opišu, i to, sve više i više, teži se ka opisivanju
empirijskih podataka pomoću matematičkih modela. Statističke tehnike služe nam upravo
kao alati pomoću kojih možemo da analiziramo i opišemo podatke kojima raspolažemo u
okviru empirijskih nauka. Jedna od tih statističkih tehnika, od posebnog interesa za nauku
i ovaj rad, daje nam mogućnost da na osnovu velikog broja (prevashodno numeričkih)
podataka o različitim pojavama možemo analizirati vezu izmeĎu ovih pojava.
Jedna od važnih tehnika koja se koristi za matematički opis veza izmeĎu (numerički)
merljivih pojava je i regresija. Preciznije, regresija se definiše kao često primenjivana
statistička tehnika koja služi kao osnov za proučavanje i opis sistema od interesa, i to
putem formulisanja razumnog matematičkog modela odnosa izmeĎu varijable y i seta q
nezavisnih varijabli x1, x2, ... , xq (Everitt & Skrondal, 2010). Ipak, u okviru svakog
matematičkog postupka koji se primenjuje na podacima postoje odreĎena pravila i
ograničenja postavljena matematičkom teorijom koja stoji iza naših kalkulacija. Važnost
tačno dobijenih rezultata u naučnim istraživanjima nepotrebno je posebno naglašavati, a
da bi se ova tačnost dostigla potrebno je u korišćenju statističkih tehnika poštovati pravila
i ograničenja koja zahteva data tehnika. Tema ovog rada tiče se upravo jednog
2
ograničenja koje postavlja regresija i postupci zasnovani na regresiji – naime, da bi se
formulisao matematički model odnosa izmeĎu varijable y i seta q varijabli, varijable iz
seta q treba da budu meĎusobno nezavisne. Rad se bavi implikacijama kršenja ovog
ograničenja i daje opis osnovnih tehnika kojima se utvrĎuje da li je taj uslov zadovoljen
za dati set varijabli. TakoĎe, obraĎen je primer iz psihološke prakse u okviru kog podaci
ne zadovoljavaju ovaj uslov kao i predlozi mogućih rešenja ukoliko postoji (visoka)
zavisnost meĎu varijablama seta q.
1.1 Jednostavna i višestruka regresija
Linearna zavisnost dve varijable može se opisati modelom jednostavne linearne
regresije. Model jednostavne linearne regresije opisuje se obično kroz jednačinu
Yx= β0+ β1x + εx,
gde je Yx zavisna varijabla, x nezavisna varijabla, a εx je greška, slučajna varijabla koja
predstavlja varijacije Yx koje nisu objašnjene linearnim delom β0+ β1x (Goldberg & Cho,
2004). S obzirom da su β0 i β1 koeficijenti nepoznate konstante, želimo da utvrdimo
ocenu ovih konstanti za datu jednačinu. Ukoliko želimo da ispitamo zavisnost jedne
varijable od više varijabli, najjednostavniji tip višestruke regresione jednačine je model
prvog reda, u kom se svaka nezavisna varijabla javlja, ali nema nepoznatih koje su kros
produkti nezavisnih varijabli ili ih čine nezavisne varijable višeg stepena
(Ott &
Longnecker, 2010). Ovakav linearni model koji povezuje vrednost Y sa nekoliko
prediktora ima formu
Y= β0+ β1x1 + β2x2 + ... + βkxk + ε
Parametri β0, β1, ..., βk poznati su i kao regresioni koeficijenti (Rencher & Shaalje, 2008),
a model zovemo modelom višestruke ili multiple regresije. Ukoliko ocenu regresionih
koeficijenata utvrĎujemo putem metode najmanjih kvadrata (što je najčešće slučaj),
potrebno je da budu zadovoljene odreĎene pretpostavke da bi sistem jednačina iz kojih
3
ćemo utvrditi β imao jedinstveno rešenje, i da bi ocene regresionih koeficijenata bile
najtačnije moguće (u matematičkim terminima nepristrasne, efikasne i konzistentne). U
Tabeli 1. prikazane su ove pretpostavke.
Tabela 1. Pretpostavke koje prethode ocenjivanju β putem metode najmanjih kvadrata
(prema Zwillinger i Kokoska, 2000)
Pretpostavke
U terminima εi
U terminima Yi
εi su normalno rasporeĎene
Yi su normalno rasporeĎene
E[εi] = 0
E[Yi] = β0+ β1x1i +...+ βkxki
Var[εi] = σ2
Var[Yi] = σ2
Cov[εi, εj]=0, i ≠ j
Cov[Yi, Yj]=0, i ≠ j
U višestrukoj regresiji prvog reda, β1 predstavlja očekivanu promenu u Y za jediničnu
promenu u x1i kad se svi drugi x drže konstantnim. Postoji stoga dodatna pretpostavka
koja je implicirana kada koristimo model višestruke regresije prvog reda. S obzirom na to
da je očekivana promena u Y za jediničnu promenu u x1i konstantna i ne zavisi od
vrednosti ma kog drugog x, mi ustvari pretpostavljamo da su efekti nezavisnih varijabli
aditivni (Ott & Longnecker, 2010).
1.1.1 Regresioni koeficijenti ocenjeni metodom najmanjih kvadrata
Regresioni koeficijenti, kao što smo već rekli, najčešće se ocenjuju metodom
najmanjih kvadrata. Princip metoda najmanjih kvadrata počiva na minimiziranju zbira
kvadriranih odstupanja od regresione linije – zbir kvadriranih odstupanja odreĎen je kroz
izraz:
4
Tačkaste ocene β0 i β1, koje se obeležavaju
0
i
1
su one vrednosti koje
minimiziraju S(β0,β1) (Zwillinger i Kokoska, 2000). Gledajući linearni odnos dve
varijable, možemo reći da se metodom najmanjih kvadrata, u slučaju jednostavne
regresije, odreĎuje nagib regresione linije (β1) i odsečak na y osi (β0), tako da zbir
kvadriranih odstupanja opaženih podataka bude minimalan u odnosu na regresionu krivu
odreĎenu upravo regresionim koeficijentima. Na Grafiku 1. vidimo obeležena odstupanja
osmotrenih podataka od regresione linije (d1, d2) čiji se zbir kvadrata minimizira
izračunavanjem regresionih koeficijenata metodom najmanjih kvadrata.
Grafik 1. Regresiona linija i odstupanja
Y
d1
d2
X
Daljim izvoĎenjem dolazimo do sledećih formula za izračunavanje regresionih
koeficijenata za slučaj jednostavne linearne regresije:
5
U slučaju višestruke regresije izračunavanje regresionih koeficijenata je nešto
drugačije. Za svako od n osmatranja imamo
y1 = β0+ β1x11+...+ βkx1k + ε1
y2 = β0+ β1x21+...+ βkx2k + ε2
.
.
.
yn = β0+ β1xn1+...+ βkxnk + εn
Što možemo zapisati i u matričnoj formi kao y = Xβ + ε, gde y predstavlja vektor
osmotrenih vrednosti zavisne promenjive, X matricu osmotrenih vrednosti prediktora, β
predstavlja vektor regresionih koeficijenata za odgovarajuće prediktore, dok ε predstavlja
vektor greške. Zapisano u matričnoj formi, ako je y = Xβ + ε, gde je X matrica n × (k +1)
ranga (k +1) < n, onda je vrednost ocene β (β0,β1,...,βk) koja minimizira sumu kvadrata
grešaka:
β = (X’X)-1 X'y,
Po matematičkoj teoriji, ako je X matrica punog ranga, tj. ako su sve kolone matrice X
linearno nezavisne, i X’X nije singularna matrica, rešenje vektora β može se dobiti upravo
ovim putem (Rencher & Shaalje, 2008), s tim da daljim izračunavanjima iz osnovnih
jednačina dobijamo:
6
1.2 Strukturalne jednačine
Strukturalne jednačine predstavljaju još jedan način za matematičko opisivanje
realnosti i veza izmeĎu pojedinih pojava. Iz teorijske perspektive, višestruka regresija je
ustvari specijalni slučaj strukturalnog modela, ali s obzirom na njenu još uvek širu
upotrebu i pojednostavljenost u odnosu na strukturalne jednačine u celini, jasnije je
prikazati strukturalne jednačine kao nastavak analize višestruke regresije, što u
istorijskom, hronološkom sledu i jeste slučaj – naime, aktivno korišćenje strukturalnih
jednačina u praksi je nešto novijeg datuma u odnosu na korišćenje višestruke, a pogotovo
jednostavne regresione analize. Strukturalne jednačine su "familija" postupaka, koja
omogućava testiranje pretpostavki o odnosima unutar skupa varijabli. Naime, ukoliko se
adekvatno izmere pojave koje su nam od interesa, tj. koje su sadržane u teorijskim
pretpostavkama koje želimo da proverimo, kroz analizu putem strukturalnih jednačina
možemo proveriti da li taj teorijski model odgovara stvarnosti ili pak značajno odudara
od nje. Prvi korak koji je potrebno uraditi u ovom procesu jeste upravo prevoĎenje teorije
na „jezik matematike“, tačnije prevoĎenje teorijski pretpostavljenih odnosa meĎu
pojavama u set jednačina pomoću kojih se ovi odnosi opisuju.
Ove jednačine zovemo strukturalne jednačine, a proces prevoĎenja nazivamo
specifikacija modela. Do greške specifikacije dolazi ukoliko je jedna od pretpostavki
modela netačna. Većina modela sadrži grešku specifikacije, ali je moguće da su celi
modeli ili odreĎeni delovi modela stabilni čak i sa ovim greškama (Kenny, 2004).
Strukturalni modeli imaju dva osnovna elementa – varijable i parametre
(aritmetička sredina i varijansa su primeri dva parametra). Varijable mogu biti:

latentne - teorijski koncepti koji ne mogu biti posmatrani direktno (Byrne,
2010)

posmatrane (manifestne) koje u kontekstu strukturalnog modelovanja služe
kao indikatori konstrukta koji želimo da procenimo (Byrne, 2010),
a s druge strane, ukoliko posmatramo sam model, važno je da razlikujemo i:

egzogene varijable – one služe kao objašnjavajuće, njihovo variranje nije
objašnjeno putem modela (nezavisne varijable)
7

endogene – one čije variranje objašnjavamo bilo direktno ili indirektno (ali
mogu istovremeno da budu i objašnjavajuće za neku drugu endogenu
varijablu).
Standardni način obeležavanja kauzalnih parametara je korišćenje b ili β sa indeksom za
efekat i uzrok (tim redosledom). Korišćenje b ili β implicira da su parametri regresioni
koeficijenti. Oni teorijski jesu regresioni koeficijenti, ali u praksi je čest slučaj da ocena
putem višestruke regresije ne obezbeĎuje nepristrasne procene kauzalnih parametara. Set
strukturalnih jednačina definisan iz odreĎenih teorijskih pretpostavki putem varijabli i
parametara zovemo strukturalni model - neki ga nazivaju i kauzalnim modelom ali
dodatne pretpostavke moraju biti zadovoljene da bi tvrdili da je odnos meĎu varijablama
kauzalan (Kenny, 2004).
Većina analiza prati 6 osnovnih koraka, čiji je opis dat i u dole navedenom dijagramu
(Kline, 2011):
1. specifikacija modela
2. identifikacija modela
3. odabir mera (operacionalizacija) i priprema podataka
4. procena modela:
a. procena fita modela (ako je loš, preći na korak 5.)
b. interpretacija procenjenih parametara
c. razmatranje ekvivalentnih ili skoro ekvivalentnih modela (preći na
korak 6.)
5. respecifikacija modela (vraćanje na korak 4.)
6. izveštavanje rezultata.
8
Grafik 2. Dijagram osnovnih koraka strukturalnog modelovanja (preuzet od Kline,
2011).
Postoje tri glavne grupe postupaka u okviru analize strukturalnih jednačina
1. Analiza putanje – model putanje predstavlja strukturalni model za manifestne
varijable, a strukturalni model, kao što smo već rekli, prestavlja hipotezu o
prioritetima efekata. Strukturalni model u užem smislu u okviru analize putanje
predstavlja
usvari
pretpostavljene
veze
izmeĎu
manifestnih
varijabli.
Najjednostavniji model analize putanje pretpostavlja da je X uzrok Y. Statistički
pokazatelji direktnih efekata su koeficijenti putanje, koji se interpretiraju kao
regresioni koeficijenti u višestrukoj regresionoj analizi. Osnovni modeli analize
putanje prikazani su na sledećem grafiku – strelica
efekat,
predstavlja direktan
govori da varijabla slobodno varira, krugom su predstavljene latentne
9
varijable (u ovim slučajevima samo greške, dok su kvadratima predstavljene
manifestne varijable), a svaka endogena varijabla ima grešku (D). Ipak, egzogene
varijable nemaju grešku, pa se pretpostavlja u analizi putanje da su skorovi
egzogenih varijabli savršeno pouzdani (Kline, 2011). Ova pretpostavka važi kao i
za višestruku regresiju i o njenom narušavanju smo već govorili. TakoĎe, u okviru
analize putanje pretpostavlja se i da su greške nezavisne od egzogenih varijabli –
ova pretpostavka je direktno analogna pretpostavki o nekoreliranim greškama i
prediktorima u okviru višestruke regresije (Kline, 2011).
Grafik 3. Osnovni modeli analize putanje (prema Kline, 2011)
10
2. Konfirmativna faktorska analiza – koristimo je kada već poznajemo faktorsku
strukturu konstrukta koji merimo, tj.kada pretpostavljamo na osnovu teorije ili
prethodnih istraživanja o vezi izmeĎu manifestnih varijabli koje merimo i faktora,
konstrukata, latentnih varijabli, koje želimo da predstavimo odabranim
manifestnim. S obzirom na to da KFA model predstavlja samo vezu izmeĎu
faktora i njihovih manifestnih (merenih) varijabli, u okviru strukturalnog
modelovanja, ovakav model zovemo i mernim modelom (Byrne, 2010).
3. Strukturalni modeli – ovi modeli su generalni tip strukturalnih modela i
predstavljaju na neki način generalizaciju i sintezu modela analize putanje i
modela konfirmatorne faktorske analize. Tačnije, oni bukvalno predstavljaju
model koji je sinteza strukturalnog modela koji predstavlja kauzalne veze, i
mernog modela koji predstavlja veze izmeĎu manifestnih i njima nadreĎenih
latentnih konstrukata. Da bismo napravili razliku izmeĎu strukturalnog modela
kao pojma koji opisuje postojanje (kauzalnih) veza izmeĎu varijabli i ovog
modela koji predstavlja sintezu mernog modela i strukturalnog u užem smislu,
neki autori ovaj tip modela nazivaju i regresionim strukturalnim modelom (Kline,
2011).
Pored ove podele tipova možemo razlikovati i rekurzivni i nerekurzivni tip strukturalnih
modela. Rekurzivni modeli su oni u okviru kojih ne postoje povratne uzročne veze u
okviru modela, dok u okviru nerekurzivnih modela postoje povratne sprege, bilo da su
one direktne ili indirektne. Neki autori ih zovu i hijerarhijski i nehijerarhijski (Kenny,
2004).
1.3 Multikolinearnost - osnovna svojstva
Neki autori koriste termine kolinearnost i multikolinearnost sinonimno. Fox (2005)
navodi da je kolinearnost tj. multikolinearnost jak linearni odnos meĎu kolonama matrice
modela u linearnom modelu, koji smanjuje preciznost procenjenih regresionih
koeficijenata. Drugi autori prave razliku izmeĎu kolinearnosti i multikolinearnosti,
11
utoliko da kolineranost predstavlja specijalan slučaj multikolinearnosti gde je jedna
varijabla linearna funkcija druge. Ipak, autori u domenu društvenih nauka često koriste
ove pojmove sinonimno (Voss, 2004). Multikolinearnost se obično definiše kao: termin
koji se koristi u analizi regresije i ukazuje na situacije u kojima su prediktorske varijable
meĎusobno povezane linearnom funkcijom , što čini procenu regresionih koeficijenata
nemogućom. Uključivanje zbira prediktorskih promenljivih u analizi regresije bi, na
primer, moglo da dovede do ovog problema (Everitt & Skrondal, 2010). TakoĎe, u
definisanju, pravi se razlika izmeĎu tzv. savršene ili potpune multikolinearnosti i
delimične ili približne multikolinearnosti.
O savršenoj multikolinearnosti govorimo kada se dve ili više varijabli preklapaju
potpuno, tako da jedna čini savršeno linearnu funkciju drugih, tako da metod analize ne
može da ih razlikuje jednu od druge. Ovo preklapanje sprečava višestruku regresionu
analizu da proceni regresione koeficijente. S druge strane, delimična multikolinearnost
javlja se kada se dve ili više prediktorskih varijabli preklapa, tako da su povezane jedna
sa drugom u datom u uzorku, ali još uvek sadrže meĎusobno nezavistan varijabilitet.
Ovakvo stanje ograničava meru u kojoj analiza može razlikovati značaj pojedinačnih
varijabli, ali ne krši nijednu pretpostavku neophodnu za izvoĎenje same regresije (Voss,
2004). Delimična multikolinearnost takoĎe može da izazove probleme prilikom procene
regresionih koeficijenata. Naročito ako je koeficijent višestruke korelacije za regresiju
odreĎene prediktorske varijable nad drugim (prediktorskim varijablama) visok, onda će
varijansa odgovarajućeg procenjenog regresionog koeficijenta takoĎe biti visoka (Everitt
& Skrondal, 2010). No, detalji o vrstama multikolinearnosti i specifičnim problemima
izračunavanja i pouzdanosti dobijenih rezultata razraĎeni su u daljim poglavljima.
1.3.1 Logika multikolinearnosti
Ako bismo varijabilnost ispitivanih varijabli predstavili Venovim dijagramima, tako da K
predstavlja kriterijum (zavisnu varijablu), a P1, P2, P3 predstavljaju prediktore (nezavisne
varijable), da bi linearni model prvog reda K = b0 + b1*P1, + b2*P2 + b3*P3 bio tačan,
grafički prikaz odnosa varijabilnosti pomoću Venovih dijagrama trebalo bi da bude
identičan Grafiku 3.
12
Grafik 4. Prikaz varijacija i kovarijacija prediktora i kriterijuma jednog modela
višestruke regresije
Iz grafika se može videti da su prediktori (nezavisne varijable) nepovezani meĎu sobom.
Jednom rečju, ne postoji kovarijacija izmeĎu prediktorskih varijabli, i svaki pojedinačni
prediktor doprinosi objašnjavanju varijacije kriterijuma upravo onoliko koliko iznosi
kovarijacija te varijable i kriterijuma. TakoĎe možemo uočiti da su efekti pojedinačnih
nezavisnih varijabli aditivni, dakle svaki pojedinačni prediktor doprinosi objašnjavanju
jednog dela varijanse kriterijuma nezavisno od drugih kriterijuma, i možemo tvrditi da se
regresioni koeficijenti mogu tačno utvrditi upravo na osnovu kovarijacije prediktora i
kriterijuma. S druge strane, ukoliko se grafički prikaz modela višestruke regresije može
prikazati dijagramom prikazanim na Grafiku 4, situacija postaje znatno nejasnija.
Grafik 5. Prikaz varijacija i kovarijacija jednog modela višestruke regresije kao
ilustracija multikolinearnosti
13
Vidimo da linearni model K = b0 + b1*P1 + b2*P2 + b3*P3 više ne daje tačan prikaz
situacije. Naime, kovarijacije pojedinačnih prediktora sa kriterijumom se preklapaju pa
samim tim efekti pojedinačnih prediktora nisu aditivni, čime gore prikazana jednakost
postaje netačna. Jasno se vidi iz dijagrama da je prediktor P2 takoreći suvišan. Negova
kovarijacija sa kriterijumom je znatna, ali se u velikoj meri preklapa sa onim delom
varijabilnosti kriterijuma koji je već objašnjen pomoću preostala dva prediktora, pa tako
prediktor P2 deli veoma malu kovarijaciju sa kriterijumom koja nije prethodno sadržana u
kovariranju sa preostalim prediktorima. Ovakvo preklapanje prediktorskih varijabli
meĎusobno nazivamo multikolinearnošću. U daljem tekstu ćemo videti da je veoma teško
tačno proceniti regresione koeficijente ukoliko postoji multikolinearnost, a najveći
problem tiče se upravo pouzdanosti procene. Naime, jedna od pretpostavki linearnog
modela višestruke regresije tvrdi da prediktori moraju da budu mereni savršeno
pouzdano. Ipak, svaki prediktor sa pouzdanošću koja je manja od savršene može da nosi
sa sobom odreĎenu količinu greške koja nije slučajna. Ukoliko možemo tvrditi da naša
prva varijabla nije savršeno pouzdana i da njena greška nije potpuno slučajna, ovakvu
varijablu bi trebalo korigovati za nisku pouzdanost. Logički gledano, s obzirom na to da
prediktor koji merimo nije pouzdan, ne možemo tvrditi sa visokom pouzdanošću ni o
njegovoj vezi sa kriterijumom, pa samim tim ne možemo sa visokom pouzdanošću
utvrditi ni regresioni koeficijent. Neke od posledica ove pojave su sledeće: (a) čak i male
korelacije (izmeĎu prediktora) rezultuju znatnom promenom veličine efekta (R2) kad su
korigovane za nisku pouzdanost (b) u nekim slučajevima korigovana korelacija nije samo
znatno drugačijeg intenziteta, već se menja i smer veze i (c) kao što je i očekivano, do
najdramatičnijih promena dolazi kada su kovarijate (prediktori) u visokoj korelaciji sa
drugim varijablama (Osborne & Waters, 2002).
1.3.2 Matematika multikolinearnosti – matrična algebra
Kao što se može zaključiti već iz prethodnih razmatranja o višestrukoj regresiji,
jednačine koje povezuju zavisne i nezavisne varijable mogu biti napisane i u sledećoj
formi:
14
što možemo zapisati i u matričnoj formi kao y = Xβ + ε. Kao što smo već rekli, zapisano
u matričnoj formi, ako je y = Xβ + ε, gde je X matrica n × (k +1) ranga (k +1) < n, onda
je vrednost ocene β (β0,β1,...,βk) koja minimizira sumu kvadrata grešaka:
β = (X’X)-1 X'y,
Po matematičkoj teoriji, ako je X matrica punog ranga, i X’X nije singularna matrica,
rešenje vektora β može se dobiti upravo ovim putem (Rencher & Shaalje, 2008). Do
krajnjeg rezultata (β = (X’X)-1 X'y) došli smo sledećim izvoĎenjima - ako je zbir
kvadriranih odstupanja od regresione linije po principu najmanjih kvadrata, kao što smo
već rekli,
ili pak možemo zapisati da je ovaj zbir kvadriranih odstupanja ustvari:
onda dalje možemo reći dana osnovu gornje jednakosti možemo izvesti dve
diferencijalne jednačine:
iz kojih se daljim izvoĎenjem dolazi do tzv. normalnih jednačina
15
Naravno, s obzirom na to da pri rešavanju seta jednačina želimo da procenimo regresioni
koeficijent iz datog uzorka, u jednačinama procene parametara obeležavamo kao b
umesto β koje se uglavnom odnosi na populacioni regresioni koeficijent. Imajući u vidu
da je
+
+
+...+
=
, i da zbir kvadrata može biti ovako zapisan u
matričnoj formi, u generalnom slučaju za linearnu regresiju možemo zapisati i da važi
sledeća jednakost:
Iz ovog sledi da gore navedene normalne jednačine mogu biti zapisane na sledeći način u
matričnoj formi:
gde je b = (b0, b1), a ove jednačine rešavanjem daju ocene (b0, b1) regresionih
koeficijenata (β0, β1) metodom najmanjih kvadrata (Draper & Smith, 1998).
Da bi rešili ove jednačine u matričnoj formi potrebno je da definišemo inverz
matrice, koji postoji jedino kad je matrica kvadratna i kada je determinanta matrice
različita od nule (drugim rečima, "kad matrica nije singularna"). Dakle, da bismo došli do
rešenja potreban nam je inverz matrice X’X, pa ukoliko bi ta matrica bila singularna, neke
normalne jednačine bile bi ustvari linearna kombinacija drugih. U tom slučaju, ustvari bi
bilo manje jednačina nego nepoznatih, pa bi bilo nemoguće naći jedinstvena rešenja, tj.
jedinstvene ocene b0, b1, osim ukoliko se postave dodatna ograničenja i pretpostavke
(Draper & Smith, 1998).
1.3.3 Singularnost matrice X’X
Da bismo ocenili (β0, β1) metodom najmanjih kvadrata iz gore navedene jednačine,
moramo pomnožiti obe strane jednačine sa inverzom matrice X’X pa tako dobijamo:
16
Ako je za dati set podataka i dati model, matrica X takva da ma koja od njenih
kolona može biti izražena kao linearna kombinacija ostalih kolona, ova meĎuzavisnost
biće prebačena na matricu X’X koja će imati determinantu jednaku nuli (biće dakle
singularna matrica). Ovo znači da nećemo moći izračunati inverz matrice pa samim tim
neće biti moguće ni oceniti β0, β1 metodom najmanjih kvadrata (Draper & Smith, 1998).
U statistici, potpuna meĎuzavisnost jedne nezavisne varijable od druge naziva se još i
savršenom multikolinearnošću. Jednom rečju, ukoliko postoji savršena multikolinearnost
u datom modelu za date podatke, biće nemoguće dobiti jedinstvena rešenja za procenu
regresionih koeficijenata. Naime, ovakva situacija rezultovala bi beskonačnim brojem
rešenja za ocene β0, β1, jer naši podaci ne obezbeĎuju dovoljno informacija za dobijanje
jedinstvenog rešenja. Primera radi, našli bi se u situaciji u kojoj iz jedne jednačine treba
da ocenimo dve nepoznate, što rezultuje beskonačnim brojem rešenja, pa bi (b0, b1) mogli
biti ma koji brojevi, takvi da važi jednakost
i to za ma koje b0.
Kenny (2004) ovakvu situaciju u okviru strukturalnih jednačina naziva empirijskom
neidentifikacijom - slučaj da je delilac izraza putem kog računamo ocenu parametra
jednak ili skoro jednak nuli. Multikolinearnost je jedan od primera empirijske
neidentifikovanosti.
Ipak, u praksi se reĎe dešava da postoji savršena korelacija meĎu dva ili više
prediktora. Češće se dešava da dolazi do pojave
veoma visoke korelacije meĎu
prediktorima, što znači da nećemo dobiti singularnu matricu X’X, dakle regresioni
koeficijenti će biti izračunjivi, postojaće jedinstveno rešenje ali se dovodi u pitanje
pouzdanost njegove procene. Iako je ocena jedinstvena kad je delilac različit od nule, ako
je on veoma blizak nuli, ocena može biti praktično beskorisna jer je greška ocene
ogromna. Problem je kako definisati „blizak nuli“. Kada radimo na korelacionoj matrici
koja daje delilac manji od 0.1, ocene su često toliko nestabilne da su beskorisne (Kenny,
2004).
17
1.3.4 Matematika multikolinearnosti – koeficijenti pravca
Već smo videli u prethodnim poglavljima da se vrednost ocene β računa kroz:
β = (X’X)-1 X'y,
i to ako je X matrica punog ranga, tj.ako su sve kolone matrice X linearno nezavisne, i
X’X nije singularna matrica. β se ponekad naziva i parcijalnim regresionim koeficijentom
– ovakav naziv ima za cilj da naglasi da β1 u okviru višestruke regresije označava
promenu očekivanja Y sa jediničnom promenom X1 ukoliko se svi drugi prediktori
(X2,...,Xk) drže konstantnim. Statistički β1 predstavlja efekat X1 na očekivanje Y-a u
prisustvu ostalih prediktora. Ovaj efekat bi inače bio drugačiji ukoliko ostali prediktori ne
bi bili prisutni u modelu (Rencher & Shaalje, 2008). Upravo zato što je β1 u okviru
višestruke regresije parcijalni regresioni koeficijent, što je veća korelacija meĎu
prediktorima, to je manja kovarijansa koju jedan prediktor samostalno deli sa
kriterijumskom varijablom i što dovodi do smanjenja efekta i povećanja greške procene
koeficijenata.
Kao i u jednostavnoj regresiji , što je veća greška reziduala
s ( ) , veća je i
nesigurnost procene koeficijenata . TakoĎe, što je manja varijabilnost prediktora , veća je
standardna greška koeficijenta. Najvažnija primena formule za procenjene standardne
greške je da ilustruje efekat kolinearnosti. Ako je nezavisna promenljiva x vrlo
kolinearna sa jednom ili više drugih nezavisnih varijabli,
R
2
j
je po definiciji veoma
veliki i 1  R j je blizu nule. Deljenje brojem blizu nule daje veoma veliku standardnu
2
grešku. Dakle, jedan važan efekat ozbiljne multikolinearnosti je da rezultuje veoma
velikim standardnim greškama parcijalnih koeficijenata (nagiba) i stoga dobijamo veoma
netačne procene (Ott & Longnecker, 2010), što se može videti i iz formule za računanje
standardne greške koeficijenata:
Formula se može napisati i na sledeći način:
18
,
gde je
s ( ) varijansa greške, n je veličina uzorka, s ( x j ) je standardna devijacija xj
prediktora, a
R
2
j
je kvadrat koeficijenta multiple korelacije regresije prediktora xj na sve
druge prediktore. Stoga, neprecizne procene su produkt velike varijanse greške, malog
uzorka, homogenih prediktora i
jake linearne veze meĎu prediktorima, tj.
multikolinearnosti ( Fox, 2005).
1.3.5 Vrste multikolinearnosti
Neke vrste multikolinearnosti već smo pominjali. Naime, rekli smo da
multikolinearnost možemo razlikovati po visini veze meĎu prediktorima – ako postoji
jedinična korelacija meĎu ma koja dva prediktora dolazi do potpune ili savršene
multikolinearnosti i ovakva pojava onemogućava ocenjivanje regresionih koeficijenata
metodom najmanjih kvadrata. Jednom rečju, do savršene multikolinearnosti dolazi kada
jedna objašnjavajuća varijabla ne sadrži varijabilnosti koja je nezavisna od variranja
drugih objašnjavajućih varijabli. No treba imati u vidu da postojanje savršene
multikolinearnosti ne znači da su objašnjavajući koncepti teorijski nerazdvojivi u
populaciji ili da bi bili konceptualno neodvojivi u nekom drugom uzorku. To znači da u
postojećem uzorku bez uključivanja nekih dodatnih informacija ne može da se odvoji
efekat datih objašnjavajućih faktora. MeĎutim, dok do pojave savršene multikolinearnosti
retko dolazi u podacima vezanim za društvene nauke osim ako su uzorci veoma mali ili
istraživač napravi neku grešku, delimična multikolinearnost je retko odsutna (Voss,
2004). MeĎutim, upravo ova činjenica i predstavlja pravi problem. U istraživanjima
vezanim za društvene nauke, prediktori skoro uvek makar malo kovariraju meĎu sobom.
Stoga odreĎivanje granice koja je prihvatljiva za dalju analizu ponekad nije jednostavan
posao. Videli smo i u okviru prethodnih poglavlja da parcijalna multikolinearnost ne krši
nijednu od pretpostavki koje su neophodne da bi se regresija izračunala, tako da možemo
19
reći da ne dovodi ni do remećenja poželjnih karakteristika ocenjivača (kao što su
nepristrasnost i efikasnost). TakoĎe, pojava parcijalne multikolinearnosti ne sprečava
izračunavanje tačnih mera nesigurnosti procena (grešaka). No, nažalost, visoka
multikolinearnost, kao što smo videli, iako ona nije savršena, može dovesti upravo do
velikih grešaka pri izračunavanju regresionih koeficijenata, tj. neprecizno procenjenih
regresionih koeficijenata. MeĎutim, ponekad se čak u okviru samog istraživanja
podrazumeva da će neki prediktori korelirati ali nam je važno da odredimo i njihov
pojedinačni uticaj na kriterijum.
TakoĎe možemo da razlikujemo i multikolinearnost po izvorima nastajanja.
Korelacija koja postoji izmeĎu X1 i X1X2 kada imaju aritmetičku sredinu različitu od nule
često se naziva neesencijalnom multikolinearnošću koja je nastala zbog skaliranja i
nestaje reskaliranjem; s druge strane, deo korelacije koja je nastala zbog zakrivljenosti
distribucija naziva se esencijalnom multikolinearnošću i ne može biti odstranjena prostim
reskaliranjem (Marquardt 1980, prema Afshartous & Preston, 2011). Jednom rečju,
ukoliko postoji efekat interakcije koji uključujemo u model ovi efekti stvaraju
multikolinearnost meĎu prediktorima samim tim što je efekat interakcije (X1X2) visoko
povezan sa komponentama koje ga čine (Weiner, Schinka, Velicer, 2003). Dakle, postoje
dve vrste multikolinearnosti po izvoru nastajanja. Prva je neesencijalna koja nastaje
isključivo kao posledica skaliranja i nestaje kada su prediktori centrirani pre formiranja
efekata interakcije (o centriranju više u daljim poglavljima). Drugi izvor je esencijalna
multikolinearnost, korelacije koje postoje zbog ne-normalnosti distribucija ili ma kakve
asimetrije u distribuciji prediktorskih varijabli i ona ne može biti eleminisana
(Moosbrugger, Schermelleh-Engel, Kelava, Klein, 2009).
1.4 Mogući uzroci multikolinearnosti i dijagnostika
Već smo pominjali da multikolinearnost može da bude uzrokovana greškama
istraživača ili skaliranjem. Iako je ovu vrstu multikolinearnosti uglavnom relativno lako
prevenirati i otkloniti, prema učestalosti javljanja ovakvih grešaka, ovi uzroci su svakako
vredni pomena. Konkretno, jedan od uzroka multikolinearnosti koji se tiče greške
20
istraživača može da bude uključivanje skale i podskala te iste skale kao prediktora u istoj
regresionoj analizi. Recimo da upitnik ima 5 subskala. Iako su bivarijatne korelacije
izmeĎu ukupnog skora i svake pojedinačne subskale relativno niske, višestruka korelacija
izmeĎu ukupnog skora i subskala je 1, što je ustvari savršena multikolinearnost.
Nepotrebno je naglašavati da ukupni skor ne donosi ni logički na matematički nikakve
nove informacije koje dodatno objašnjavaju kriterijum. TakoĎe, pojava neesencijalne
multikolinearnosti može da bude eliminisana centriranjem o kom će biti više reči kasnije.
Kenny (2004) naglašava da multikolinearnost može biti posledica neujednačenog
faktorskog nacrta. Naime, ukoliko je neujednačen broj ispitanika u različitim grupama, tj.
na različitim nivoima moderator varijabli postoji mogućnost da slučajno dobijemo visoke
korelacije koje su ustvari uzrokovane niskom pouzdanošću procene za odreĎene grupe.
Čak i pri samom planiranju nacrta istraživanja potrebno je obratiti pažnju da su svi nivoi
varijabli predstavljeni dovoljnim brojem ispitanika. Naime, ako faktorski nacrt
podrazumeva merenje inteligencije opšte populacije, ne možemo izvoditi zaključke o
kliničkoj populaciji koja čini veoma mali procenat opšte populacije. Ako želimo da
tvrdimo o korelaciji npr. težine psihičkog poremećaja i inteligencije, potrebno je planski
uključiti veći broj ispitanika sa psihičkim poremećajima nego što je u opštoj populaciji
zastupljeno. Primer ovakve pojave može biti i nepravilno uzorkovanje u okviru kog
biramo populaciju odreĎenog profila, recimo većinom mlaĎe ispitanike; ukoliko u okviru
istraživanja dobijemo da postoji veoma visoka korelacija izmeĎu npr. broja dece i
starosti, u pitanju je ustvari greška u nacrtu istraživanja u okviru kog jedna varijabla nije
predstavljena podjednakim brojem ispitanika na svim nivoima. Grešku multikolinearnosti
ponekad možemo izbeći i pažljivim planiranjem uzorkovanja i faktorskog nacrta.
MeĎutim, iako smo već pominjali da je mnogo teže odrediti postojanje parcijalne
multikolinearnosti, pitanje je ustvari, kada je parcijalna multikolinearnost zaista štetna.
TakoĎe, već smo rekli da su neprecizne procene produkt velike varijanse greške, malog
uzorka, homogenih prediktora i
jake linearne veze meĎu prediktorima, tj.
multikolinearnosti (Fox, 2005). No, pitanje koje ostaje jeste - u kojoj meri postojanje
multikolinearnosti može da bude nadoknaĎeno veličinom uzorka, varijabilnošću
prediktora i malom varijansom greške. Ili, sa druge strane, kolika bi trebalo da bude
multikolinearnost da bi rezultovala nepreciznim procenama regresionih koeficijenata, i
21
koliko to zavisi od ostalih faktora koji utiču na preciznost procena? Mason and Perreault
(1991) u svojoj simulacionoj studiji prikazuju faktore koji deluju na preciznost procene
regresionih koeficijenata zajdeno sa multikolinearnošću. Ovi autori navode da
kolinearnost dovodi do nepreciznih procena regresionih koeficijenata kao i varijanse
greške, ali ova nepreciznost takoĎe zavisi i od veličine uzorka i visine R2. Studija je
raĎena sa 4 prediktora, a rezultati koji se tiču prva dva prediktora govore da:

glavni efekti multikolinearnosti, R2 i veličine uzorka objašnjavaju ukupno 75%
varijabilnosti – pojedinačni procenti objašnjene varijanse su: 28% za veličinu

uzorka, 26% za kolinearnost, i 21% za R2
dvostruke interakcije (kolinearnost  R2, kolinearnost  veličina uzorka, R2 

veličina uzorka) su takoĎe značajne i zajedno objašnjavaju oko 21% varijanse
trostruka interakcija kolinearnost  R2  veličina uzorka je takoĎe značajna i
objašnjava oko 3% varijanse
TakoĎe, njihovi nalazi govore da se srednja vrednost standardne greške regresionog
koeficijenta uveliko povećava za uzorke manje od 100, dok je za uzorke preko 100 i
pogotovo preko 300 relativno mala razlika srednje vrednosti greške (s obzirom na to da je
u pitanju simulaciona studija, reprezentativnost uzorka nije upitna). TakoĎe, povećanjem
kolinearnosti meĎu prediktorima, povećava se vrednost standardne greške regresionog
koeficijenta, ali je ta razlika opet relativno mala ukoliko je R2=0.75, dok je razlika nešto
veća ukoliko je R2=0.25. Dakle svakako je važan aspekt uticaj multikolinearnosti na
preciznost procene koeficijenata, a ovaj se ne može posmatrati nezavisno od veličine
uzorka i procenta varijanse objašnjene samim modelom. No iako ovi faktori treba da
budu uzeti u obzir i ukoliko je u pitanju analiza putem stukturalnih jednačina ovaj rad
nije osmotrio važne aspekte multikolinearnosti sa gledišta strukturalnog modelovanja, pre
svega o pojedinim pitanjima koja su specifična, kao što je greška merenja. Svojstvo
strukturalnih
modela
da
uljučuju
grešku
merenja
otežava
procenu
uticaja
multikolinearnosti na procenu parametara (Bollen, 1989, prema Grewal et al., 2004).
Mason
and
Perreault
(1991) tvrde da povećanje objašnjene varijanse kriterijuma
ublažava efekte multikolinearnosti, dakle uvoĎenje grešaka merenja bi trebalo da poveća
obim objašnjene varijanse pomoću strukturnosg modela i samim tim ublaži
multikolinearnost. MeĎutim, greška merenja takoĎe slabi korelacije izmeĎu egzogenih
22
varijabli. Prisustvo greške merenja bi verovatno rezultovalo prikrivanjem pravih
korelacija izmeĎu latentnih egzogenih konstrukata. Dakle kontrolisanje greške merenja bi
rezultovalo višim korelacijama izmeĎu egzogenih konstrukata nego nekontrolisanje
grešaka merenja. Kako Maruyama (1998, prema Grewal et al., 2004., str. 520) ističe,
"iako pristup latentnih varijabli u većini slučajeva pomaže uklanjanjem grešaka merenja i
specifikacije promenljivih, ironično može da se pojavi visoka multikolinearnost u
slučajevima u kojima prethodno nije bila problem
". Dakle, nejasno je da li će se
kontrolisanjem greške merenja ublažiti multikolinearnost zbog blagotvornih povećanja R2
ili pogoršati povećanjem korelacije izmeĎu egzogenih konstrukata. (Grewal et al., 2004).
Postoji nekoliko pokazatelja multikolinearnosti koji se najčešće koriste u praksi. S
obzirom na to da je multikolinearnost, pogotovo parcijalnu, ponekad veoma teško
odrediti, a posebno meru u kojoj ona šteti preciznosti analize, postoji više mera
multikolinearnosti koje različiti autori navode kao korisne. Videli smo takoĎe da uticaj
multikolinearnosti na preciznost ocene regresionih koeficijenata takoĎe zavisi i od R 2 i
veličine uzorka, pa se samim tim i većina mera ne može jednoznačno koristiti za svaku
analizu kojoj pristupamo, već odabrana mera treba da bude prilagoĎena našem
konkretnom
problemu.
Postoje
formalni
matematički
definisani
pokazatelji
multikolinearnosti, ali i neformalni pokazatelji i opšte preporuke kako prepoznati
problem multikolinearnosti u podacima.
Predloženi fomalni pokazatelji multikolinearnosti koje srećemo u literaturi su:
1. Višestruka korelacija među nezavisnim varijablama ili R2 svake nezavisne
varijable na ostale (Schmidt and Muller, 1978, prema Grewal et al., 2004;
Kline, 2011) – višestruka korelacija meĎu nezavisnim varijablama ustvari
pokazuje koliki je zajednički procenat varijanse koju prediktori dele. Što je ova
višestruka korelacija veća to je multikolinearnost više ugrožavajuća za preciznost
procene doprinosa pojedinačnih prediktora, no ne postoji formalni kriterijum koji
kaže koliki koeficijent višestruke korelacije meĎu kriterijumima je prihvatljiv.
Jednom rečju, suština je kroz nekoliko višestrukih regresija ispitati postojanje
multikolinearnosti – prema Kline-u (2011) ukoliko je R2> 0.9, prediktor se uzima
kao reduntantan. Mason and Perreault (1991) navode da je najčešće korišćeno
iako arbitrano pravilo da R2 svake nezavisne varijable na ostale ne bude veće od
23
R2 za ceo model. Ovaj pokazatelj ustvari govori isto što i VIF i tolerancija koji se
takoĎe zasnivaju na višestrukoj korelaciji meĎu prediktorima, a biće detaljnije
opisani u nastavku poglavlja.
2. Haitovski test, koji procenjuje singularnost korelacione matrice nezavisnih
varijabli (Schmidt and Muller,1978, prema Grewal et al., 2004), računa se prema
formuli:
,
sa brojem stepeni slobode
df 
gde je p broj prediktora, N broj slučajeva u uzorku, a |XTX| determinanta
korelacione matrice prediktorskih varijabli. Niska vrednost χ2 statistike ukazuje
na postojanje multikolinearnosti a njena jačina može biti merena nivoom
značajnosti na kom je hipoteza |XTX|=0 prihvaćena (Haitovsky, 1969).
A najčešće korišćeni formalni pokazatelji multikolinearnosti, koji će biti detaljnije
prikazani u daljem tekstu su:
3. VIF (variance inflation factor), koji bi mogli prevesti kao faktor preuveličavanja
varijanse (prediktora) i tolerancija (Kaplan, 1994, prema Grewal et al., 2004;
Maddala, 1992; Leech et al., 2005; Fox, 2005; Voss, 2004; Wheeler &
Tiefelsdorf, 2005; Ott & Longnecker, 2010; Kline, 2011).
4. GVIF ili generalizovani faktor preuveličavanja varijanse (prediktora) (Fox &
Monette, 1992).
5. Uslovni broj (Raduchel, 1971, Belsley, Kuh & Welsch ,1980, prema Maddala,
1992; Wheeler & Tiefelsdorf, 2005).
6. Karakteristični koreni korelacione matrice nezavisnih varijabli (Schmidt
and Muller,1978, prema Grewal et al., 2004; Kline, 2011).
24
No pored ovih, postoje i mnoge preporuke koje se često navode u literaturi, a koje za cilj
imaju prepoznavanje multikolinearnosti. Neki od ovih predloženih pokazatelja su:
1. Matrica jednostavnih interkorelacija (Kaplan, 1994, prema Grewal et al., 2004;
Leech et al., 2005; Voss, 2004; Wheeler & Tiefelsdorf, 2005) – matrica
jednostavnih korelacija može da upućuje na postojanje multikolinearnosti u
slučajevima kada je problem rezultat bivarijatne korelacije izmeĎu dva prediktora.
Ipak, neretko to nije slučaj, pa je moguće da se desi da pojedinačne jednostavne
korelacije meĎu prediktorima nisu visoke, ali npr. prvi i drugi prediktor u
potpunosti objašnjavaju treći (savršena multikolinearnost!). Dakle, ukoliko
matrica jednostavnih korelacija pokazuje da su bivarijatne korelacije meĎu
prediktorima niske to ne mora da znači da multikolinearnost ne postoji.
2. R2 za svaku nezavisnu varijablu pojedinačno (Voss, 2004) – koeficijent
determinacija jednostavne regresije jednog prediktora na kriterijum logički nam
daje iste informacije kao i koeficijent jednostavne korelacije.
3. Skater dijagrami variranja među prediktorima (Leech et al., 2005; Wheeler &
Tiefelsdorf, 2005) – ovaj metod takoĎe daje informacije koje u manjoj ili većoj
meri dobijamo iz matrice jednostavnih korelacija, s tim da ima prednost s obzirom
na to da se meĎu prediktorima mogu uočiti i veze koje nisu linearne (iako opet
samo bivarijatne).
4. Serija parcijalizovanih interkorelacija (Voss, 2004) – parcijalizovana
korelacija govori koliko prediktor doprinosti objašnjavanju kriterijuma ukoliko se
svi (ili neki) ostali prediktori drže konstantnim. Velika razlika izmeĎu
jednostavne
i
parcijalne
korelacije
obično
ukazuje
na
postojanje
multikolinearnosti. Promena znaka parcijalne u odnosu na jednostavnu korelaciju
ukazuje na veliku i vrlo verovatno štetnu kolinearnost meĎu prediktorima. Ipak,
ne postoji mera koja govori kolika razlika je prihvatljiva, niti kolika parcijalna
korelacija je prihvatljiva da bi prediktor zadržali u analizi.
5. Matrice interkorelacija regresionih koeficijenata (Kaplan, 1994, prema Grewal
et al., 2004; Guan, 2000; Hill & Osterby, 2002; Wheeler & Tiefelsdorf, 2005).
Pokazano je da (rang) korelacije izmeĎu regresionih parametara utiču na tačnost
25
predviĎanja modela – zavisno od važnosti ispitivanih parametara, korelacije imaju
različit uticaj na predviĎanje. U opštem slučaju, za iste visine korelacija,
korelacija izmeĎu važnijih parametara ima veći uticaj na tačnost predviĎanja;
takoĎe utiče na predviĎenu aritmetičku sredinu, ali značajno menja varijansu
predviĎenih vrednosti (Guan, 2000). U matrici osetljivosti X, xij = yi/ bj, gde
je yi je i-ti element od y, a bj je j-ti element od b (vektor koji sadrži vrednosti
parametara); parametri su korelirani ako i samo ako su odgovarajuće kolone
matrice X linearno zavisne (Hill & Osterby, 2002).
6. Znak regresionih koeficijenata (Kaplan, 1994, prema Grewal et al., 2004) –
ukoliko je znak regresionog koeficijenta promenjen u odnosu na jednostavnu
korelaciju prediktora sa kriterijumom, verovatno je u pitanju multikolinearnost.
TakoĎe, na njeno postojanje ukazuju vrednosti standardizovanih regresionih
koeficijenata veće od 1 - Byrne (2010) navodi da ovakva vrednost beta
koeficijenta ukazuje na postojanje greške specifikacije modela i da ovo rešenje
svakako nije prihvatljivo, a može biti pokazatelj multikolinearnosti.
7. Determinatna korelacione matrice prediktorskih varijabli (Schmidt
and
Muller, 1978, Kaplan, 1994, prema Grewal et al., 2004; Voss, 2004) – što je ova
determinatna veća od nule, to je korelaciona matrica dalje od singularne matrice
pa samim tim i postojanje eventualne multikolinearnosti manje verovatno,
tj.manje štetno. U formalizovanom obliku ovaj kriterijum je ustvari predstavljen
već pomenutim Haitovsky testom.
8. Značajnost promene R2 - parcijalizovani ili višestruko parcijalizovani F-test
značajnosti uključivanja novih prediktorskih varijabli (Voss, 2004). Naime,
ukoliko se prediktori u analizu uključuju u blokovima
, kada blok varijabli
zajednički pomaže u predviĎanju zavisne promenljive , promenljive će značajno
poboljšati fit modela, ali oni mogu da ne dostignu nezavisnu značajnost ako meĎu
njima postoji multikolinearnost. Ovo se svodi ustvari na upoređivanje fita
modela sa nepreciznošću (greškom) regresionih koeficijenata, tj.uporeĎivanje
značajnosti regresionih koeficijenata naspram značajnosti celokupnog modela
(ukoliko je model značajan a koeficijenti nisu verovatno je u pitanju štetna
multikolineaarnost). U ovu svrhu možemo posmatrati i takozvanu kvadriranu
26
semiparcijalnu korelaciju za svaki prediktor, koja je ustvari vrednost razlike
koeficijenata determinacije ako se na model sa uključenim prethodnim
prediktorima uključi još jedan (posmatrani prediktor).
9. Stabilnost regresionih koeficijenata kada se nekoliko opservacija izbaci iz
analize (Maddala, 1992) – ukoliko su prediktori nekorelisani razlika, izmeĎu
regresionih koeficijenata kada se izbaci nekoliko osmatranja, biće veoma mala, no
ukoliko meĎu njima postoji visoka multikolinearnost, izbacivanje nekoliko
osmatranja iz analiza rezultovaće većom promenom, smanjenjem ili nestajanjem
značajnosti efekta. Ovaj kriterijum je formalizovan računanjem takozvanog
uslovnog broja.
Prema tome kakav je pokazatelj multikolinearnosti vidimo da sve predložene pokazatelje
možemo podeliti u tri funkcionalno različite grupe:
a. Multikolinearnost - redundantnost pojedinačnog prediktora: R2 svake
nezavisne varijable na ostale, VIF, tolerancija, parcijalna korelacija,
značajnost promene R2 (semiparcijalna korelacija), promena znaka
regresionog koeficijenta.
b. Multikolinearnost u okviru grupe prediktora – visina multikolinearnosti u
okviru seta prediktora uzetih zajedno: Haitovski test, GVIF, determinatna
korelacione matrice prediktorskih varijabli, uslovni broj i generalna
stabilnost regresionih koeficijenata kada se nekoliko osmatranja izbaci iz
analize
c. Struktura multikolinearnosti – pokazatelji na osnovu kojih možemo
pretpostaviti o tome izmeĎu kojih prediktora postoji visoka kolinearnost:
R2 za svaku nezavisnu varijablu pojedinačno (osvrt na regresione
koeficijente), karakteristični koreni
korelacione matrice nezavisnih
varijabli (u kombinaciji sa uslovnim brojem), matrica jednostavnih
interkorelacija, skater dijagrami variranja meĎu prediktorima, matrice
interkorelacija regresionih koeficijenata.
Vidimo da pojedini pokazatelji mogu da nam kažu više informacija istovremeno, pa tako
na primer R2 za svaku nezavisnu varijablu pojedinačno može da nam kaže i o
redundantnosti pojedinačnog prediktora, ali ukoliko pogledamo visinu regresionih
27
koeficijenata u okviru ove podanalize možemo zaključivati i o samoj strukturi
kolinearnosti meĎu prediktorima.
1.4.1 Tolerancija, VIF i GVIF
Koeficijenti korelacije i faktor smanjenja varijanse (VIF) su najčešće korišćeni
dijagnostički pokazatelji za procenu problema kolinearnosti u preko 80% radova koji su
naveli jedan ili više pokazatelja kolinearnost. Niska korelacija ili niske vrednosti VIF-a se
smatraju indikatorima da su problemi kolinearnosti zaista eliminisani (Hess et al., 2008).
VIF smo ustvari već pominjali kao deo jednačine za procenu standardne greške regresionih
koeficijenata:
Upravo deo jednačine koji nam govori da standardna greška procene regresionog
koeficijenta zavisi od meĎusobnog kovariranja prediktora definiše VIF, i vidimo da je on
za pojedinačni prediktor tim veći što je veći koeficijent determinacije višestruke regresije
ostalih prediktora na dati prediktor:
VIFj =1 / (1-Rj2)
Možemo ga interpretirati kao odnos procenta stvarne varijanse prediktora sa varijansom
koju bi prediktor imao kada bi bio potpuno nezavisan od ostalih prediktora u analizi
(Maddala, 1992). Povećanjem VIF-a, regresioni koeficijent postaje sve nestabilniji. Jedno
od korisnih svojstava VIF jeste da je ustvari VIF1/2 (ili SIF, standardizovani VIF, ili
faktor smanjenja standardne greške koeficijenta, koji se može porediti, prema Fox, 1992)
jednak širini intervala poverenja oko standardizovanog koeficijenta.
Tolerancija nije ništa drugo do reciprična vrednost VIF, a tumači se kao procenat
varijanse prediktora koja je nazavisna od ostalih prediktora. Kao arbitrarna vrednost za
pokazatelj multikolinearnosti uzima se da postoji štetan uticaj ukoliko je VIF > 10, tj. ako
je tolerancija manja od 0.1 (Ott & Longnecker, 2010; Kline, 2011), a može se uzeti u
obzir i stroži kriterijum od 0.2 - 0.3 za toleranciju. Ovo bi značilo da se kao ozbiljan
28
indikator postojanja multikolinearnosti uzima tek ukoliko je procenat varijanse prediktora
koji nije objašnjen ostalim prediktorima manji od 10%. Naravno, vidimo u skladu sa
prethodno iznetim da ukoliko je koeficijent determinacije modela niži, a prediktor ima
nisku toleranciju, procenat zajedničke varijanse na kojoj zasnivamo procenu regresionog
koeficijenta biće veoma mali, ukoliko uzmemo u obzir i eventualno manji uzorak
ispitanika, logika nalaže da zaključimo da je verovatnoća greške zaista velika. No,
tolerancija sama po sebi ne može uvek detektovati postojanje multikolinearnosti. Pre
svega ukoliko odnos izmeĎu prediktora nije linearan, VIF i tolerancije će svakako
potceniti ili čak neće registrovati postojanje kolinearnosti. Neki pak autori navode da je
(tek) VIF<1.5 nizak (Wang et al., 2008), a neki autori isključuju varijable čiji je VIF >2
(Van Den Eeckhaut, 2005), ili smatraju da tolerancija <0.4 može indicirati
multikolinearnost (Allison, 2012). No i dalje, uzeti kriterijum za odreĎivanje štetne
kolinearnosti je potpuno arbitraran i vrlo je verovatno da u skladu sa prethodno ostalim
iznetim uticajima na preciznost procene regresionih koeficijenata, najčešće treba uzeti u
obzir i druge formalne i neformalne kriterijume za detekciju multikolinearnosti.
S druge strane Fox i Monette (1992) predlažu drugu meru multikolinearnosti
ukoliko želimo da ispitamo subset regresora pre nego pojedinačne regresore i njihove
odgovarajuće koeficijente. Ovo je posebno opravdano ukoliko npr. kvantitativnu
varijablu svedemo na set kvalitativnih varijabli i kada se u analizi javljaju polinominalni
efekti nezavisnih varijabli. U svakom od navedenih slučajeva baza izabrana za poreĎenje
je arbitrarna iako ceo prostor efekta nije. Dakle odnos izmeĎu setova regresora je i dalje
od interesa za odreĎivanje stepena kolinearnosti. GVIF je definisan kao:
GVIF = (det R11 x R22) / det R,
gde je det R korelaciona matrica svih kolona X isključujući konstantu (ili korelacije svih
kolona X1 i X2 parcijaliyovane za X0), a det R11 i det R22 u sladu sa tim korelaciona
matrica kolona X1 i X2. Radi poreĎenja meĎu setovima, preporučuju računanje
GVIF1/2p=GSIF1/p umesto GVIF. Uočavamo da ako je p=1, GVIF=VIF.
Ipak, kako kaže Maddala (1992), izgleda da su VIF i tolerancija korisni za
isključivanje varijabli ili uvoĎenje ograničenja parametara samo u odreĎenim ekstremnim
slučajevima kada je R2≈1. Glavni cilj VIF i tolerancije je upravo ispitivanje
29
interkorelacija, a samim tim ove mere poseduju i sve slabosti korelacija, kao i već
pominjanu arbitrarnost odreĎivanja visine tolerancije koja je (ne)prihvatljiva.
1.4.2 Karakteristični koreni korelacione matrice nezavisnih varijabli
Jedan od načina da se dijagnostifikuje postojanje kolinearnosti jeste izvoĎenje
takozvane ajgen (eigen) dekompozicije matrice interkorelacija prediktora, tj. analize
glavnih komponenti nad korelacionom matricom prediktorskih varijabli. Neki statistički
paketi, izbacuju tabelu u kojoj su sadržane glavne komponente korelacione matrice
prediktora. Naime, statistički paketi računaju takozvane karakteristične vektore i njima
odgovarajuće karakteristične korene matrice interkorelacija prediktora. Ukoliko ima p
prediktora, izračunato je p karakterističnih vektora i njima odgovarajućih karakterističnih
korena, pa su karakteristični koreni koji nisu linearno nezavisni ustvari predstavljeni kao
nulti vektori - p x p matrica uvek ima p karakterističnih korena, ali može da ima od 0 do
p linearno nezavisnih karakterističnih vektora (Weisstein, 2013). Dakle, nulti
karakteristični vektori ukazali bi na postojanje linearno nezavisnih komponenti – s tim da
prediktore koji zasićuju ove vektore treba dalje razmotriti kao one koji kovariraju i čije
kovariranje je potencijalno štetno za preciznost procene pojedinačnih efekata.
Odgovarajući karakteristični koren je ustvari procenat varijanse objašnjene vektorom, a
nezavisne varijable sa visokim varijansama su one koje su visoko korelisane (Liu et al.,
2003). No jedan od glavnih nedostataka ovog pristupa jeste upravo odreĎivanje kritične
vrednosti ispod koje možemo tvrditi da je karakteristični koren veoma blizu nuli. Ipak,
prednost u odnosu na ostale pristupe jeste da možemo videti koji prediktori su opisani
datim „skoro nultim“ vektorima, tj. možemo steći celovitu sliku o tome koji prediktori i
na koji način su meĎusobno zavisni. U okvirima strukturalnog modelovanja negativni
karakteristički koren može ukazati na savršenu ili skoro savršenu multikolinearnost ili
pak na unos u matrici koji je van granica date skale (Kline, 2011).
1.4.3 Uslovni broj (uslovni indeks)
Ovaj broj bi trebalo da meri osetljivost regresionih koeficijenata na male promene u
podacima. Što je ovaj broj bliži jedinici to je uslov nezavisnosti bolje ispunjen. Uslovni
30
indeks je kvadratni koren odnosa najvećeg karakterističnog korena i svakog
karakterističnog korena koji odgovara datom karakterističnom vektoru. Na bazi
emprijskih simulacija, Belsley, Kuh, and Welsh (1980, prema Mason and Perreault,
1991) govore da vrednosi od 5-10 ukazuju na slabe veze, dok vrednosti iznad 30 govore o
umerenim do jakim vezama. Prema Liu et al. (2003), uslovni indeks veći od 15 ukazuje
na mogući problem sa multikolinearnošću a indeks veći od 30 ukazuje da postoji ozbiljan
problem sa multikolineanošću. Opet postoji nekoliko problema sa ovim pokazateljem, a
najvažnije je da:
1. Uzima u obzir samo korelacije meĎu prediktorima a iz fomule za standardnu
grešku regresionog koeficijenta vidimo da to nije jedini činilac koji utiče na
grešku procene
2. Trasformisanje varijabli ga menja, šta više, sa odgovarajućim transformacijama
možemo ga izjednačiti sa jedinicom.
Uslovni broj nam ustvari pokazuje koliko je situacija loša u odnosu na idealnu, ali i same
standardne greške i t statistik će nam bolje reći koliko je situacija loša. Kao i VIF koristan
je za isključivanje varijabli ili uvoĎenje ograničenja parametara samo u odreĎenim
ekstremnim slučajevima kada je R2≈1, i takoĎe se zasniva na interkorelacijama (Maddala,
1992).
1.5 Moguća rešenja za problem multikolinearnosti
U prethodnim poglavljima može se videti da kolinearnost sama po sebi ne mora da
bude problem. Videli smo i da uticaj kolinearnosti prediktora nije uvek štetan i da
štetnost zavisi i od drugih faktora analize i samih podataka. I zaista, pregledom literature,
vidimo da uzroci, ali i izvori multikolinearnosti mogu biti raznoliki. TakoĎe, pregledom
pokazatelja kolinearnosti možemo uočiti da razni pokazatelji na različit način ukazuju na
postojanje multikolinearnosti, a neretko je teško odrediti koliki uticaj kolinearnost ima na
preciznost same analize. Studije koje su se ozbiljnije bavile multikolinearnošću svakako
naglašavaju da ona ne bi trebalo da bude posmatrana nezavisno od ostalih faktora koji
utiču na neprecizne procene. Fox (1992) čak izražava utisak da su istraživači u domenu
društvenih nauka prenagli da multikolinearnosti pripišu neprecizne i nestabilne
31
koeficijente kada su pak verovatniji „krivci“ velike varijanse greške, mali efekti, loše
specifikovani modeli, bitne razlike meĎu studijama i ostali važni problemi. Stoga pre
svega i u okviru svake analize, potrebno je multikolinearnost staviti u perspektivu ostalih
pokazatelja i činilaca koji mogu uzrokovati probleme u analizi. Bitna stvar je
dijagnostifikovati postojanje multikolinearnosti i njenu štetnost, ali pre traženja rešenja,
veoma je važno pozabaviti se podacima i tražiti najbolje moguće rešenje za dati set
podataka. Setimo se da je multikolinearnost moguća u slučaju greške istraživača u
definisanju varijabli, skaliranju ili definisanju samog nacrta. TakoĎe, ona ukazuje da
postoji neki nedostatak informacija. Zadatak je istraživača da u slučaju postojanja
multikolinearnosti pokuša da nadoknadi upravo ovaj nedostatak informacija – pod ovim
podrazumevamo nedostatak u najširem mogućem smislu dakle, npr. uključivanje dva
prediktora koji mere istu stvar shvata se kao nedostatak informacija o tome da su ta dva
prediktora ustvari redundantna, i to možda čak i teorijiski i konceptualno. Jednom rečju,
ne postoji jedno rešenje multikolinearnosti koje je primenjivo u svakom ili makar većini
istraživanja i u okviru svakog istraživanja potrebno je pozabaviti se traženjem najboljeg
mogućeg rešenja koje bi naravno doprinelo stvaranju najrealističnijeg i najpreciznije
procenjenog modela. Ipak, iz iskustava raznih naučnih oblasti, možemo naučiti o
preporukamama za rešavanje problema multikolinearnosti u konkretnim situacijama.
Neke od ovih preporuka su:
1. Prikupljanje dodatnih podataka – ukoliko vidimo da postoji problem
multikolinearnosti svakako je potrebno prvo pokušati odgovoriti na pitanje zašto
je došlo do ovako visokog koreliranja. No, različitih odgovora ima skoro koliko i
istraživanja u kojima se multikolinearnost javila kao problem. Neke najčešće smo
već naveli, i svakako je korisno prvo isključiti one uzroke koji se mogu veoma
lako otkloniti. No, ponekad da bi odgovorili na ovo pitanje potrebno nam je
prosto više podataka. Primera radi, recimo da želimo da predvidimo uticaj pola i
obrazovanja na finansijsku situaciju, ali u podacima imamo samo ispitanice
visokog obrazovanja i muške ispitanike niskog nivoa obrazovanja – ukoliko su
naši podaci ovakvi, biće veoma teško razdvojiti uticaj obrazovanja od uticaja
pola, prosto zato što nemamo podatke na kojima bi mogli zasnivati svoje
32
zaključke. U ovakvim slučajevima, neophodno je uočiti nedostatak, a za ma kave
dalje zaključke neophodno bi bilo dalje prikupljanje podataka. Ipak, svaki
istraživač zna da je ponekad nemoguće prikupiti dodatne podatke, a najčešće je
prosto neisplativo. Ukoliko se zadesimo u ovakvoj nezavidnoj poziciji, valja dakle
razmotriti i druge mogućnosti i rešenja problema.
2. Eliminisanje varijabli (Kline, 2011;
Wholey, Hatry i Newcomer, 2004;
Maddala, 1992; ) – neki ovo smatraju prosto izbacivanjem viška informacija. Već
smo opisali metode po kojima možemo dijagnostifikovati da li su neke varijable
redundantne (jednostavne korelacije, VIF, tolerancija). Ukazali smo i na moguće
uzroke ove redundantnosti. Neki autroi preporučuju eliminisanje varijabli kao
jedno od mogućih rešenja. Naravno, pre samog eliminisanja neophodno je utvrditi
koje tj. koja varijabla je reduntantna i ako je iakako moguće osvrnuti se na
mogući uzrok. Već smo naglasili da je moguće da doĎe do greške istraživača ili je
ustvari greška u specifikaciji modela koja potiče od strane loše definisanog nacrta
istraživanja odgovorna za podudarnost prediktora. Ukoliko su varijable zaista
veoma visoko korelirane, ili čak uvidimo da su potpuno uključene i opisane
nekim drugim prediktorom (npr.slučaj istovremenog uključivanja skale i subskale
kao prediktora), neophodno je ove varijable izbaciti iz analize. TakoĎe, ako
uvidimo da dve varijable mere istu stvar samo na različit način ovo rešenje je
jedino preporučljivo (npr.uključivanje visine u metrima i visine u centimetrima, ili
istovremeno uključivanje broja grešaka, pogodaka, neodgovorenih i ukupnog
broja pitanja – očigledno je da linearna kombinacija prve tri varijable u potpunosti
odreĎuje četvrtu). Ipak, situacija nije uvek tako jednostavna da je moguće videti
na prvi pogled koju varijablu treba eliminisati i da li je to uopšte najbolje rešenja
problema. Neki udžbenici preporučuju korišćenje hijerarhijske regresije ukoliko
smo upoznati sa redosledom kojim varijable mogu uticati na zavisnu. Ovo je
svakako preporučljivo i može nam dati rešenje koju varijablu bi zbog
redundantnosti mogli isključiti. U okviru nekih statističkih paketa, postoji i opcija
regresije „korak po korak“ (tzv. stepwise metoda) u okviru koje se varijable
uključuju sekvancijalno (Leech, Barrett, Morgan, 2005) i ova metoda nam
svakako može pomoći pri odabiru varijabli koje ćemo zadržati u modelu. Ipak,
33
pre svega, potrebno je da sam istraživač koji se bavi problemom bude dobro
upućen u to šta varijable tačno predstavljaju i koji je njihov značaj u odnosu na
predviđanje. Ukoliko varijabla nema smisleni značaj za predviĎanje kriterijuma a
redundantna je u odnosu na neku drugu varijablu iz analize potrebno ju je
isključiti. No, ponekad je veoma važno uključiti (sve) varijable koje su visoko
korelirane. Recimo da nas zanima stepen ispitanikovog neuroticizma procenjen od
strane stručnjaka i stepen ispitanikovog neuroticizma dobijen samoprocenom.
Opravdano je za pretpostaviti da će ove dve varijable visoko korelirati, no
moguće je da nam je veoma važno da uključimo obe varijable u analizu, samim
tim što smisleno one svakako daju neke informacije koje ne možemo u potpunosti
dobiti iz druge varijable. Ukoliko istraživač odluči da nije opravdano isključiti
varijablu
iz
analize,
postoje
drugi
načini
za
rešavanje
problema
multikolinearnosti.
3. Kombinovanje redundantnih varijabli u kompozitnu varijablu (Kline, 2011;
Byrne, 2010; Leech et al., 2005; Wholey, Hatry i Newcomer, 2004;) – postoji više
načina da se ovo uradi, neki od najčešće navoĎenih u literaturi su:
a. uprosečavanje skorova dve visoko korelisane skale – ako se radi o
testovima čiji skorovi veoma visoko koreliraju, uprosečavanjem ovih
skorova dobijamo varijablu koja bi obuhvatila obe skale čiji je pojedinačni
uticaj na konačni skor potpuno ravnopravan. Naravno, treba voditi računa
o kakvim podacima je reč, na koji način i da li ih je uopšte opravdano
uprosečavati
b. sumiranje skorova – sumiranjem skorova takoĎe dobijamo jednu varijablu
sa ravnomernim uticajem skorova obe skale – treba imati u vidu da će
samim sumiranjem da se poveća raspon novodobijenog prediktora, što će
uticati na smanjenje greške regresionog koeficijenta i time povećati šanse
dobijanja značajnog koeficijenta, dakle veoma je važno da podaci zaista
opravdavaju sumiranje, a takoĎe, treba imati u vidu da će takav prediktor
možda biti značajan i pored toga što ima manji efekat od nekih drugih
prediktora u analizi i to zato što drugi prediktori prosto imaju manju
varijabilnost čime se povećava greška procene regresionog koeficijenta.
34
No ako skale veoma visoko koreliraju, ne bi trebalo da doĎe do velike
promene u rasponu samim sabiranjem.
c. korišćenje kompozitnog (faktorskog) skora dve ili više visoko korelisanih
skala – tzv. regresija glavnih komponenti
4. Centriranje - u modelima koji uključuju kvadratne efekte ili linearnu interakciju
efekata, centriranje se upotrebljava radi olakšavanja interpretacije ovih efekata.
TakoĎe, kao što smo već pominjali, centriranje se koristi za eliminisanje
neesencijalne multikolinearnosti. U modelima koji uključuju kvadratne efekte ili
efekte interakcije, deo multikolinearnosti je neesencijalna kolinearnost, s obzirom
na to da potiče ustvari od lokacije nule na skalama svake nezavisne varijable
(Robins et al., 2007). Preporuka je da se varijable centriraju pre uključivanja
efekata interakcije, osim ako varijable imaju smislenu nulu (Marquardt, 1980,
prema Wholey, Hatry, Newcomer 2004). Za centriranu varijablu X=0 je skor koji
označava aritmetičku sredinu varijable X. Ako su svi prediktori centrirani, onda je
konstanta predviĎena vrednost zavisne varijable kada je nivo svih nezavisnih
varijabli aritmetička sredina (Wholey, Hatry, Newcomer 2004). Ipak, Kline
(2011) navodi da centriranje ima tendenciju da smanji ali ne nužno i eliminiše
multikolinearnosti izmeĎu efekta interakcije i pojedinačnih efekata od kojih je
nastao, i navodi formiranje rezidualizovanih produkata kao alternativno rešenje u
ovom slučaju.
5. Formiranje rezidualizovanih produkata (Lance, 1988, Little, Bovaird, &
Widaman, 2006, prema Kline, 2011). Formiranje rezidualizovanih produkata vrši
se u dva koraka – prvo se regresira produkt odabranih varijabli na sve
odgovarajuće glavne efekte (npr., XW skorovi se regresiraju na X i W). Opisani
reziduali nisu u korelaciji sa glavnim efektima, ali još uvek sadrže informaciju o
efektu interakcije. U narednom koraku kriterijum je regresiran na X, W i XW
produkt dobijen u prvom koraku analize (Kline, 2011).
6. Ridž regresija (Hoerl & Kenard, prema Maddala, 1992; ) – ideja se zasniva na
tome da se doda konstanta λ na varijansu objašnjavajućih varijabli pre rešavanja
normalnih jednačina. Ovako dobijamo pristrasan ocenjivač parametra, ali
35
smanjujemo varijansu greške - Hoerl i Kenard pokazuju da uvek postoji konstanta
λ>0, takva da je:
Konstanta λ treba da bude takva da se „sistem stabilizuje i koeficijenti nemaju
nerazumne vrednosti“. Stoga, koristi se subjektivna procena. Treba ipak imati u
vidu da ukoliko se različiti prediktori mere različitim skalama nije opravdano
dodati istu konstantu na obe varijable – ovaj problem može da se izbegne
normalizovanjem prediktora pre izvoĎenja regresije (Maddala, 1992). Naravno
kada je λ = 0, dobijamo ocene parametara metodom običnih najmanjih kvadrata. S
druge strane, najčešće se konstanta odreĎuje u intervalu izmeĎu 0 i 1. Postoje
različiti načini odreĎivanja konstante λ – najčešći način je biranje konstante na
osnovu takozvanog traga ridž regresije i već pominjanog VIF pokazatelja. Trag
ridž regresije je grafički prikaz ocenjenih parametara za različite vrednosti
konstante. Uobičajena strategija (Belsley et al., 1980; Draper and Smith, 1998;
Myers, 1990, Neter et al., 1983 prema Mardikyan & Çetin, 2008) odreĎivanja
vrednosti konstante je ispitivanje ridž traga i VIF pokazatelja istovremeno, a neki
autori preporučuju istovremeno analiziranje i vrednosti koeficijenta determinacije,
i biranje konstante izmeĎu 0 i 1 koja daje najbolje vrednosti ispitivanih
parametara zajedno (Mardikyan & Çetin, 2008).
7. Korišćenje spoljašnjih procena (procena regresora iz prethodnih istraživanja da
bi ograničili parametre) – recimo da su x1 i x2 u jednačini
visoko korelirani, pa ne možemo precizno odrediti vrednost regresionih
koeficijenata. Možemo oceniti regresioni koeficijent β2 iz drugog seta podataka i
druge jednačine
u kojoj x1 i z nisu korelirani. Kada dobijemo procenu regresionog koeficijenta
možemo ga zameniti u prvobitnom setu i prvobitnoj jednačini da bi dobili
presizniju ocenu drugog traženog koeficijenta. Procena iz drugog seta podataka je
takozvana uslovna ocena parametra. TakoĎe, treba da ispravimo varijansu greške
36
znajući da je ona sada u + (β1 - β1‚) x1. Ova procedura se preporučuje kada nam
podaci iz drugog seta nisu na raspolaganju – ukoliko jesu, svakako je bolje oceniti
dve navedene jednačine istovremeno. Pored ovoga, potrebno je testirati da li su
koeficijenti zaista jednaki u dve jednačine – ukoliko nisu, zamena svakako nije
opravdana (Maddala, 1992).
No, kao što smo već rekli, mnoga od ovih rešenja su takoreći popravljanje situacije do
najbolje moguće u datom trenutku. Kao što Fox (2005) kaže – najčešća rešenja problema
multikolinearnosti kao što je odabir varijabli i pristrasno ocenjivanje čine da izgleda da je
problem nestao ali ustvari menjaju pitanje koje postavljamo u vezi podataka. Stoga treba
pažljivo pristupiti ne samo rešavanju problema već i interpretaciji tako dobijenih
podataka, jer je ona u svakom slučaju znatno modifikovana zavisno od odabranog
pristupa.
1.6 Multikolinearnost u naučnim istraživanjima
Fenomen multikolinearnosti srećemo u različitim poljima naučnog istraživanja i koriste
se različite metode i pristupi u rešavanju ovog problema. Iako smo već naveli koje su
metode najčešće
u praksi, postoje neke metode koje su specifične ili prosto češće
korišćene u zavisnosti od same oblasti u kojoj se problem javlja. Tako je u pojedinim
istraživanjima opravdano i najbolje rešenje uprosečavanje kolinearnih skala, a u
pojedinim se ovakvo rešenje ne može ni uzeti u obzir s obzirom na prirodu podataka.
Jedna od oblasti u kojima veoma često dolazi do pojave multikolinearnosti je
ekonometrija. Ekonomske pojave, pogotovo one od javnog značaja, obično su veoma
povezane meĎu sobom, a ponekad je veoma važno shvatiti distinktivni uticaj svake
pojave na onaj fenomen koji želimo da predviĎamo. U jednoj od najcitiranijih knjiga iz
oblasti
ekonometrije,
Maddala
(1992)
navodi
nekoliko
tehnika
rešavanja
multikolinearnosti, pri čemu komentariše da su meĎu najčešće preporučenim tehnikama
upravo ridž regresija, regresija glavnih komponenti i isključivanje varijabli. Ipak,
preporučuje da su jedina prava rešenja prikupljanje dodatnih podataka, postavljanje
pitanja na koja se može odgovoriti pomoću datih podataka i ispitivanje koje informacije
će biti od najveće pomoći.
37
U oblasti epidemioloških i medicinskih istraživanja takoĎe se susreće pojava
multikolinearnosti. Zidek,
multikolinearnosti
Vong i saradnici (1996) bavili su se
efektom
i greške merenja kao opasnostima u naučnom istraživanju. Ovaj
fenomen predstavili su nizom eksperimenata u kojima su demonstrirani razni modeli
nelinearne regresije. Njihov rad predstavlja svojevrsni apel i podsetnik za naučnike da
obrate posebnu pažnju na ove fenomene, posebno na fenomen greške u merenju koji je u
samoj teorijskoj osnovi rada. Autori preporučuju da se uzorkovanjem može izbeći pojava
multikolinearnosti i da je upravo najbolje rešenje razmišljati o relevantnim podacima pre
početka istraživanja i time preduprediti pojavu multikolinearnosti i greške u merenju. S
druge strane u nekim istraživanjima u samom nacrtu istraživanja, pojedine fenomene
nemoguće je odvojiti. Primer istraživanja koje su uradili Reed, McGee i saradnici (1986)
govori nam upravo ovo. Naime, istraživan je uticaj ishrane na visinu krvnog pritiska. U
analizu je uključeno preko 20 nezavisnih varijabli ali se statistički značajnim pokazao
negativan efekat unosa kalijuma, kalcijuma, proteina i mleka i unos alkohola kao
direktno propocionalan. Daljom analizom utvrĎeno je da da unos kalijuma značajno
korelira sa unosom mleka, proteina i kalcijuma, kao i da unos kalcijuma takoĎe značajno
korelira sa unosom kalijuma i mleka, a samo unos kalcijuma iz mlečnih proizvoda ima
značajan efekat na visinu krvnog pritiska. Stoga je utvrĎeno da se usled pojave
multikolinearnosti nezavisnih varijabli ne može potvrditi nezavisni efekat varijabli na
zavisnu, pa je preporuka da se u dijetama protiv hipertenzije i uzimaju kombinacije
namirnica jer je teško utvrditi koji sastojak tačno utiče na hipertenziju. Vidimo pak, da bi
u samom nacrtu bilo nepraktično a u krajnjoj liniji i nepotrebno odvajati uticaj kalcijuma
od mleka itd. pa ni ova preporuka nije univerzalna za sva istraživanja iz oblasti.
Multikolinearnost susrećemo i u oblasti bioloških i ekoloških nauka. U velikoj
dendrološkoj studiji koju si izveli
Fekedulegn i saradnici (2002) analiza glavnih
komponenti navodi se kao jedino rešenje u naukama u kojima nezavisne varijable imaju
visoku interkorelaciju kao što su biolgija i ekologija. Ipak, brazilski istraživač Bizeti je sa
saradnicima (2004) istraživao korelacije fenotipskih osobina semena
sa prinosom
sojinog zrna u staklenoj basti koristeći analizu puta za merenje direktih i indirektnih
uticaja varijabli. Rezultati su najpre ukazali na broj čvorova i visinu biljke kao značajne
prediktore prinosa zrna, dok se
veličina samog semena nije pokazala značajnom.
38
Metodom najmanjih kvadrata dokazano je da problem multikolinearnosti ova dva
prediktora ometa interpretaciju rezultata te je primenom ridž analize pokazano je da
jedini direktan efekat na prinos zrna ima broj čvorova odrasle biljke (Bizeti i sar., 2004).
U polju ekoloških istraživanja ovom problematikom bavio se i Graham (2003),
pokušavajući da naĎe rešenje najpogodnije za njegovu naučnu oblast. UporeĎujući razne
statističke modele sa realnim merljivim podacima testirao je korisnost tehnika za
povećavanje pouzdanosti merenja i uklanjanje efekata multikolinearnosti. Studija je
pokazala da multikolinearnost ima ozbiljne efekte na interpretebilnost podataka u
ekološkim istraživanjima i da svaka od testiranih tehnika ima svoja ograničenja, te da se
rešenje za ovaj problem nalazi pre svega u pažljivom uzorkovanju i odabiru nezavisnih
varijabli.
U okviru psihologije takoĎe dolazi do pojave multikolinearnosti. Ljudsko ponašanje
povezano je sa mislima, osobinama, navikama i mnogi psihološki konstrukti su
ispreplitani i meĎusobno povezni, što konceptualno, što na nivou samog merenja zbog
ograničenih mogućnosti procene psiholoških pojava.
1.7 Multikolinearnost u psihologiji ličnosti
Multikolinearnost se javlja u svim oblastima psihologije, a tehnike za njeno
prevladavanje najviše se pominju u radovima iz oblasti psihologije ličnosti (Carlson &
Gjerde, 2009; Dunlop, Walker i Wiens, 2013), marketinške psihologije (Mahajan, 1977;
Mason, 1991; Grewal i sar., 2004), ali i u u oblasti kognitivne (Oliver, 1980; Stilley i sar.
2004) i kliničke psihologije (Holmbeck, 1997; ). Praktično, oblasti u okviru kojih se vrši
procena
ma
kog
psihološkog
konstrukta
podložne
su
greškama
i
pojavi
multikolinearnosti.
Videli smo iz dosadašnjeg teksta da na štetnost multikolinearsnoti utiču nizak koeficijent
determinacije, mali uzorak, velika greška modela kao i nepouzdani prediktori. S obzirom
na to da se u oblasti psihologije ličnosti možemo susresti sa svim ovim faktorima, vredi
razmotriti načine dijagnostifikovanja problema i moguća rešenja problema ukoliko do
njega doĎe.
39
Već smo spominjali istraživanje Masona i Perreault-a (1991) koji smatraju da iako
postoji dosta tehnika koje nude načine za prevladavanje ove pojave, veoma malo govora
ima o tome pod kojim uslovima se ona javlja i u kojoj meri ona zaista utiče na procenu u
višestrukoj linearnoj regresiji. Istraživanja ovih autora pokazuju da je strah od uticaja
kolinearnih prediktora na tumačenje rezultata u marketingu pomalo prenaglašen, i da se
pojava ne može posmatrati izolovano već da je potrebno pri tumačenju uzimati u obzir i
druge faktore koji utiču na tačnost procene. Različita istraživanja koristila su različite
mere dijagnostifikovanja multikolinearnosti i njene štetnosti. U okviru nekih istraživanja
(Carlson & Gjerde, 2009; Dunlop, Walker i Wiens, 2013) kao mere dijagnostifikovanja
moguće multikolinearnosti korišćene su isključivo jednostavne korelacije. Carlson i
Gjerde (2009), nalaze da korelacije meĎu prediktorima koje variraju od 0.49-0.69
isključuju postojanje štetne multikolinearnosti). TakoĎe, Dunlop, Walker i Wiens (2013),
u radu koji ispituje vezu izmeĎu diferencijacije self koncepta i psihološkog
prilagoĎavanja, dolaze do zaključka da tri mere psihološkog prilagoĎavanja koje su
ispitivali visoko koreliraju (r≥0,67) i da postoji štetna multikolinearnost u okviru analize,
te odlučuju da te tri mere (samopoštovanje, depresivnost i zadovoljstvo životom) spoje u
jednu skalu pod nazivom psihološko prilagoĎavanje. Istraživanje Ruggiera i saradnika
(2012) implicira da je efekat netolerancije nesigurnosti na brigu povećan interakcijom
ove netolerancije sa negativnim verovanjima o brizi i sa kontrolom anksioznosti. U
okviru istraživanja uočene su visoke jednostavne korelacije izmeĎu pojedinih prediktora.
Iako su korelacije bile izmeĎu 0.68 i 0.77, autori su ispitivanjem VIF ustanovili da je od
odgovarajućih VIF najviši bio 1.65 i da se može reći da multikolinearnost nema
negativnih efekata na samu analizu. Autori nisu uzimali u obzir veličinu uzorka (n=172),
visinu koeficijenta determinacije (korigovani R=.765), no pogotovo s obzirom na to da je
u radu prodiskutovana pouzdanost prediktora čini se da bi i uz ova razmatranja mogli
pretpostaviti da multikolinearnost ne bi trebalo da šteti stabilnosti modela. Lee i Egan
(2012)
u
ispitivanju
prediktora
agresije
zaključuju
o
nepostojanju
štetne
multikolinearnosti. Naime, ispitane su jednostavne korelacije izmeĎu prediktora
(koeficijenti korelacije su varirali od 0.09 to 0.64), kao i tolerancija prediktora, čije su
vrednosti bile izmeĎu 0.47 i 1. Autori su došli do zaključka da multikolinearnost nije
imala značajan uticaj na rezultate. No u skladu sa ostalim nalazima, vidimo da je
40
Kronbahova alfa skale Empatija bila samo 0.56. Dobijeni rezultat implicira da Empatija
ne predviĎa niti jednu od četiri vrste agresije merene BPAG skalom agresivnosti. U
okviru upravo ovakvih istraživanja koja istovremeno uključuju veliki broj prediktora
(ukupno devet prediktora činilo je početni model), čini se neophodnim da se pažljivije
razmotri uticaj interkorelacija ali i pouzdanosti skale na rezultate i da se u skladu sa tim
donose
zaključci.
Neka
istraživanja
pak
uzimaju
o
obzir
više
pokazatelja
multikolinearnosti, pa tako Zeigler-Hill i Besser (2011) izveštavaju da su u obzir uzeli
karakterisitčne korenove, uslovne brojeve, VIF i tolerancije pojedinačnih prediktora.
Iako preporuke za otkrivanje štetnosti multikolinearnosti govore da je neophodno uzeti u
obzir karakteristike uzorka i modela, iz navedenih istraživanja, kao i nekih koje ćemo
pominjati u nastavku teksta, možemo videti da su kriterijumi za otkrivanje
multikolinearnosti u istraživanjima u psihologiji ličnosti uglavnom jednostavne korelacije
i/ili pokazatelji kao što su VIF ili tolerancija.
Autor Mahajan (1977) se sa saradnicima takoĎe bavio temom multikorinearnosti
prediktora u regresionoj analizi analizirajući efikasnost tehnika za uklanjanje efekata
kolinearnosti na pouzdanost procene. Mahajan (1977) je došao do rezultata koji ukazuju
da metod najmanjih kvadrata može dovesti do naduvavanja procene i navoĎenja na
pogrešne zaključke a savetuje da je u istraživanjima sa varijablama koje se obično koriste
u psihologiji marketinga najbolje koristiti ridž analizu. No, u praksi istraživanja, kao što
smo videli iz nekih već opisanih primera, ne koriste se uvek ni korekcije rezultata ni
modifikovanje nacrta. Schaninger (1980) je sa saradnicima istraživao da li postoji veza
izmeĎu konzumiranja ilegalnih sustanci, konzumerskog ponašanja i osobina ličnosti.
Naučnici su koristili kanoničku, klaster i diskriminativnu analizu. PotvrĎena je hipoteza
da postoji povezanost izmeĎu upotrebe ilegalnih droga i korišćenja proizvoda koji se
koriste u društvu kao i alkohola, a pri interpretaciji rezultata odreĎeni podaci su uzeti sa
rezervom usled primećene kolinearnosti varijabli u klaster analizi.
Jedno od rešenja sa kojima se susrećemo u okviru oblasti jeste upravo regresija glavnih
komponenti. Hojat (1982) je istraživao da li je moguće preko osobina ličnosti predvideti
pojavu osećanja usamljenosti, te su pretpostavili da je usamljenost pozitivno povezana sa
depresijom, aksioznošću, neuroticizmom, psihoticizmom, mizantropijom, spoljašnjim
lokusom kontrole, dok su samopouzdanost i ekstraverzija negativno povezane sa ovom
41
pojavom. Ipak, neke prediktorske varijable nisu se pokazale značajnima. Usled
fluktuacije regresionih koeficijenata izazvane multikolinearnošću samih varijabli
sprovedena je faktorska analiza kojom su ekstrahovana dva faktora. Usamljenost je bila
visoko zasićena prvim faktorom koji je imenovan kao Negativna atribucija ličnosti.
Videli smo da neki istraživači praktikuju spajanje skala kao optimalno rešenje za dati
problem (Dunlop, Walker i Wiens, 2013). TakoĎe, isključenje varijabli iz analize je jedno
od rešenja koje se javlja u okviru radova iz ove oblasti. Schackelford i Beser bavili su se
istraživanjem stavova prema homoseksualnim osobama u odnosu na osobine ličnosti i
potvrdili hipotezu da je Otvorenost kao iskustvu kao dimenzija ličnosti značajan
prediktor za pozitivniji stav prema homoseksualcima. Kako bi se model poboljšao,
istraživači su usled primećene kolinearnosti varijabli konzervativizam i nivo obrazovanja
isključili varijablu nivo obrazovanja iz analize. U svojim studijama Rule i saradnici
(2010) ispituju procene političkih kandidata na pet osobina: kompetencija, dominacija,
facijalna zrelost, dopadljivost i verodostojnost. Da bi ispitali podudarnost ovih procena sa
već utvrĎenim konstruktima kao što su moć i toplina, istraživači su sproveli analizu
glavnih komponenti. S obzirom na to da je kompetencija visoko korelirala sa obe funkcije
dobijene analizom glavnim komponenti, istraživači su odlučili da je izbace iz analize.
1.8 Problem multikolinearnosti u psihologiji ličnosti: konstrukti
revidiranog Grejovog modela kao prediktori
anksioznosti/hostilnosti i agresivnosti
Kao što smo već pominjali, poseban problem za otkrivanje i rešavanje pitanja
multikolinearnosti predstavljaju analize koje uključuju prediktore sa esencijalnom
multikolinearnošću i/ili multikolinearnošću koja proističe iz prirode konstrukata i
njihovih odnosa, pogotovo ukoliko je neophodno da se zadrže svi prediktori u analizi.
Iako su neki istraživači pribegavali praktičnim rešenjima problema, u malobrojnim
radovima se sreće dublja analiza konkretnog problema.
Jedan od modela na kom se može ilustrovati ovaj problem je i Grejov model ličnosti.
Džefri Grej je tvorac Teorije osetljivosti na potkrepljenje koji je
42
predstavio
revolucionarne stavove u vezi sa prirodom crta ličnosti. Grej je ukazao na tri emocionalna
sistema i svaki od njih ima svoje bihejvioralne funkcije i neurološke supstrate (Grej,
1985; Pickering & Grej, 1999, prema Smederevac i Mitrović, 2006):
1.
Sistem bihejvioralne inhibicije (BIS)
2.
Sistem bihejvioralne aktivacije (BAS)
3.
Sistem Borbe/Bežanja (FFS)
Reformulisani Grejov model osetljivosti na pokrepljenje definiše ova tri sistema nešto
drugačije od prvobitnog. BAS (Behavioral Activation System) – sistem bihejvioralne
aktivacije, reguliše osetljivost na uslovne i bezuslovne reakcije na signale nagrade, kao i
„olakšanje” prilikom izbegavanja kazne na kontrolu aktivnog pristupa i manifestuje se u
sklonosti aktivnim i eksplorativnim ponašanjima sa ciljem dolaska do potkrepljenja; BIS
(Behavioral Inhibition System) – sistem bihejvioralne inhibicije, predstavlja detektor
konflikta izmeĎu dva averzivna ili dva apetitivna stimulusa i reguliše pasivno
izbegavanje kazne i reakcije na uslovne signale kazne, kao i na izrazito nove draži,
uključujući i frustraciju usled prekida ili izostanka nagrade; i BBB sistem Borba/Bežanje/Blokiranje (Fight/Flight/Freeze System, FFFS), koji je odgovoran za
ponašanja vezana za stanja straha i panike, a stimulusi koji provociraju reakcije ovog
sistema predstavljaju bezuslovnu kaznu ili izostanak nagrade, ali i uslovni signal nagrade.
BBB sistem posreduje u reakcijama na sve averzivne draži, a moguće reakcije na preteće
stimuluse mogu biti borba, bežanje ili „kočenje“ (Dinić i Smederevac, 2009, str.277).
Iako se model i pojedinačne skale zasnivaju na neurološkoj bazi opisanih osobina i
ponašajnim reakcijama, multikolinearnost koja se javlja pri korišćenju skala ovog modela
ne može biti odbačena kao isključivo statistički artefakt. Naime, već i iz samog opisa
skala, vidimo da je veoma teško konceptualno razdvojiti pojedine skale upitničkim
ispitivanjem, pa ove skale čine idealan primer za ilustraciju problema multikolinearnosti.
Pored konstrukata iz revidiranog Grejevog modela u rad su uključene i varijable iz
Zakermanovog modela ličnosti i BPAG upitnika agresivnosti, u cilju odabira kriterijuma
koji su realni korelati subskala Grejevog revidiranog modela:
ZKPQ – alternativni petofaktorski model procene ličnosti
Upitnik za procenu osobina ličnosti, tj. temperamenta (Zuckerman 1984, prema
Zuckerman 2002). Upitnik se sastoji od 5 subskala procene:
43
1.
Impulsivno traženje senzacija
2.
Neuroticizam/anksioznost
3.
Agresivnost/hostilnost
4.
Socijabilnost
5.
Aktivitet
Neuroticizam skala opisuje emocionalno nezadovoljstvo, tenziju, brigu, plašljivost,
opsesivnu neodlučnost, nedostatak samopouzdanja i osetljivost na kritiku, dok skala
agresivnosti opisuje tendenciju ka verbalnoj agresivnosti, naglom, nepromišljenom ili
antisocijalnom ponašanju, osvetoljubivosti, inatu, temperamentnom reagovanju i
nestrpljenju s drugima. Dakle, obe skale su povezane sa reakcijama na uslovljene ali i
neuslovljene draži, kao i reakcije na nagrade i kazne.
BPAG skala agresivnosti
Bas i Peri su ustanovili visoku povezanost verbalne i fizičke agresivnosti, nisku
povezanost verbalne i fizičke agresivnosti sa hostilnošću, kao i visoku povezanost besa,
hostilnosti i verbalne i fizičke agresivnosti. Autori su smatrali da agresivnost, definisana
pomoću četiri faktora, sadrži kognitivnu, afektivnu i instrumentalnu komponentu.
Kognitivnu komponentu agresivnosti čini hostilnost koja se ogleda, pre svega, u
doživljaju nepravde. Fizička i verbalna agresivnost, predstavljaju instrumentalnu
komponentu, dok afektivnu komponentu agresivnosti predstavlja bes. Ova poslednja
osobina, je psihički medijator izmeĎu kognitivne komponente (hostilnost) i
instrumentalne komponente (verbalna i fizička agresivnost). Za očekivati je dakle da skor
na ovoj skali bude pod uticajem BIS, BAS i BBB sistema.
Kao što možemo videti i iz navedenih istraživanja, psihologija ličnosti bavi se
karakterističnim obrascima ponašanja, izmeĎu ostalog motivacionim i emocionalnim
iskustvima, kao i procenom i samoprocenom osobina ličnosti, pri čemu se u tu svrhu
neretko koriste testovi za procenu (osobina) ličnosti. Konstrukti koje proučava
psihologija ličnosti su često dimenzionalne prirode, a testovi koji se koriste za merenje
osobina ličnosti daju kontinuirane varijable. Ovako izmerene varijable predstavljaju
obično skorove na skalama merenja, koji imaju veliki varijabilitet, a u nekim slučajevima
44
i veliki kovarijabilitet. Pri tom, u okviru psihologije ličnosti, pogotovo u istraživanjima
osobina ličnosti, koriste se uglavnom korelacioni postupci zasnovani na višestrukoj
regresiji. Vidimo dakle, da u istraživanjima u psihologiji ličnosti predstavlja veoma
plodno tlo za razvijanje multikolinearnosti. Štaviše, u okviru psihologije ličnosti, ne samo
da može doći do pojave multikolinearnosti, nego ona može da bude i veoma štetna,
upravo zbog prirode i specifičnosti ove naučne oblasti. Naime, s obzirom na
kompleksnost odnosa osobina ličnosti, cilj naučnih istraživanja je upravo da te odnose što
preciznije utvrdi, opiše, ili što jasnije razdvoji - multikolinearnost je pak problem koji
može direktno onemogućiti precizno struktuiranje odnosa konstrukata, i samim tim
uveliko otežati odgovaranje na suštinsko pitanje istraživanja u okviru psihologije ličnosti.
Čak se i zdravorazumski može pretpostaviti da su malobrojne osobine ličnosti koje mogu
da budu potpuno nepovezane sa svim drugim ljudskim osobinama. Štaviše, osobine
ličnosti se meĎusobno prepliću i niti mogu, niti treba da budu konceptualno nepovezane.
Dakle, neretko je u psihologiji ličnosti visoka multikolinearnost prediktora prisutna
sistemski, pa je potrebno biti veoma obazriv pri tretiranju ovog problema pogotovo
ukoliko je ključno zadržati sve prediktorske varijable u modelu. Naravno, postoji i
poseban problem vezan za osobine ličnosti a to je upravo njihovo merenje. Sami upitnici
za procenu ličnosti, uprkos psihometrijskom kvalitetu, svakako ne mogu dati savršeno
pouzdane ocene osobina, pa samim tim i pojava multikolinearnosti može da bude veoma
štetna, pogotovo u okviru analiza u kojima su prediktori skale procene osobina ličnosti.
Jednom rečju, kompleksnost odnosa osobina ličnosti je specifičnost oblasti psihologije
ličnosti, glavni izvor informacija i jedan od glavnih izvora interesovanja za istraživanja iz
ove oblasti. No, istovremeno, kroz multikolinearnost, može da bude i tačka spoticanja i
onemogući odgovor o strukturi i odnosima meĎu sobom, ali i sa drugim (ne)psihološkim
fenomenima. Stoga je samo pitanje mutikolinearnosti potencijalno veoma zastupljeno u
čitavoj oblasti psihologije ličnosti, a ilustracija na podacima iz ove oblasti može dati
odgovor na neke od najvažnijih problema koje uzrokuje multikolinearnost, od kojih je
naravno najvažniji - onemogućavanje odgovora na istraživačko pitanje.
Osim toga, samo rešenje problema multikolinearnosti je visoko zavisno od specifičnosti
istraživanja, što možemo videti i iz prethodno navedenih istraživanja. U psihologiji
ličnosti rešenja posebno zavise od razumevanja odnosa meĎu konstruktima a rešavanje
45
problema u okviru konkretnog istraživanja posebno je zavisno od njegovih specifičnosti.
S druge strane, rešenja problema multikolinearnosti u ovoj oblasti mogla bi se uopštiti ne
samo na srodne oblasti, kao što su marketing istraživanja i klinička psihologija, već i na
druge oblasti nauke u kojima multikolinearnost predstavlja potencijalni problem. Naime,
proučavajući savremenu literaturu, stiče se utisak da se najčešće koriste samo neka od
ponuĎenih rešenja. To su pre svega ridž regresija, isključivanje varijabli, spajanje
varijabli, a ponekad se problem čak ne tretira uopšte. No, kao što smo već rekli, mnoga
od ovih rešenja su ustvari prinudna i naknadna rešenja, takoreći popravljanje situacije do
najbolje moguće u datom trenutku. Neka od njih su nepraktična, a većina njih je podložna
subjektivnoj proceni mnogih nematematičkih faktora koji mogu dovesti do pogrešnih
zaključaka, mispecifikacije modela i mnogih drugih grešaka ukoliko istraživač nije
dovoljno upućen u pravi smisao datog istraživanja i samih varijabli. Stoga, pored toga što
postoje rešenja kojima se formalno tretira problem multikolinearnosti, postoje i opisani
neformalni predlozi šta se može uraditi u tom slučaju. No, i pored svih "tehničkih"
predloga, ključno je zadržati stručnost i razumevanje problema na prvom mestu u
odlučivanju za najbolje rešenje situacije. Dakle, iako bi simulacione studije doprinele
objašnjavanju
karakteristika
problema
multikolinearnosti,
rad
na
konkretnim
istraživačkim podacima može, pogotovo u nekim slučajevima, da verodostojnije ilustruje
moguće specifičnosti problema (npr. upravo multikolinearnost koja proističe iz prirode
konstrukata). Samim tim, u radu sa realnim podacima moguće je opisati i uporediti veći
broj prigodnih rešenja u konkretnim istraživačkim situacijama.
Skale koje su odabrane kao prediktorske varijable za ilustraciju multikolinearnosti u radu
upravo ilustruju one probleme multikolinearnosti koje je najteže rešiti u praksi. Već i iz
samog opisa skala, vidimo da je veoma teško konceptualno razdvojiti pojedine skale
upitničkim ispitivanjem, pa ove skale čine idealan primer za ilustraciju problema
multikolinearnosti. Ciljno odabrali skale koje su istovremeno dobro ustanovljene u
oblasti psihologije ličnosti ali i potencijalno problematične. Sa ovakvom skalom, na
podacima iz realnog istraživanja, hteli smo da ilustrujemo načine na koje se može
dijagnostifikovati i rešavati problem multikolinearnosti. Modeli koji su prikazani
predstavljaju
najčešće
korišćene
analize
46
u
okviru
kojih
se
javlja
problem
multikolinearnosti - linearnu regresiju, i strukturalne jednačine kao svojevrsna logička
nadogradnja linearne regresije.
Rad dakle prikazuje problem multikolinearnosti u jednom realnom istraživanju iz
psihologije ličnosti, a sa proširenom diskusijom na temu dijagnostike i rešavanja
problema multikolinearnosti u različitim modelima i analizama. Cilj istraživanja je
primena dijagnostičkih metoda za otkrivanje multikolinearnosti na realnim podacima iz
oblasti psihologije ličnosti, a na različitim uzorcima i različitim nacrtima istraživanja.
TakoĎe, cilj je ilustracija primene različitih rešenja problema multikolinearnosti na datim
podacima. Radi ostvarivanja cilja istraživanja primenjene su odabrane dijagnostičke
metode i ilustrovana odabrana rešenja za problem multikolinearnosti u okviru dve vrste
analize (višestruka regresija i strukturalno modelovanje), a na ukupno 3 primera u okviru
kojih je sadržano 3 različita nacrta istraživanja, 2 različite veličine uzorka i 2 kategorije
veličine koeficijenta determinacije. TakoĎe, radi
primene u srodnim istraživanjima
prodiskutovano je i koje su najbolje dijagnostičke metode i rešenja za svaki od datih
primera - dat je i prikaz pozitivnih i negativnih strana, kao i mogućnosti upotrebe
ilustrovanih dijagnostičkih metoda i datih rešenja.
2 Metod
2.1.1 Instrumenti
U okviru istraživanja koristićemo rezultate dobijene sledećim instrumentima:

ZKPQ-50-CC skala ličnosti (Zuckerman-Kuhlman Personality Questionnaire,
Aluja et al., 2006, prema Mitrović et al., 2009) - sadrži 50 stavki sa odgovorima
DA/NE. Dimenzije upitnika su: Aktivitet,
Agresivnost/hostilnost, Impulsivno
traženje senzacija, Neuroticizam/anksioznost i Socijabilnost. Svaka skala sadrži 10
stavki.
Kronbahova
alfa
skale
Agresivnost/hostilnost
Neuroticizam/anksioznost 0.80.
47
je
0.63,
a
skale
BPAG skala agresivnosti (Buss & Perry, 1992) sastoji se od 29 iskaza,
Kronbahova alfa BPAG skale iznosi 0.86, a obuhvata četiri subskale sa
petostepenim skalama Likertovog tipa za odgovaranje:
1. Bes (10 stavki) – opisuje tendenciju ka impulsivnom i nepromišljenom
reagovanju;
2.
Fizička agresivnost (6 stavki) – opisuje sklonost ka upuštanju u fizičke
obračune i tuče;
3.
Hostilnost (7 stavki) – ispituje uverenje osobe da život nije pravedan prema
njoj i osećanje da su drugi uspešniji, kao i na paranoidne sklonosti;
4.
Verbalna agresivnost – odnosi se na sklonost ka agresivno asertivnom
ponašanju, zaštiti sopstvenih prava koja uključuje pretnje, provokacije i svaĎu
(6 stavki).

Upitnik za ispitivanje osteljivosti na potkrepljenje od 39 ajtema (UOP;
Smederevac, Nikolašević, Kotvašova, Mitrović i Čolović, 2008, prema Dinić i
Smederevac, 2009) se sastoji od 39 ajtema na koje se odgovara zaokruživanjem
odgovora na petostepenoj Likertovoj skali. Ispitanik u zavisnosti od stepena
slaganja se tvdnjom zaokružuje broj: 1- uopšte se ne slažem, 2- uglavnom se ne
slažem, 3- nisam siguran, 4- uglavnom se slažem, 5- potpuno se slažem. Instrument
sadrži jednu skalu za procenu individualnih razlika u sistemu bihejvioralne
inhibicije (BIS, α=.78), jednu skalu za procenu u sistemu bihejvioralne aktivacije
(BAS, α=.73) i tri skale za procenu u sistemu borba-bežanje-blokiranje (B/B/B, sa
odgovarajućim Kronbahovim α=.75, α=.65, α=.80).

Upitnik za ispitivanje osteljivosti na potkrepljenje od 60 ajtema se sastoji od 60
ajtema na koje se odgovara zaokruživanjem odgovora na petostepenoj Likertovoj
skali. Ispitanik u zavisnosti od stepena slaganja se tvdnjom zaokružuje broj: 1uopšte se ne slažem, 2- uglavnom se ne slažem, 3- nisam siguran, 4- uglavnom se
slažem, 5- potpuno se slažem. Instrument sadrži jednu skalu za procenu
48
individualnih razlika u sistemu bihejvioralne inhibicije (BIS, α=.86), jednu skalu za
procenu u sistemu bihejvioralne aktivacije (BAS, α=.78) i tri skale za procenu u
sistemu borba-bežanje-blokiranje (B/B/B, sa odgovarajućim Kronbahovim α=.80,
α=.76, α=.90 ).
2.1.2 Uzorak
Analize su vršene na dva različita uzorka. Prvi uzorak sastoji se od 842 ispitanika,
349 muškog i 493 ženskog pola, srednje starosti 35 godina (od 18 do 68 godina). Uzorak
od 842 ispitanika prikupljan je tokom 2010. i 2011. godine na teritoriji Srbije.
Drugi uzorak sastoji se od 678 ispitanika, 292 muškog i 386 ženskog pola, srednje
starosti 35 godina (od 17 do 63 godine).
2.1.3 Postupak
U analizu su uključeni podaci iz dva istraživanja. Iz prvog istraživanja analizirana su
dva modela (uzorak od 842 ispitanika), dok je iz drugog istraživanja (678 ispitanik)
analiziran jedan model. Sva tri modela kao prediktorske varijable su sadržali 5 podskala
UOP upitnika, a kriterijumske varijable bile su iz prvog seta podataka podskala
Neuroticizam-anksioznost iz ZKPQ upitnika i podskala Agresivnost-hostilnost iz ZKPQ
upitnika, a iz drugog seta podataka kriterijum je bio ukupni skor na skali BPAG. Sva tri
modela ispitana su kroz višestruku regresiju i strukturalno modelovanje. Rezultati
uključuju pokazatelje multikolinearnosti i njihovu interpretaciju u kontekstu naših
primera, prikaz nekoliko rešenja koja se najčešće predlažu u literaturi kao efikasna,
komentar o njihovoj primeni i ograničenjima (u okviru naših primera) i naposletku,
predlog najboljih dijagnostičkih metoda i rešenja za analizirane primere i poreĎenje
višestruke regresije i strukturalnog modelovanja u kontekstu rešavanja problema
multikolinearnosti.
2.1.4 Metodi obrade podataka
Podaci su analizirani u SPSS 20. programu i pomoću statističkog paketa AMOS.
U okviru istraživanja izdvojeno je tri različita modela. Svaki model je prikazan kroz
višestruku regresiju i strukturalno modelovanje. Modeli višestruke regresije su modeli 1a,
49
2a i 3a. Prediktorske varijable modela 1a čini pet podskala Upitnika za ispitivanje
osteljivosti na potkrepljenje (BIS, BAS, Borba, Bežanje, Blokiranje), dok je kriterijum
skor na podskali Neuroticizam-anksioznost iz ZKPQ upitnika. Model 2a je izveden iz
istog seta podatka kao i model 1a, sa istim prediktorskim varijablama, a kriterijum je skor
na podskali Agresivnost-hostilnost iz ZKPQ upitnika. Model 3a je izveden iz drugog seta
podataka, prediktorske varijable su takoĎe pet podskala Upitnika za ispitivanje
osteljivosti na potkrepljenje (BIS, BAS, Borba, Bežanje, Blokiranje), a kriterijum je skor
na BPAG skali agresivnosti. Svaki od modela prikazan je i kroz strukturalno
modelovanje (modeli 1b, 2b i 3b).
Različiti modeli bili su zasnovani na različitoj veličini uzorka - uzorak na kom se
zasnivaju modeli 1a, 1b, 2a i 2b sastoji se od 842 ispitanika, dok su modeli 3a i 3b
zasnovani na uzorku od 648 ispitanika. TakoĎe, u okviru različitih modela zastupljene su
različite veličine koeficijenata determinacije. Prediktori svih modela potiču od istog
instrumenta, s tim da je u okviru prvog uzorka (modeli 1a, 1b, 2a i 2b) korišćena skraćena
verzija upitnika. U okviru kriterijumskih varijabli, u okviru modela 2 i modela 3 korišćen
je sličan konstrukt meren različitim skalama - skala u okviru modela 3 ima veći
varijabilitet.
50
3 Rezultati
U Tabeli 1 možemo videti rezultate višestruke regresije za model u okviru kog se vrši
predviĎanje skora na podskali Neuroticizam-anksioznost iz ZKPQ upitnika (model 1a),
model u okviru kog se vrši predviĎanje skora na podskali Agresivnost-hostilnost iz
ZKPQ upitnika (model 2a) i model u okviru kog se vrši predviĎanje ukupnog skora na
BPAG skali agresivnosti (model 3a).
Tabela 1
Rezultati višestruke regresije za model 1a, 2a i 3a
Model 1a (n=842)
Prediktor
B
BIS
.12
.02
BAS
-.03
.02
Borba
.05
.02
Bežanje
.11
Blokiranje
.13
2
R
Korigovani
R2
F
SE(B)
β
Model 2a (n=842)
Β
Model 3a (n=678)
SE(B)
-.01
.02
-.03
1.25
.12
.50***
.00
.01
.00
.16
.09
.06
.09**
.24
.02
.53***
1.63
.11
.49***
.02
.19***
-.08
.02
-.15***
-.75
.15
-.24***
.02
.25***
.03
.02
.13
.13
.26***
- .06
.07
B
SE(B)
β
B
.42
.31
.48
.42
.31
.48
75.51***
124.50***
122***
.05
Napomena: *p< .05. **p< .01. *** p< .001.
3.1 Modeli 1a, 2a i 3a – pokazatelji multikolinearnosti
Modelom 1a, putem višestruke regresije, izvršeno je predviĎanje skora na podskali
Neuroticizam-anksioznost iz ZKPQ upitnika, pomoću pet podskala Upitnika za
ispitivanje osteljivosti na potkrepljenje - BIS, BAS, Borba, Bežanje, Blokiranje, na
uzorku od 842 ispitanika. Tabela 2 prikazuje pokazatelje multikolinearnosti koji se
odnose na pojedinačne prediktore u okviru ovog modela.
51
Tabela 2
Pokazatelji redundantnosti pojedinačnih prediktora u okviru modela 1a
Prediktor
VIF
Tolerancija
Parcijalna
Semiparc.
korelacija
korelacija
R2
prediktora
Znak
koeficijenta
na ostale
BIS
2.59
.39
.21
.16
.61
nepromenjen
BAS
1.29
.78
-.07
-.05
.22
nepromenjen
Borba
1.43
.70
.09
.07
.30
nepromenjen
Bežanje
2.42
.41
.16
.12
.59
nepromenjen
Blokiranje
2.39
.42
.21
.16
.58
nepromenjen
Na osnovu strožih kriterijuma, gledajući VIF pokazatelj, nijedan prediktor nema
veoma problematično visoku kolinearnost, nijedan nema VIF>10, no po kriterijumu koji
kao kritične uzima sve prediktore čiji je VIF>2, vidimo da BIS, Bežanje i Blokiranje
predstavljaju potencijalno problematičko kolinearne prediktore. Isto možemo zaključiti i
na osnovu tolerancije, kao i na osnovu R2 prediktora na ostale, za koje vidimo da iako su
svi R2 < 0.9, za ova tri prediktora je R2 prediktora > R2 modela. Parcijalna i
semiparcijalna korelacija su veoma niske za sve prediktore, no nije došlo do promene
znaka regresionog koeficijenta u odnosu na jednostavnu korelaciju.
Modelom 2a, putem višestruke regresije, izvršeno je predviĎanje skora na podskali
Agresivnost-hostilnost iz ZKPQ upitnika, pomoću pet podskala: BIS, BAS, Borba,
Bežanje, Blokiranje, na uzorku od 842 ispitanika.. Tabela 3 prikazuje pokazatelje
multikolinearnosti koji se odnose na pojedinačne prediktore u okviru ovog modela.
52
Tabela 3
Pokazatelji redundantnosti pojedinačnih prediktora u okviru modela 2a
Prediktor
VIF
Tolerancija
Parcijalna
Semiparc.
korelacija
korelacija
R2
prediktora
Znak
koeficijenta
na ostale
BIS
2.59
.39
-.02
-.02
.61
nepromenjen
BAS
1.29
.78
.00
.00
.22
nepromenjen
Borba
1.43
.70
.47
.44
.30
nepromenjen
Bežanje
2.42
.41
-.12
-.10
.59
nepromenjen
Blokiranje
2.39
.42
.06
.05
.58
nepromenjen
Neki pokazatelji ostaju isti bez obzira na promenu kriterijumske varijable, pa tako opet
možemo videti gledajući VIF pokazatelj, po kriterijumu koji kao kritične uzima sve
prediktore čiji je VIF>2, vidimo da BIS, Bežanje i Blokiranje predstavljaju potencijalno
problematično kolinearne prediktore. Isto možemo zaključiti i na osnovu tolerancije, kao
i na osnovu R2 prediktora na ostale, koji su takoĎe ostali isti. Parcijalna i semiparcijalna
korelacija su (iako promenjene u odnosu na prvi model) još uvek veoma niske za sve
prediktore osim za Borbu, no nije došlo do promene znaka regresionog koeficijenta u
odnosu na jednostavnu korelaciju.
Na drugom setu podataka, na uzorku od 678 ispitanika modelom 3a, putem višestruke
regresije, izvršeno je predviĎanje ukupnog skora na BPAG skali agresivnosti, pomoću pet
podskala dobijenih korišćenjem istog instrumenta: BIS, BAS, Borba, Bežanje,
Blokiranje. Tabela 4 prikazuje pokazatelje multikolinearnosti koji se odnose na
pojedinačne prediktore u okviru ovog modela.
53
Tabela 4
Pokazatelji redundantnosti pojedinačnih prediktora u okviru modela 3a
Prediktor
VIF
Tolerancij
Parcijalna
Semiparc.
a
korelacija
korelacija
R2
prediktora
Znak
koeficijenta
na ostale
BIS
3.13
.32
.36
.28
.68
nepromenjen
BAS
1.43
.70
.07
.05
.30
nepromenjen
Borba
1.44
.69
.49
.41
.31
nepromenjen
Bežanje
3.06
.33
-.19
-.14
.67
promenjen
Blokiranje
3.27
.31
.04
.03
.70
nepromenjen
Gledajući VIF pokazatelj, ni u ovom slučaju nijedan prediktor nema problematično
visoku kolinearnost prema kriterijumu VIF>10, ali po kriterijumu VIF>2, vidimo da opet
BIS, Bežanje i Blokiranje predstavljaju potencijalno problematično kolinearne prediktore,
u za ovaj model oni su nešto veći nego u prethodnim modelima. Isto možemo zaključiti i
na osnovu tolerancije (za ove prediktore je tolerancija < 0.4), kao i na osnovu R 2
prediktora na ostale – opet, za ova tri prediktora je R2 prediktora > R2 modela, s tim da su
svi pojedinačni koeficijenti determinacije nešto veći nego u slučaju prva dva modela.
Parcijalna i semiparcijalna korelacija su veoma niske za sve prediktore, a za podskalu
Bežanje, došlo je u ovom modelu i do promene znaka regresionog koeficijenta u odnosu
na jednostavnu korelaciju.
Od pokazatelja koji ukazuju na visinu kolinearnosti u okviru grupe prediktora prikazana
je determinanta korelacione matrice i Haitovski test. Tabela 5 prikazuje determinantu
korelacione matrice a Haitovski test za modele 1a i 2a i za model 3a možemo videti u
Tabeli 6.
54
Tabela 5
Pokazatelj visine kolinearnosti u okviru grupe prediktora za modele 1a, 2a i 3a determinanta korelacione matrice
Pokazatelj
Model 1a i 2a (n=842)
Model 3a (n= 678)
Determinanta
korelacione
0.15
0.08
matrice
Vidimo da je u okviru prvog seta podataka na uzorku od 842 ispitanika, determinanta
korelacione matrice relativno blizu nule, no na drugom uzorku je još kritičnija situacija,
može se videti da je determinanta manja od 0.1.
Tabela 6
Pokazatelj visine kolinearnosti u okviru grupe prediktora za modele 1a,2a i 3a -Haitovski
test
Model 1a i 2a (n=842)
Pokazatelj
Statistik
Haitovski test
144.55
Df
10
Model 3a (n= 678)
p nivo
Statistik
.00
61.78
Df
10
p nivo
.00
Haitovski test je visoko značajan i za jedan i za drugi set podataka, p < 0.001, što ukazuje
da ne postoji multikolinearnost u okviru prediktora oba seta podataka.
U daljoj analizi, matrica jednostavnih korelacija, skater dijagrami koreliranja meĎu
prediktorima, uslovni brojevi i karakteristični korenovi za svaki odgovarajući
karakteristični vektor i matrice interkorelacija regresionih koeficijenata prikazani su radi
odreĎivanja strukture povezanosti prediktora. U tabeli 7 prikazana je matrica
jednostavnih interkorelacija prediktora za modele 1a i 2a, dok u Tabeli 8 možemo videti
matricu jednostavnih interkorelacija prediktora za model 3a.
55
Tabela 7
Matrica jednostavnih interkorelacija prediktora za modele 1a i 2a
Prediktor
BIS
BAS
Borba
Bežanje
Blokiranje
BIS
1.00
-0.12
0.21
0.68
0.70
BAS
-0.12
1.00
0.41
-0.17
-0.17
Borba
0.21
0.41
1.00
-0.07
0.09
Bežanje
0.68
-0.17
-0.07
1.00
0.69
Blokiranje
0.70
-0.17
0.09
0.69
1.00
Napomena: kurzivom označene korelacije više od 0.6
Tabela 8
Matrica jednostavnih interkorelacija prediktora za model 3a
Prediktor
BIS
BAS
Bežanje
Borba
Blokiranje
BIS
1.00
0.10
0.14
0.76
0.78
BAS
0.10
1.00
0.54
0.11
0.10
Borba
0.14
0.54
1.00
0.05
0.08
Bežanje
0.76
0.11
0.05
1.00
0.78
Blokiranje
0.78
0.10
0.08
0.78
1.00
Napomena: kurzivom označene korelacije više od 0.6
U modelu 1a i 2a najviše su korelacije BIS-Blokiranje, Bežanje-Blokiranje i BISBežanje, od 0.68 – 0.70, a istu strukturu vidimo i u modelu 3a, s tim da su ove korelacije
nešto više u okviru modela 3a – od 0.76 do 0.78. Na Grafiku 6 vide se skater dijagrami
koreliranja meĎu prediktorima modela 1a odnosno 2a, dok su na Grafiku 7 skater
dijagrami koreliranja meĎu prediktorima modela 3a.
56
Grafik 6. Skater dijagrami koreliranja među prediktorima modela 1a i 2a
Grafiku 7. Skater dijagrami koreliranja među prediktorima modela 3a
57
Za model 1a i 2a, uslovni brojevi i karakteristični korenovi za svaki odgovarajući
karakteristični vektor prikazani su u Tabeli 9, a za model 3a u Tabeli 10.
Tabela 9
Model 1a i 2a - uslovni brojevi i karakteristični korenovi za svaki odgovarajući
karakteristični vektor
Proporcija objašnjene varijanse
KarakteDimenzija
ristični
Uslovni
broj
koren
Konstanta BIS
BAS
Borba
Bežanje
Blokira
nje
1
5.82
1.00
.00
.00
.00
.00
.00
.00
2
.10
7.53
.01
.02
.06
.07
.03
.09
3
.03
13.32
.06
.02
.11
.51
.10
.07
4
.02
16.99
.00
.32
.11
.03
.10
.83
5
.01
21.16
.01
.64
.24
.38
.53
.00
6
.01
23.35
.93
.00
.48
.01
.24
.01
Napomena: Kuzivom su obeležene dimenzija čiji je uslovni broj veći od 15
Tabela 10
Model 3a - uslovni brojevi i karakteristični korenovi za svaki odgovarajući
karakteristični vektor
Proporcija objašnjene varijanse
KarakteDimenzija
ristični
Uslovni
broj
koren
Konstanta BIS
BAS
Borba
Bežanje
Blokiranje
1
5.85
1.00
.00
.00
.00
.00
.00
.00
2
.10
7.78
.01
.03
.03
.06
.01
.09
3
.02
16.80
.20
.01
.02
.59
.10
.13
4
.02
19.07
.00
.65
.08
.03
.00
.63
5
.01
23.10
.05
.29
.14
.24
.81
.07
6
.01
24.84
.73
.03
.73
.08
.07
.08
Napomena: Kuzivom su obeležene dimenzija čiji je uslovni broj veći od 15
58
Iz Tabele 9 možemo videti da je prva dimenzija čiji je uslovni broj veći od 15 najviše
zasićena skorom Blokiranje i BIS, dok je sledeća dimenzija visoko zasićena skorom BIS i
Bežanje. U modelu 3a, vidimo da vrednost uslovnog broja ima dimenzija koja je visoko
zasićena podskalom Borba i konstanta, no od većeg interesa je sledeća dimenzija koja
ima visoko zasićenje na poskali BIS i Blokiranje, i naredna, koja je zasićena skorom BIS
i Bežanje. Može se uočiti da su dimenzije sa potencijalno problematično visokom
vrednošću uslovnog broja veoma slične za data dva seta podataka, dakle struktura
kolinearnosti meĎu prediktorima je veoma slična.
U Tabeli 11 prikazana je matrica interkorelacija regresionih parametara, koeficijenti
korelacije meĎu regresionim koeficijentima za modele 1a i 2a, a u Tabeli 12 za model 3a.
Tabela 11
Koeficijenti korelacije među regresionim koeficijentima za modele 1a i 2a
Blokiranje Borba
Bežanje
BAS
BIS
Blokiranje
1.00
-.08
.11
-.40
-.39
Borba
-.08
1.00
-.44
.28
-.33
BAS
.11
-.44
1.00
-.05
.12
Bežanje
-.40
.28
-.05
1.00
-.44
BIS
-.39
-.33
.12
-.44
1.00
Tabela 12
Koeficijenti korelacije među regresionim koeficijentima za model 3a
Blokiranje Borba
Blokiranje
Bežanje
BAS
BIS
1.00
.02
-.02
-.45
-.46
Borba
.02
1.00
-.54
.11
-.16
BAS
-.02
-.54
1.00
-.10
.08
Bežanje
-.45
.11
-.10
1.00
-.40
BIS
-.46
-.16
.08
-.40
1.00
59
Iz Tabele 11 vidimo da postoje umerene negativne korelacije meĎu parametrima skala
Blokada i Bežanje, Blokiranje i BIS, Bežanje i BIS, kao i parametrima skala Borba i BAS
u modelima 1a i 2a.U modelu 3a postoje umerene negativne korelacije meĎu
parametrima skala Blokiranje i Bežanje, Blokiranje i BIS, Bežanje i BIS,
kao i
parametrima skala Borba i BAS. Vidimo da su interkorelacije regresionih parametara
povišene izmeĎu parametara istih skala u okviru prva dva modela i modela 3a, s tim da su
korelacije nešto više u modelu 3a.
3.2 Model 1a, 2a i 3a - predlozi rešenja
Prikazana su odabrana rešenja multikolinearnosti. Na odabranim modelima prikazali smo
centriranje, ridž regresiju, uprosečavanje kolinearnih skala, regresiju glavnih komponenti.
3.2.1 Model 1a – prikaz rešenja
U Tabeli 13 vide se karakteristike modela nakon centriranja varijabli i ridž regresije.
Tabela 13
Rezultati višestruke regresije za model 1a nakon centriranja varijabli i ridž regresije sa
dve različite vrednosti lambde
Prediktor
B
Model 1a
Model 1a
Model 1a
Centriranje
Ridž(λ=0.1)
Ridž(λ=0.2)
St.
Er(B)
β
β
Er(B)
.12
.02
BAS
-.03
.02
Borba
.05
.02
Bežanje
.11
Blokiranje
.13
R2
.42
.40
.39
.42
.40
.39
R2
F
.11
.02
-.03
.01
.09**
.04
.02
.02
.19***
.11
.02
.25***
.12
- .06
122***
.25***
B
BIS
Korigovan
.26***
St.
B
St.
β
Er(B)
.10
.01
-.03
.01
.08**
.04
.02
.08**
.02
.19***
.11
.02
.19***
.02
.24***
.11
.02
.23***
- .05
113.74***
Napomena: *p< .05. **p< .01. *** p< .001.
60
.24***
- .05
106.54***
Karakteristike modela 1a nisu se promenile nakon centriranja, a ridž regresija dovela je
do smanjenja koeficijenta determinacije. TakoĎe, pokazatelji kolinearnosti nisu se
promenili nakon centriranja. Gledajući model 1a a u Tabeli 14 vidimo glavne pokazatelje
multikolinearnosti za model 1a nakon ridž regresije sa vrednošću λ=0.1.
Tabela 14
Pokazatelji redundantnosti pojedinačnih prediktora u okviru modela 1a nakon ridž
regresije sa vrednošću λ=0.1
Prediktor
VIF
Parcijalna
Semiparcijalna
korelacija
korelacija
R2
prediktora
na ostale
BIS
1.91
.23
.18
.48
BAS
1.11
-.07
-.05
.10
Borba
1.19
.10
.07
.16
Bežanje
1.81
.18
.14
.45
Blokiranje
1.82
.22
.18
.45
Nakon ridž regresije pokazatelji kolinearnosti su se smanjili, sve VIF vrednosti su <2.
Iako su koeficijenti determinacije još uvek srednje visine, s obzirom na to da bi dalje
uvoĎenje pristrasnosti rezultovalo manjom preciznošću koeficijenta determinacije čitavog
modela, možemo prihvatiti rešenje sa vrednošću λ=0.1 kao najoptimalnije.
U Tabeli 15 mogu se videti karakteristike modela nakon uprosečavanja kolinearnih skala
modela 1a. Prediktore čini prosek skala BIS, Bežanje, Blokiranje, kao i skorovi skala
BAS i Borba. Prikazane su i karakteristike modela nakon regresije glavnih komponenti
dobijenih Varimax ortogonalnom rotacijom. Prediktore u ovom slučaju čine dve
dimenzije: prva je zasićena skalama BIS, Bežanje Blokiranje, a druga skalama BAS i
Borba.
61
Tabela 15
Karakteristike modela nakon uprosečavanja i regresije glavnih komponenti za model 1a
Reg.gl.
Uprosečavanje
Komponenti
Prediktor
B
SE(B)
β
Prosek (BIS, Bežanje,
.36
.02
.63***
BAS
-.03
.02
-.06
Borba
.05
.02
.09**
B
SE(B)
Β
1.79
.07
.65***
.05
.07
.02
Blokiranje)
Dimenzija1
(BIS, Bežanje Blokiranje)
Dimenzija2 (BAS, Borba)
R2
.42
.42
Korigovani R2
.42
.42
F
203.75***
304.12***
Napomena: *p< .05. **p< .01. *** p< .001.
Pokazatelji kolinearnosti nakon uprosečavanja kolinearnih skala, kao i regresije glavnih
komponenti dobijenih Varimax ortogonalnom rotacijom prikazani su u Tabeli 16.
Tabela 16
Pokazatelji redundantnosti prediktora nakon uprosečavanja i regresije gl. komponenti
Modifikacija
VIF
Prediktor
modela
Parcijalna
Semiparc.
R2
korelacija
korelacija
prediktora
Uprosečavanje Prosek (B/B/B)
1.07
.62
.60
0.06
kolinearnih
BAS
1.27
-.07
-.05
0.22
skala
Borba
1.25
.10
.08
0.20
Reg.gl.
Dimenzija1 (B/ B/ B)
1
.65
.65
0.00
komponenti
Dimenzija2 (BAS, Borba)
1
.03
.02
0.00
62
3.2.2 Model 2a – prikaz rešenja
U Tabeli 17 vide se karakteristike modela nakon centriranja varijabli i ridž regresije sa
dve različite vrednosti lambde.
Tabela 17
Rezultati višestruke regresije za model 2a nakon centriranja varijabli i ridž regresije sa
dve različite vrednosti lambde
Prediktor
Model 2a
Model 2a
Model 2a
Centriranje
Ridž(λ=0.1)
Ridž(λ=0.2)
St.
B
Β
Er(B)
St.
B
Er(B)
β
St.
B
Er(B)
β
BIS
-.01
.02
-.03
.00
.01
-.01
.00
.01
.00
BAS
.00
.01
.00
.01
.01
.02
.02
.01
.04
Borba
.24
.02
.53***
.22
.01
.47***
.20
.01
.43***
-.08
.02
-.07
.02
-.14***
-.06
.02
-.13***
.02
.02
.05
.02
.01
Bežanje
Blokiranje
R2
Korigovani
2
R
F
.15***
.03
.02
.31
.31
75.51***
.07
.28
.26
.28
.26
66.16***
59.13***
.04
Napomena: *p< .05. **p< .01. *** p< .001.
.
Ni karakteristike modela 2a nisu se promenile nakon centriranja, a ridž regresija kao što
je i očekivano, dovela je do smanjenja koeficijenta determinacije. TakoĎe, pokazatelji
kolinearnosti nisu se promenili nakon centriranja.
U Tabeli 18 vidimo glavne pokazatelje multikolinearnosti za model 2a nakon ridž
regresije sa vrednošću λ=0.1.
63
Tabela 18
Pokazatelji redundantnosti pojedinačnih prediktora u okviru modela 1a nakon ridž
regresije sa vrednošću λ=0.1
Prediktor
VIF
Parcijalna
Semiparcijalna
korelacija
korelacija
R2
prediktora
na ostale
BIS
1.91
-.01
-.01
.48
BAS
1.11
.03
.02
.10
Borba
1.19
.46
.43
.16
Bežanje
1.81
-.12
-.10
.45
Blokiranje
1.82
.05
.04
.45
I ovde možemo prihvatiti rešenje sa vrednošću λ=0.1 kao najoptimalnije.
U Tabeli 19 vide se karakteristike modela nakon uprosečavanja kolinearnih skala, kao i
regresije glavnih komponenti dobijenih Varimax ortogonalnom rotacijom.
Tabela 19
Rezultati višestruke regresije za model 2a nakon uprosečavanja i regresije gl.komponenti
Reg.gl.
Uprosečavanje
B
SE(B)
β
-.05
.01
-.10**
BAS
-.01
.01
-.01
Borba
.25
.02
.56***
Prediktor
Prosek (BIS, Bežanje,
Komponenti
B
SE(B)
Β
-.04
.07
-.02
1.08
.07
.48***
Blokiranje)
Dimenzija1
(BIS, Bežanje Blokiranje)
Dimenzija2 (BAS, Borba)
R2
.30
.23
Korigovani R2
.30
.23
F
121.52***
Napomena: *p< .05. **p< .01. *** p< .001.
64
124.05***
Pokazatelji multikolinearnosti nakon uprosečavanja kolinearnih skala prikazani su u
Tabeli 20. Kao i u modelu 1a, i u modelu 2a prediktore čini prosek skala BIS, Bežanje,
Blokiranje, kao i skorovi skala BAS i Borba. Prikazani su i
pokazatelji
multikolinearnosti u okviru modela nakon regresije glavnih komponenti dobijenih
Varimax ortogonalnom rotacijom. Prediktore u ovom slučaju, kao i u modelu 1a, čine dve
dimenzije: prva je zasićena skalama BIS, Bežanje Blokiranje, a druga skalama BAS i
Borba.
Tabela 20
Pokazatelji redundantnosti prediktora u okviru modela 2a nakon uprosečavanja
kolinearnih skala i regresije glavnih komponenti
Modifikacija
Semiparc.
R2
korelacija
korelacija
prediktora
1.07
-.11
-.10
0.06
VIF
Prediktor
modela
Parcijalna
Uprosečavanje Prosek (BIS, Bežanje,
kolinearnih
Blokiranje)
skala
BAS
1.27
-.01
-.01
0.22
Borba
1.25
.51
.50
0.20
1
-.02
-.02
0.00
1
.48
.48
0.00
Reg.gl.
Dimenzija1 (BIS, Bežanje
komponenti
Blokiranje)
Dimenzija2 (BAS, Borba)
3.2.3 Model 3a – prikaz rešenja
U Tabeli 21 vide se karakteristike modela nakon centriranja varijabli i ridž regresije sa
dve različite vrednosti lambde. U Tabeli 22 vidimo glavne pokazatelje multikolinearnosti
za model 3a nakon ridž regresije sa vrednošću λ=0.2.
65
Tabela 21
Rezultati višestruke regresije za model 3a nakon centriranja varijabli i ridž regresije
Prediktor
Model 3a
Model 3a
Model 3a
Centriranje
Ridž(λ=0.1)
Ridž(λ=0.2)
St.
B
Er(B)
St.
B
1.01
.11
.40***
.85
.10
.33***
.19
.09
.07**
.21
.08
.08**
.42***
Er(B)
β
St.
β
B
BIS
1.25
.12
.50***
BAS
.16
.09
.06
Borba
1.63
.11
.49***
1.52
.11
.45***
1.40
.10
Bežanje
-.75
.15
-.24***
-.48
.13
-.15***
-.33
.12
.13
.13
.15
.11
.17
.10
Blokiranje
2
R
Korigovani
R2
F
.05
.48
.48
124.50***
.06
β
Er(B)
.44
.40
.43
.40
99.56***
86.39***
-.10**
.07
Napomena: *p< .05. **p< .01. *** p< .001.
.
Ni karakteristike modela 3a nisu se promenile nakon centriranja, a pokazatelji
kolinearnosti nisu se promenili nakon centriranja.
Tabela 22
Pokazatelji redundantnosti pojedinačnih prediktora u okviru modela 3a nakon ridž
regresije sa vrednošću λ=0.2
Prediktor
VIF
Parcijalna
Semiparcijalna
R2 prediktora
korelacija
korelacija
na ostale
BIS
1.66
0.31
0.26
0.40
BAS
1.03
0.10
0.08
0.03
Borba
1.04
0.47
0.41
0.04
Bežanje
1.63
-0.11
-0.08
0.39
Blokiranje
1.69
0.07
0.05
0.41
66
Za razliku od prethodnih modela, u okviru ovog modela treba da uvedemo više
pristrasnosti da bi pokazatelji kolinearnosti bili zadovoljavajući, pa ovde možemo
prihvatiti rešenje sa vrednošću λ=0.2 kao najoptimalnije, iako rešenja izgleda nisu
stabilizovana - povećavanjem vrednosti konstante (kad je λ>0.4) dobijamo neznačajan
koeficijent podskale Bežanje i značajan koeficijent podskale Blokiranje..
U Tabeli 23 vide se karakteristike modela nakon uprosečavanja kolinearnih skala, kao i
regresije glavnih komponenti dobijenih Varimax ortogonalnom rotacijom.
Tabela 23
Rezultati višestruke regresije za model 2a nakon uprosečavanja kolinearnih skala i
regresije glavnih komponenti
Reg.gl.
Uprosečavanje
Komponenti
Prediktor
B
SE(B)
β
Prosek (BIS, Bežanje,
.83
.09
.29***
BAS
.08
.10
.03
Borba
1.78
.12
.54***
B
SE(B)
Β
5.32
.54
.31***
8.97
.54
.52***
Blokiranje)
Dimenzija1
(BIS, Bežanje Blokiranje)
Dimenzija2 (BAS, Borba)
R
2
Korigovani R2
F
.42
.36
.42
.36
162.64***
189.37***
Napomena: *p< .05. **p< .01. *** p< .001.
Pokazatelji kolinearnosti nakon uprosečavanja kolinearnih skala, kao i regresije glavnih
komponenti dobijenih Varimax ortogonalnom rotacijom prikazani su u Tabeli 24.
67
Tabela 24
Pokazatelji redundantnosti prediktora u okviru modela 3a nakon uprosečavanja
kolinearnih skala i regresije glavnih komponenti
Modifikacija
Semiparc.
R2
korelacija
korelacija
prediktora
1.02
.35
.28
0.02
VIF
Prediktor
modela
Parcijalna
Uprosečavanje Prosek (BIS, Bežanje,
kolinearnih
Blokiranje)
skala
BAS
1.40
.03
.02
0.29
Borba
1.40
.51
.45
0.29
1
.36
.31
0.00
1
.54
.52
0.00
Reg.gl.
Dimenzija1 (BIS, Bežanje
komponenti
Blokiranje)
Dimenzija2 (BAS, Borba)
3.3 Modeli 1b,2b i 3b – primeri strukturalnih jednačina
Pored regresionih modela, tri strukturalna modela su analizirana u okviru istraživanja. Za
sva tri ispitan je fit modela i dat komentar. TakoĎe, u okviru kasnije analize svakog
strukturalnog modela dat je predlog modifikacija u skladu sa odnosima meĎu egzogenim
i endogenim varijablama, a u cilju poboljšanja specifikacija modela i rešavanja problema
multikolinearnosti. Na graficima se mogu videti predloženi početni modeli.
68
Grafik 8
Model 1b
Napomena: Egzogene varijable su predstavljene podskalama Upitnika za ispitivanje
osteljivosti na potkrepljenje BIS, BAS, Borba, Bežanje, Blokiranje, dok je endogena
varijabla skor na skali Neuroticizam/anksioznost ZKPQ upitnika.
69
Grafik 9
Model 2b
Napomena: Egzogene varijable su predstavljene podskalama Upitnika za ispitivanje
osteljivosti na potkrepljenje BIS, BAS, Borba, Bežanje, Blokiranje, dok je endogena
varijabla skor na skali Agresivnost/hostilnost ZKPQ upitnika.
70
Grafik 10
Model 3b
3.3.1 Model 1b – fit, komentar i predložene modifikacije
Multivarijatni kurtozis za prikazani model je 2.12, dakle u prihvatljivim granicama.
Pokazatelji fita za originalni, iznad prikazani model 1b su:
71
Hi-kvadrat je 1572.035 (df=10, p nivo 0.000).
CMIN/df=157.2
TLI= -0.161
CFI=0.226
RMSEA=0.431
Standardized RMR = 0.3093
Nijedan pokazatelj fita nije u prihvatljivim granicama iako su svi parametri u modelu
značajni. Parametri modela 1b prikazani su u Tabeli 25.
Tabela 25
Parametri modela 1b –odnos sa prediktandom modela (NANX)
Model 1b
Prediktor
B
SE(B)
β
.01
.30***
BIS
.12
BAS
-.03
.01
Borba
.05
.02
.10**
Bežanje
.11
.02
.22***
Blokiranje
.13
.01
.29***
-.06*
Vidimo da je "zavisna" varijabla nisko ali znajčajno povezana sa skalama BIS,
Blokiranje, Bežanje, a veoma niska zasićenja imaju skale Borba i BAS. S obzirom na
veoma loše pokazatelje fita modela, odlučili smo uključiti latentnu varijablu u model. U
okviru ovakvog modela, dalji predlozi za modifikovanje modela, dve smislene i teorijski
opravdane sugestije, bile su koreliranost grešaka skala BAS i Borba, kao i skala Borba i
Bežanje. Na osnovu predloženih sugestija dat je novi model prikazan na grafiku 4.
72
Grafik 11
Model 1b nakon usvojenih modifikacija
Pokazatelji fita za ovako modifikovan iznad prikazani model 1b su:
Hi-kvadrat je 25.24 (df=7, p nivo 0.001).
CMIN/df=3.60
TLI= 0.981
CFI=0.991
73
RMSEA=0.056
Standardized RMR = .0224
Nakon modifikacija, svi pokazatelji fita su na prihvatljivom nivou osim hi-kvadrat testa.
Parametri modifikovanog modela 1b prikazani su u Tabeli 26.
Tabela 26
Parametri modifikovanog modela 1b –faktorska opterećenja merenih podskala latentnom
varijablom i odnos sa prediktantom modela (NANX)
Model 1b
SE(B)
β
Prediktor
B
BIS
1.00
BAS
-.18
.04
-.18***
Borba
.17
.03
.18***
Bežanje
.70
.03
.81***
Blokiranje
.85
.03
.83***
NANX
.36
.02
.69***
.85***
Vidimo da je latentna varijabla visoko zasićena skalama BIS, Blokiranje, Bežanje, a
veoma niska zasićenja imaju skale Borba i BAS. U odnosu na originalni model došlo je
do promene u parametru podskale Borba, koji se povećao.
3.3.2 Model 2b - fit, komentar i predložene modifikacije
Multivarijatni kurtozis za prikazani model je 2.28, dakle u prihvatljivim granicama.
Pokazatelji fita za originalni, iznad prikazani model 2b su:
Hi-kvadrat je 1572.035 (df=10, p nivo 0.000).
CMIN/df=157.20
TLI= -0.253
CFI=0.165
74
RMSEA=0.431
Standardized RMR = .2922
Nijedan pokazatelj fita nije u prihvatljivim granicama. Parametri su prikazani u Tabeli
27. Vidimo da je latentna varijabla visoko zasićena skalama BIS, Blokiranje, Bežanje, a
vema niska zasićenja imaju skale Borba i BAS.
Tabela 27
Parametri modela 2b – povezanost sa prediktantom modela (AGGH)
Model 2b
B
BIS
-.01
BAS
.00
.01
.00
Borba
.24
.01
.53***
-.08
.01
-.15***
.03
.01
.07**
Bežanje
Blokiranje
SE(B)
β
Prediktor
.01
-.03
Kao i u prethodnom modelu, formirana je latentna varijabla u cilju poboljšanja
pokazatelja fita, a prihvaćene su i smislene modifikacije tako nastalog modela pa su
korelirane greške skala BAS i Borba, kao i Borba i Bežanje. Na osnovu predloženih
sugestija dat je novi model prikazan na grafiku 5.
75
Grafik 12
Model 2b nakon usvojenih modifikacija
Hi-kvadrat je 336.59 (df=7, p nivo 0.000).
CMIN/df=48.08
TLI= 0.622
CFI=0.824
76
RMSEA=0.237
Standardized RMR = .1359
Vidimo da se pokazatelji fita u ovom slučaju nisu znatno poboljšali menjanjem modela i
modifikovanjem odnosa meĎu greškama prediktora. Nijedan pokazatelj fita nije u
prihvatljivim granicama a parametar odnosa latentne varijable i AGGH nije značajan.
Parametri modifikovanog modela 2b prikazani su u Tabeli 28.
Tabela 28
Parametri modifikovanog modela 2b –faktorska opterećenja merenih podskala sa
latentnom varijablom i odnos sa prediktantom modela (AGGH)
Model 2b
SE(B)
β
Prediktor
B
BIS
1.00
BAS
-.19
.038
-.18***
Borba
.17
.035
.18***
Bežanje
.71
.027
.81***
Blokiranje
.85
.031
.82***
AGGH
.00
.016
.01
.85***
Vidimo da je latentna varijabla visoko zasićena skalama BIS, Blokiranje, Bežanje, a
veoma niska zasićenja imaju skale Borba i BAS. U ovom slučaju vidimo da ovako
formirana latentna varijabla sa datim opterećenjima ne korelira značajno sa varijablom
AGGH. Pri pokušaju modifikovanja modela formiranjem dve latentne varijable koje će
biti odreĎene jedna skalama BIS, Bežanje i Blokiranje a druga skalama BAS i Borba
dobijamo neadrekvatno rešenje i negativnu procenu jedne od varijansi greški, što može
biti jasan pokazatelj multikolinearnosti s obzirom na to da su sve druge pretpostavke
modelovanja adekvatno zadovoljene.
77
3.3.3 Model 3b – fit, komentar i predložene modifikacije
Multivarijatni kurtozis za prikazani model je 2.88, dakle u prihvatljivim granicama.
Nijedan pokazatelj fita nije u prihvatljivim granicama iako su svi parametri u modelu
značajni. Pokazatelji fita za originalni, iznad prikazani model 3b su:
Hi-kvadrat je 596.57 (df=9, p nivo 0.000).
CMIN/df=66.29
TLI= 0.529
CFI=0.717
RMSEA=0.311
Standardized RMR = .1782
Parametri za dati model prikazani su u Tabeli 29.
Tabela 29
Parametri modifikovanog modela 3b –faktorska opterećenja merenih podskala sa
latentnom varijablom i odnos sa prediktantom modela (BPAG skor)
Model 3b
B
BIS
1.00
BAS
.14
.04
.13***
Borba
.12
.03
.14***
Bežanje
.79
.03
.86***
1.01
.03
.89***
1.06
.11
.37***
Blokiranje
SE(B)
β
Prediktor
.89***
BPAG
skor
Opet, u okviru predloga za modifikovanje modela postoje dve smislene i teorijski
opravdane sugestije, a to je takoĎe koreliranost grešaka skala BAS i Borba, kao i skala
Borba i Bežanje. Ipak, imajući u vidu veoma niska opterećenja podskala Borba i BAS na
latentnoj varijabli, model je modifikovan uvoĎenjem još jedne latentne varijable, a prikaz
se može videti na Grafiku 5.
78
Grafik 13
Model 3b nakon modifikacija
Pokazatelji fita za ovako prikazan model 3b su:
Hi-kvadrat je 97.65 (df=7, p nivo 0.000).
CMIN/df=13.95
TLI= 0.907
CFI=0.956
RMSEA=0.138
Standardized RMR = .039
Parametri datog modifikovanog modela prikazani su u Tabeli 30.
79
Tabela 30
Parametri modifikovanog modela 3b –faktorska opterećenja merenih podskala sa
latentnim varijablama i odnos sa prediktantom modela (BPAG skor)
Faktor1
Prediktor
BIS
B
SE(B)
1.00
Faktor2
β
B
SE(B)
Β
.89***
BAS
1.00
Borba
1.36
.13
.96***
2.70
.21
.57***
Bežanje
.80
.03
.86***
Blokiranje
1.01
.03
.89***
BPAG skor
.84
.09
.30***
.56***
80
4 Diskusija
Pokazatelji i dijagnostika multikolinearnosti
Iz poreĎenja pokazatelja kolinearnosti u okviru modela 1a i 2a možemo videti da se
pokazatelji koji se odnose na pojedinačne prediktore ne razlikuju u zavisnosti od različite
zavisne varijable i koeficijenta determinacije modela. Ovo je prva stvar koju treba imati u
vidu u okviru dijagnostifikovanja štetnosti kolinearnosti. Naime, kao što smo već rekli,
vrednost kolinearnosti meĎu prediktorima može biti i visoka a da ne bude veoma štetna neprecizne procene su produkt velike varijanse greške, malog uzorka, homogenih
prediktora i jake linearne veze meĎu prediktorima (Fox, 2005). Pokazatelji
multikolinearnosti koji se odnose na pojedinačne prediktore su veoma korisni u
odreĎivanju postojanja multikolinearnosti, ali ne i u preciziranju štetnosti. Da bismo
procenili štetnost, potrebno je da imamo u vidu pojedinačni model – u našem primeru,
svakako možemo reći da je potencijalna štetnost multikolinearnosti veća za model 2a
nego za model 1a, s obzirom na to da je koeficijent determinacije modela 1a veći. U
poreĎenju sa modelom 3a, štetnost multikolinearnosti je takoĎe verovatno manja u prvom
modelu, jer iako je raspon kriterijumske varijable znatno veći za model 3a (što smanjuje
varijansu greške modela) i koeficijent determinacije modela je nešto veći, uzorak je
manji, pa možemo reći da je i pouzanost procene prediktora manja, a vidimo da su i
greške parametara oko pet puta veće za model 3a. No u odnosu na model 2a, ne možemo
pretpostaviti da li je model 3a pouzdaniji i manje podložan štetnosti multikolinearnosti
iako je procenjen na manjem uzorku. Samim tim što je koeficijent determinacije znatno
viši u modelu 3a, a kriterijum i prediktori imaju veći raspon, ovi faktori možda donose
prevagu u korist veće preciznosti modela 3a. Ipak, vidimo da su pokazatelji
multikolinearnosti koji se odnose na pojedinačne prediktore viši u okviru modela 3a, a i
odnosi parcijalnih i jednostavnih korelacija su u većoj diskrepanci (ovi pokazatelji su
veoma važna dopuna prethodno nabrojanim kriterijumima jer su oni uistinu jedini
pokazatelji koji su specifični u odnosu na svaki pojedinačni model). Pokazatelji koji
pokazuju visinu kolinearnosti u okviru grupe prediktora, govore da je kolinearnost
najproblematičnija u modelu 3a (determinanta korelacione matrice je manja). Dakle,
možemo videti da meĎu nabrojanim pokazateljima ne postoji jedan jedinstveni koji bi
81
ukazao na štetnost multikolinearnosti u svakom specifičnom modelu. O tome možemo
zaključiti samo posredno, a samim tim i donekle subjektivno, posmatrajući sam model i
njegove karakteristike, kao i vrednosti nabrojanih pokazatelja. U daljoj analizi, vidimo da
su u modelima 1a i 2a najviše korelacije BIS-Blokiranje, Bežanje-Blokiranje i BISBežanje, od 0.68 – 0.70, a istu strukturu vidimo i u modelu 3a, s tim da su ove korelacije
nešto više u okviru modela 3a – od 0.76 do 0.78. Ovi pokazatelji ne govore nam ništa
ako veze izmeĎu prediktora nisu bivarijatne, no na osnovu karakterističnih vektora
vidimo da jedna od dimenzija čiji je odgovarajući karakteristični koren veoma blizu nule
ima visoko zasićenje na podskali BIS i Blokiranje, dok je naredna najviše zasićena
skorom BIS i Bežanje, ali donekle i skorom na podskali Borba. Iako po ovom
kriterujumu možemo videti da postoji multikolinearnost izmeĎu više od dva pojedinačna
prediktora, zasićenje druge dimenzije skorom na podskali Borba je nisko u odnosu na
druga dva zasićenja, pa stoga možemo reći da u našim primerima modela jednostavni
pokazatelji kao što su matrica korelacija daju relativno dobru sliku o povezanosti meĎu
prediktorima. Slično možemo videti i iz povezanosti regresionih koeficijenata. Parametar
prediktora Blokiranje je u negativnoj vezi sa parametrima Bežanja i BIS-a, parametar
Bežanja u negativnoj vezi sa parametrom BIS-a, a u negativnoj vezi su i parametri Borbe
i BAS-a, i to u okviru sva tri modela. Ovo naravno znači da što je parametar Bežanja viši
to su parametri BIS-a i Blokiranja niži, itd. S obzirom na to da su ove podskale pozitivno
povezane, negativna povezanost njihovih koeficijenata direktno ukazuje na postojanje
multikolinearnosti.
Prikaz mogućih rešenja problema multikolinearnosti u regresiji
Kao što je i očekivano, centriranje nije promenilo karakteristike modela, niti poboljšalo
pokazatelje multikolinearnosti. S druge strane, ridž regresija daje pozitivne rezultate kad
su u pitanju pokazatelji multikolinearnosti. Nakon ridž regresije pokazatelji kolinearnosti
su se smanjili, sve VIF vrednosti su <2, a s obzirom na to da bi dalje uvoĎenje
pristrasnosti rezultovalo manjim koeficijentima determinacije svih modela, možemo
prihvatiti rešenje sa vrednošću λ=0.1 kao optimalno za model 1a i 2a, a 0.2 za model 3a.
Ipak, fit modela i koeficijenti determinacije su se pogoršali. No, zahvaljujući verovatno
82
velikim uzorcima, modeli ostaju značajni, čak i model 2a čiji koeficijent determinacije
opada na relativno niskih 0.28. Ono što možemo videti je i da su svi regresioni
koeficijenti, iako su opali, ostali podjednako rasporeĎeni kao i u originalnim modelima, i
ostaju čak i povećavanjem vrednosti konstante, što svedoči i o relativnoj stabilnosti
koeficijenata modela 1a i 2a. No značajna promena desila se u modelu 3a, gde je
prediktor Borba nakon ridž regresije i sa najmanjom vrednošću konstante postao
značajan, a povećavanjem vrednosti konstante (kad je λ>0.4) dobijamo neznačajan
koeficijent podskale Bežanje i značajan koeficijent podskale Blokiranje. Gledajući
uprosečavanje koelinearnih skala, dobijamo zaista koeficijente koji su praktično zbir
koeficijenata tih skala iz originalnih modela, i to za sve modele. U okviru prva dva
modela to je i smisleno rešenje, jer svi korelirani prediktori koreliraju sa zavisnim
varijablama u istom smeru. No, u okviru modela 3a ovakvo rešenje može prikriti pravu
korelaciju, s obzirom na to da jedna od multikolinearnih skala korelira sa zavisnom
varijablom pozitivno (BIS), a druga negativno (Bežanje). I zaista, u ovom slučaju,
uprosečavanjem datih skala, dobijamo ustvari znatno niži regresioni koeficijent no u
originalnom modelu. Regresija glavnih komponenti s druge strane, daje nekorelisane
dimenzije, no koeficijent determinacije je gori u odnosu na sva druga rešenja, a ovakvo
rešenje pati od istog nedostatka kao i uprosečavanje – naime, u okviru naših primera,
prikriven je uticaj varijabli ako koreliraju sa zavisnom varijablom u suprotnom smeru a
meĎusobno koreliraju u istom smeru. No, u okviru modela 3a, izgleda da ridž regresija
povećavanjem konstante iznad 0.4 daje ustvari slična rešenja kao uprosečavanje skala i
regresija glavnih komponenti. Imajući ovo u vidu, uprosečavanje skala čini se ipak može
biti opravdano i u ovom slučaju, a sudeći po karakteristikama fita modela i pokazateljima
multikolinearnosti, čini se da je ovo ipak najoptimalnije rešenje za predstavljene modele.
Veliki nedostatak ovakvog rešenja jeste što se gubi iz vida doprinos pojedinačnih skala.
U okviru modela 1a i 2a izgleda da su koeficijenti i pored kolinearnosti dovoljno stabilni
da ovakva rešenja i nisu neophodna – iako pokazatelji multikolinearnosti ukazuju da je
ona povišena, izgleda da njena štetnost u ovim modelima nije velika. S druge strane, u
okviru modela 3a, koeficijenti su nestabilni i ukoliko primenimo ridž regresiju pa je
donošenje odluke o najoptimalnijoj vrednosti konstante zaista subjektivno. Iako bi bilo
najbolje uzeti najmanju vrednost konstante na kojoj se pokazatelji multikolinearnosti
83
smanjuju na optimalne, jedan od zahteva je i da se regresioni koeficijenti stabilizuju, a u
poslednjem modelu to svakako nije slučaj, pa se uprosečavanje ipak čini kao najbolje
rešenje.
Prikaz mogućih rešenja problema multikolinearnosti u strukturalnom modelovanju
U okviru istraživanja ispitana su i tri strukturalna modela na istim podacima. Na prvom
modelu se pokazalo da modifikacija modela može rezultovati povoljnim promenama koje
čine model dobrom predstavom realne slike uprkos postojećim korelacija u okviru
prediktorskih varijabli. Naime, već smo diskutovali da sposobnost strukturalnih modela
da se ugradi greška merenja otežava procenu uticaja multikolinearnosti na procenu
parametara (Bollen, 1989, prema Grewal et al., 2004). TakoĎe smo pominjali istraživanje
Masona and Perreault (1991), koji tvrde da povećanje objašnjene varijanse kriterijuma
ublažava efekte multikolinearnosti, dakle uvoĎenje grešaka merenja bi trebalo da poveća
obim objašnjene varijanse pomoću strukturnosg modela i samim tim ublaži
multikolinearnost. MeĎutim, greška merenja slabi korelacije izmeĎu egzogenih varijabli.
Prisustvo greške merenja bi verovatno rezultovalo prikrivanjem pravih korelacija izmeĎu
latentnih egzogenih konstrukata. Dakle kontrolisanje greške merenja bi rezultovalo višim
korelacijama izmeĎu egzogenih konstrukata nego nekontrolisanje grešaka merenja.
Ostalo je nejasno da li će se kontrolisanjem greške merenja ublažiti multikolinearnost
zbog blagotvornih povećanja R
2
ili pogoršati povećanjem korelaci je izmeĎu egzogenih
konstrukata (Grewal et al., 2004). U našem istraživanju, pokazalo se da u okviru prvog
modela (model 1b), dolazi do povećanja R2, koje izgleda da smanjuje štetnost same
multikolinearnosti. Ipak, u okviru modela 2b, s obzirom na relativno mali koeficijent
determinacije
u
svim
ispitivanim
modifikacijama
modela,
uprkos
značajnim
koeficijentima, i veliko uzorku, pokazatelji fita ostaju van prihvatljivih granica, dok je
dalja modifikacija onemogućena samim postojanjem multikolinearnosti. Na osnovu
zaključaka iz prethodnih modela, u cilju dobijanja pozitivnog rešenja i smanjivanja efekta
multikolinearnosti, 3b model je postavljen uvoĎenjem latentne varijable. Model kao takav
nije se održao usled samih specifikacija modela, no uvoĎenjem dve latentne varijable
pokazatelji fita ukazuju da štetnost multikolinearnosti može biti svedena na minimum
84
respecifikacijom i povećanjem ukupne objašnjene varijanse. Naime, respecifikacijom
modela u navedenim primerima u modelu 2b pokušajem formiranja dve latentne varijable
dobili smo neadekvatno rešenje i negativnu procenu jedne od varijansi greški, što može
biti jasan pokazatelj multikolinearnosti s obzirom na to da su sve druge pretpostavke
modelovanja adekvatno zadovoljene. Ipak, u okviru modela 3b, formiranjem dve latentne
varijable dolazimo do zadovoljavajućeg rešenja. Može se pretpostaviti da skala korišćena
u poslednjem modelu ima nešto bolju pouzdanost i/ili da je sam raspon sklae uticao na
smanjenje greške modela. Naravno, velik uzorak je zasigurno u velikoj meri olakšao
rešavanje ovog problema. Kao što smo već rekli, slučaj da je u okviru strukturalnih
jednačina delilac izraza putem kog računamo ocenu parametra jednak ili skoro jednak
nuli, Kenny (2004) naziva empirijskom neidentifikacijom - multikolinearnost je jedan od
primera empirijske neidentifikovanosti. Dakle, i u slučaju strukturalnih jednačina, kao i u
okviru regresije, najbolje moguće rešenje za problem multikolinearnosti bi bilo uvoĎenje
novih informacija u sam model. Ukoliko to nije moguće, potrebno je razmisliti o samoj
suštini i smislu istraživanja, kao i prirodi samih veza u okviru datog modela i mogućnosti
njegove modifikacije.
85
5 Zaključak
Ukratko, ako se istraživač susretne sa problemom multikolinearnosti, prvo što treba
uraditi jeste pokušati otkriti razlog zbog kog je do ove pojave došlo. S obzirom na to da
ovo nije nužno matematički rešivo prvo što je neophodno jeste razumevanje istraživanja i
podataka kojima se bavimo. Pomoć u razumevanju samog problema daju i dijagnostičke
mere multikolinearnosti. Iako se u mnogim istraživanjima navode jednostavne korelacije
meĎu prediktorima i VIF, naše istraživanje implicira da bi bilo koristiti kombinaciju
pokazatelja, i to: odnos jednostavnih i parcijalnih korelacija, VIF, karakteristične vektore
u kombinaciji sa uslovnim brojem i korelacije meĎu koeficijentima. No, treba imati u
vidu da ove mere same po sebi ne opisuju štetnost multikolinearnosti. Neophodno je
dakle, imati u vidu veličinu uzorka, koeficijent determinacije modela i grešku modela u
odreĎivanju same štetnosti multikolinearnosti. Naravno, direktna posledica kolinearnosti
je nestabilnost koeficijenata pa ovo može biti veoma koristan pokazatelj u odreĎivanju
same štetnosti multikolinearnosti.
Što se tiče predloženih rešenja, kao što je i očekivano, centriranje ne daje pozitivne
rezultate u slučaju esencijalne multikolinearnosti. Ridž regresija s druge strane, iako
relativno mehaničko rešenje, može da da pozitivna poboljšanja, ali u našem istraživanju
se pokazalo da ridž regresija ne stabilizuje sve koeficijente, pa nju možemo više koristiti
u slučaju kada su nam potrebna mala poboljšanja preciznosti ili da ispitamo koji
koeficijenti imaju stabilnu vezu sa zavisnom varijablom. Ovakav rezultat svakako može
biti veoma koristan u pojedinim istraživanjima. Ukoliko je neophodno koristiti ridž
regresiju, svakako treba ispitati model za što veći broj vrednosti konstante, izvestiti koji
su koeficijenti stabilni a koji ne, a kao rešenje izgleda najopravdanije prihvatiti najmanju
konstantu koja rezultuje prihvatiljivim pokazateljima multikolinearnosti. Iako je naizgled
u pitanju statistički neprecizna solucija, izgleda da formiranje kompozitnih varijabli
uprosečavanjem (ili formiranjem odgovarajućih indeksa ukoliko je neophodno) može dati
zaista zadovoljavajuće rešenje. Naime, u našim primerima, gde su prediktori skorovi na
skalama, uprosečavanje je dalo pozitivne rezultate. Ako je moguće ostvariti cilj
istraživanja i ako multikolinearne skale ne koreliraju sa zavisnom varijablom u
suprotnom smeru, ovakva kombinacija varijabli daje pozitivna i relativno stabilna
rešenja. No treba biti veoma obazriv, kao i sa regresijom glavnih komponenti, može da
86
bude prikriven uticaj varijabli ako koreliraju sa zavisnom varijablom u suprotnom smeru
a meĎusobno koreliraju u istom smeru. Regresija glavnih komponenti, s druge strane
izgleda kao manje efikasno rešenje od samog uprosečavanja – iako su pokazatelji
multikolinearnosti najbolji mogući uveliko se pogoršava fit modela.
Što se tiče strukturalnog modelovanja, pokazuje se da multikolinearnost uprkos nekim
ranijim tvrdnjama, može da bude štetna. Ipak, uvoĎenjem latentne varijable, koja bi
predstavljala logički korelat kombinovanja korelisanih prediktora analizom glavnih
komponenti, kao što smo videli, ovakvo rešenje može rezultovati zadovoljavajućim
modelom, naravno ukoliko je specifikacija modela sama po sebi zadovoljavajuća.
Rezultati sugerišu i da rešenju problema ovim putem izgleda doprinose i veličina uzorka i
raspon kriterijumske skale.
87
6 Literatura
Afshartous, D., Preston, R., A. (2011). Key Results of Interaction Models with Centering.
Journal of Statistics Education, 19(3), n3.
Allison, P. D. (2012). Logistic regression using SAS: Theory and application. SAS
Institute.
Bacon, F. (1964) Novi organon. Zagreb: Naprijed.
Bizeti, H. S., Carvalho, C. G. P. D., Souza, J. R. P. D., & Destro, D. (2004). Path analysis
under multicollinearity in soybean. Brazilian Archives of Biology and Technology, 47(5),
669-676.
Buss, A.H. & Perry, M. (1992). The aggression questionnaire. Journal of Personality and
Social Psychology, 63, 452-459.
Byrne, B. M. (2010). Structural equation modeling with AMOS: Basic concepts,
applications, and programming. Psychology Press.
Carlson, K. S., & Gjerde, P. F. (2009). Preschool personality antecedents of narcissism in
adolescence and young adulthood: A 20-year longitudinal study.Journal of research in
personality, 43(4), 570-578.
Dinić, B., & Smederevac, S. (2009). Relacije kognitivnih motivacija i dimenzija ličnosti
reformulisane teorije osetljivosti na potkrepljenje. Primenjena psihologija, 2(3), 273-286.
Draper, N. R., & Smith, H. (1998). Applied regression analysis (wiley series in
probability and statistics).
88
Dunlop, W. L., Walker, L. J., & Wiens, T. K. (2013). What Do We Know When We
Know a Person Across Contexts? Examining Self‐Concept Differentiation at the Three
Levels of Personality. Journal of personality.
Čolović, P. (2008). Evaluacija modela Tri velike dimenzije u zajedničkom prostoru
Ajzenkovog PEN, Grejovog i Zakermanovog alternativnog petofaktorskog modela
ličnosti. Magistarski rad, Novi Sad: Filozofski fakultet.
Everitt, B., & Skrondal, A. (2010). The Cambridge dictionary of statistics (Vol. 4).
Cambridge: Cambridge University Press.
Fekedulegn, B. D., Colbert, J. J., Hicks Jr, R. R., & Schuckers, M. E. (2002). Coping with
Multicollinearity: An Example on Application of Principal Components Regression in
Dendroecology. Notes.
Fox, J., & Monette, G. (1992). Generalized collinearity diagnostics. Journal of the
American Statistical Association, 87(417), 178-183.
Fox, J. (2005). Linear models, problems. Encyclopedia of Social Measurement,
Kimberly, KL (Ed.), 2, 515-522.
Golberg, M. A., & Cho, H. A. (2004). Introduction to regression analysis. Wit
Pr/Computational Mechanics.
Graham, M. H. (2003). Confronting multicollinearity in ecological multiple regression.
Ecology, 84(11), 2809-2815.
Grewal, R., Cote, J. A., & Baumgartner, H. (2004). Multicollinearity and measurement
error in structural equation models: Implications for theory testing. Marketing Science,
23(4), 519-529.
89
Guan, T. (2000). Effects of correlation among parameters on prediction quality of a
process-based forest growth model. Forest science, 46(2), 269-276.
Haitovsky, Y. (1969). Multicollinearity in regression analysis: Comment. The Review of
economics and statistics, 51(4), 486-489.
Hill, M. C., & Østerby, O. (2003). Determining extreme parameter correlation in ground
water models. Ground water, 41(4), 420-430.
Ho, L. C., Wang, H. H., Peng, Y. S., Chiang, C. K., Huang, J. W., Hung, K. Y., Wu, K.
D. (2008). Clinical utility of malnutrition-inflammation score in maintenance
hemodialysis patients: focus on identifying the best cut-off point. American journal of
nephrology, 28(5), 840-846.
Hojat, M. (1982). Loneliness as a function of selected personality variables.Journal of
Clinical Psychology, 38(1), 137-141.
Holmbeck, G. N. (1997). Toward terminological, conceptual, and statistical clarity in the
study of mediators and moderators: examples from the child-clinical and pediatric
psychology literatures. Journal of consulting and clinical psychology, 65(4), 599.
Kenny, D., A. (2004). Correlation and causality (Rev. ed.). Retrieved August 9, 2005.
Kline, R. B. (2011). Principles and practice of structural equation modeling (ed.), 3rd.
New York, NY: Guilford.
Lee, V., & Egan, V. (2012). Predictors of aggression in Southeast Asian female prisoners.
Personality and Individual Differences.
Leech, N., L., Barrett, K., C., Morgan Jr., G., A. (2005). SPSS for intermediate statistics:
Use and interpretation. Routledge.
90
Liu, R. X., Kuang, J., Gong, Q., & Hou, X. L. (2003). Principal component regression
analysis with SPSS. Computer methods and programs in biomedicine, 71(2), 141-147.
Maddala, G. (1992). Introduction to Econometrics. Macmillan Publishing Company.
Mahajan, V., Jain, A. K., & Bergier, M. (1977). Parameter estimation in marketing
models in the presence of multicollinearity: an application of ridge regression. Journal of
Marketing Research, 586-591.
Mardikyan, S., & Cetin, E. (2008). Efficient choice of biasing constant for ridge
regression. Int. J. Contemp. Math. Sciences, 3(11), 527-536.
Mason, C. H., & Perreault Jr, W. D. (1991). Collinearity, power, and interpretation of
multiple regression analysis. Journal of Marketing Research, 268-280.
Mitrović, D., Čolović, P., & Smederevac, S. (2009). Evaluation of Zuckerman-Kuhlman
Personality Questionnaire-50-CC in Serbian culture. Primenjena psihologija, 2(3), 217230.
Moosbrugger, H., Schermelleh-Engel, K., Kelava, A. U. G. U. S. T. I. N., & Klein, A. G.
(2009). Testing multiple nonlinear effects in structural equation modeling: A comparison
of alternative estimation approaches. Structural equation modeling in educational
research: Concepts and applications, 103-136.
Oliver, R. L. (1980). A cognitive model of the antecedents and consequences of
satisfaction decisions. Journal of marketing research, 460-469.
Osborne, J., Waters, E. (2002). Four assumptions of multiple regression that researchers
should always test. Practical Assessment, Research & Evaluation,8(2), 1-9.
91
Ott, L., Longnecker, M. (2010). An introduction to statistical methods and data analysis.
Duxbury press.
Parkins, I. S., Fishbein, H. D., & Ritchey, P. N. (2006). The influence of personality on
workplace bullying and discrimination. Journal of Applied Social Psychology, 36(10),
2554-2577.
Pickering, A., D., Gray, J. (1999). The neuroscience of personality. Handbook of
personality: Theory and research 2: 277-299.
Reed, D., McGee, D., Yano, K., Hankin, J. (1985). Diet, blood pressure, and
multicollinearity. Hypertension, 7(3 Pt 1), 405-410.
Rencher, A. C., Schaalje, G. B. (2008). Linear models in statistics. New York: Wiley.
Robins, R., W., Fraley, R., C., Krueger, R., F. (2007). Handbook of research methods in
personality psychology. The Guilford Press.
Ruggiero, G. M., Stapinski, L., Caselli, G., Fiore, F., Gallucci, M., Sassaroli, S., &
Rapee, R. M. (2012). Beliefs over control and meta-worry interact with the effect of
intolerance of uncertainty on worry. Personality and Individual Differences, 53(3), 224230.
Rule, N. O., Ambady, N., Adams Jr, R. B., Ozono, H., Nakashima, S., Yoshikawa, S., &
Watabe, M. (2010). Polling the face: prediction and consensus across cultures. Journal of
personality and social psychology, 98(1), 1.
Schaninger, C. M., Lessig, V. P., & Panton, D. B. (1980). The complementary use of
multivariate procedures to investigate nonlinear and interactive relationships between
personality and product usage. Journal of Marketing Research, 119-124.
92
Shackelford, T. K., & Besser, A. (2007). Predicting attitudes toward homosexuality:
Insights from personality psychology. Individual Differences Research, 5(2), 106-114.
Smederevac, S., Mitrović, D. (2006). Ličnost- metodi i modeli, Beograd: Centar za
primenjenu psihologiju
Stilley, C. S., Sereika, S., Muldoon, M. F., Ryan, C. M., & Dunbar-Jacob, J. (2004).
Psychological and cognitive function: predictors of adherence with cholesterol lowering
treatment. Annals of Behavioral Medicine, 27(2), 117-124.
Van Den Eeckhaut, M., Vanwalleghem, T., Poesen, J., Govers, G., Verstraeten, G., &
Vandekerckhove, L. (2006). Prediction of landslide susceptibility using rare events
logistic regression: a case-study in the Flemish Ardennes (Belgium). Geomorphology,
76(3), 392-410.
Voss, D., S. (2004). Multicollinearity. Encyclopedia of Social Measurement, Kimberly,
KL (Ed.), 2, 759-770.
Weiner, B.,I., Schinka, A., J., Velicer, F.,W. (2003). Handbook of psychology vol.
2.:Research methods in psychology. John Wiley & Sons, Inc., Hoboken, New Jersey.
Weisstein, E., W.
"Eigenvector." From MathWorld - A Wolfram Web Resource.
http://mathworld.wolfram.com/Eigenvector.html pristupljeno 09.04.2013
Wheeler, D., Tiefelsdorf, M. (2005). Multicollinearity and correlation among local
regression coefficients in geographically weighted regression. Journal of Geographical
Systems, 7(2), 161-187.
Wholey, J. S., Hatry, H. P., Newcomer, K. E. (2004). Handbook of practical program
evaluation. (ed.), 2nd. Jossey-Bass.
93
Zeigler-Hill, V., Besser, A. (2011). Humor style mediates the association between
pathological narcissism and self-esteem. Personality and Individual Differences, 50(8),
1196-1201.
Zidek, J. V., Wong, H., Le, N. D., Burnett, R. (1996). Causality, measurement error and
multicollinearity in epidemiology. Environmetrics, 7(4), 441-451.
Zwillinger, D., Kokoska, S. (2000). CRC standard probability and statistics tables and
formulae. CRC.
Zuckerman, M. (2002). Zuckerman-Kuhlman Personality Questionnaire (ZKPQ): an
alternative five-factorial model. Big five assessment, 377-396.
94
Download

Dijagnostika i tretman multikolinearnosti u istraživanjima u