Kuram ve Uygulamada Eğitim Bilimleri • Educational Sciences: Theory & Practice - 11(1) • Kış/Winter • 279-288
©
2011 Eğitim Danışmanlığı ve Araştırmaları İletişim Hizmetleri Tic. Ltd. Şti.
Maddenin Farklı Fonksiyonlaşmasında Örneklem
Büyüklüğü: Genelleştirilmiş Aşamalı Doğrusal
Modelleme Uygulaması
Tülin ACAR
a
Parantez Eğitim Araştırma Yayıncılık
Öz
Bu çalışmanın amacı, farklı örneklem büyüklüklerinde Maddenin Farklı Fonksiyonlaşmasında (MFF’nin belirlenmesinde) kullanılan yöntemlerden Genelleştirilmiş Aşamalı Doğrusal Modelleme (GADM) ile belirlenen
MFF’li madde sayılarının incelenmesidir. Araştırmanın amacı farklı örneklem büyüklüklerinde GADM ile elde
edilen MFF’li madde sayılarındaki değişkenliği gözlemek olduğundan sekiz farklı büyüklükte veri dosyaları oluşturulmuştur. Araştırmanın evrenini 2006 OKS’ ye giren 798307 öğrenci; örneklemini de bu evrenden tesadüfî örnekleme yöntemi ile seçilen 10727 öğrenci temsil etmektedir. OKS-2006 yılında uygulanmış olan 25’er maddelik
Türkçe, Fen Bilgisi ve Sosyal Bilgiler alt testleri veri toplama aracı olarak ele alınmıştır. Bu çalışmada, örneklem
büyüklüklerindeki değişkenliğin test maddelerinde MFF belirlemede önemli bir etkisinin olduğu ortaya çıkmıştır
Anahtar Kelimeler
Maddenin Farklı Fonksiyonlaşması, Genelleştirilmiş Aşamalı Doğrusal Modelleme, Örneklem Büyüklüğü.
Sosyal bilimlerdeki araştırmalarda incelenen değişkenlerin yapısından dolayı doğru, güvenirliği ve
geçerliği yüksek ölçmelerin yapılması ve yorumlanması çok daha güç olmakla birlikte, bir o kadar
da önemli olmaktadır. Çünkü insanı temele alan
sosyal bilimler, insan gibi karmaşık bir canlının doğasını hatasız ölçmede zaman zaman teknik olarak
yetersiz kalabilmektedir. Fiziksel bilimlerde daha
çok doğrudan ölçme yapılabilmesi sebebiyle ölçme sonuçlarına karışan sabit ve sistematik hataların yönünü ve miktarını tespit etmek daha kolay olmaktadır. Ancak sosyal bilimlerde yapılan ölçmeler, çoğunlukla dolaylı ölçmeler olduğundan özellikle sabit ve sistematik hataların yönünü ve miktarını belirlemek kolay olmamaktadır. Sosyal bilim-
a Dr. Tülin ACAR. Ölçme ve Değerlendirme alanında Doktordur. Çalışma alanları arasında Aşamalı Doğrusal Modelleme, Maddenin Farklı Fonksiyonlaşması, Testlerin Psikometrik özellikleri
yer almaktadır. İletişim: Parantez Eğitim Araştırma Yayıncılık, Selanik Cad. 46/4 06640 KızılayÇankaya/ANKARA. Elektronik Posta: totbicer@
gmail.com. Tel: +90 312 4251995 Fax: +90 312
4251995
lerde, özellikle eğitim alanında, başarı, yetenek, kişilik gibi bireylerin psikolojik yapıları ölçülmektedir. Bireylerin psikolojik yapılarının nasıl ölçüldüğü ve ölçme sonuçlarına göre verilecek olan kararların kritik olması nedeniyle özellikle ölçme araçlarının/sonuçlarının geçerliği, ölçme sonuçlarına karışan sistematik ve sabit hataların büyüklüğü, düşünüldüğünden daha fazla önem kazanmaktadır.
Eğitimde kullanılan ölçme araçlarının, test maddelerinin dolayısıyla ölçümlerin geçerliği, yansızlığı ölçme alanının temel sorunlarından biridir. Bilindiği gibi, eğitimde ölçme uygulamalarının temel
amaçlarından biri de bireyler ya da test maddeleri
hakkında bilgi edinmektir. Bunun için hatalardan
arınık ve geçerliği yüksek ölçme araçlarına/sonuçlarına gereksinim duyulur. Ancak, geçerliği olumsuz yönde etkileyen faktörlerden biri de “yanlı”
maddelerdir (biased items) ki bir testte yanlı maddelerin yer alması, bu testin sonucuna göre yapılacak olan değerlendirmelerin güvenirliğini düşürecektir hiç şüphesiz.
Madde yanlılığının, ölçme sonuçlarına karışan “sistematik hata”lardan oluştuğu ve sistematik hataların tanımı gereği tüm ölçme sonuçlarına aynı mik-
279
KURAM VE UYGULAMADA EĞİTİM BİLİMLERİ
tarda karışmadığı söylenebilir. Bir testi oluşturan
bazı maddelerin sistematik hata içermesi ise testin
geçerliği ile yakından ilgili bir sorundur. Geçerlik
araştırmalarında testi oluşturan maddelerde yanlı
maddelerin olup olmadığının araştırılması önemlidir. Ancak testi oluşturan maddelerin yanlı madde
olup olmadığının araştırılması ise maddenin farklı
fonksiyonlaşmasının olup olmadığı ile ilgili bir çalışmadır ki maddenin farklı fonksiyonlaşması istatistiksel yöntemlerle tespit edilebilir bir kavramdır.
Son yıllarda yapılan araştırmalarda, madde yanlılığı tipik bir şekilde maddenin farklı fonksiyonlaşması (MFF) olarak atfedilmektedir (Ellis ve
Raju, 2003). 1980’lerin sonuna doğru MFF kavramı, madde yanlılığı kavramı ile yer değiştirmiştir. MFF, madde ile ölçülmek istenilen psikolojik yapının her bir yetenek düzeyinde maddeyi
doğru yanıtlama olasılıklarının alt gruplara göre
farklılıklar gösterip göstermediğini belirleyen bir
fonksiyondur(Embretson ve Reise, 2000; Lord,
1980). MFF çalışmaları, eşit yetenek düzeyine sahip olan, ancak kadın-erkek, Asyalı-Avrupalı gibi
demografik özellikleri bakımından farklı grupların
test maddeleri üzerinden performanslarının karşılaştırılmasını gerektirir (Greer, 2004).
Test maddelerinde MFF’nin varlığı söz konusu
ise bu durum, alt gruplar arasında var olan “gerçek farklılıktan” (madde etkisi=item impact) ya
da “madde yanlılığından” (item bias) kaynaklanabilir (Zumbo, 1999). MFF belirlemek için pek çok
yöntem vardır. Bu yöntemlerden bazıları, klasik
test kuramına dayalıdır. Klasik test kuramına dayalı yöntemlere sıkça kullanılan Mantel-Haenszel
(M-H) tekniği, LR yöntemi ve SIBTEST örnek
olarak gösterilebilir (Gierl, Khaliq ve Boughton,
1999). Bazı MFF belirleme yöntemleri ise madde tepki kuramına dayalıdır ki bu yöntemlere
Lord’un ki-kare testi, Raju’nun alan ölçümleri ve
olabilirlik oranı örnek gösterilebilir (Öğretmen,
1995; Zwick, Donoghue ve Grima, 1993). Bu yöntemlerin çoğu MFF hakkında benzer bilgiler sağlar. Alanyazında sıkça M-H yöntemi ile MFF belirleme çalışmaları yapılmış. Gelişen yöntemlerle M-H yerine LR ve madde tepki kuramına dayalı
olan olabilirlik oranı ile MFF belirleme çalışmaları
ağırlık kazanmıştır(Allalouf, 2003; Duncan, 2006;
Gondal, 2001; Hamzeh ve Jahonson, 2003; Öğretmen, 2006; Randall, 2001; Yıldırım, 2006; Yurdugül, 2003). Ancak eğitim araştırmalarında verilerin
hiyerarşik yapı sergilediği gözlenmiş ve bu durum
göz önüne alınarak GADM tekniği ile MFF belirleme çalışmaları ilgi çekmeye başlamıştır (Chaimon-
280
gol, Huffer ve Kamata, 2007; Kamata, Chaimongkol, Genc ve Bilir, 2005; Luppescu, 2002; Vaughn,
2006; Williams, 2003). GADM, M-H ve lojistik regresyon teknikleri, gözlenen puana dayalı yöntemler
olması sebebiyle de birbirlerine benzerlerdir (Binici, 2007). Ancak bu çalışmada GADM yöntemine odaklanılmıştır. GADM bireyin özellikleri gibi,
grup üyelerinin özelliklerinin de içinde bulundukları grubun bir fonksiyonu olarak açıklandığı doğrusal eşitlikler türeten bir modeldir. Test maddelerine doğru cevap verme olasılıkları üzerinde öğrenci özelliklerinin etkisinin olup olmadığı incelenmek istendiğinde -ki bu madde üzerinde MFF
belirleme çalışmasıdır- düzey 2 modeline öğrencilerin özelliklerini yansıtan kestirici değişkenler eklenir. GADM’de, madde puanlarının (sonuç değişkeninin) iki kategorili olduğu düzey 1 (madde düzeyi) ve düzey 2 (birey düzeyi) modellemeleri kurulur (Kamata, 2002).
Araştırmanın Amacı
Bu çalışmanın amacı, farklı örneklem büyüklüklerinde MFF’nin belirlenmesinde kullanılan yöntemlerden GADM ile belirlenen MFF’li madde sayılarının incelenmesidir. Farklı becerileri ölçen testlerde örneklem büyüklüğünün MFF’ye etkisinin incelenmesi özellikle GADM’nin teknik olarak yeni olması sebebiyle araştırmaya değer bulunmuştur.
Yöntem
Araştırmanın Türü
Bu araştırma, test maddelerinde GADM ile belirlenen MFF’li madde sayılarının, örneklem büyüklüklerine göre farklılaşıp farklılaşmadığını karşılaştıran bir betimsel çalışmadır.
Evren-Örneklem
Araştırmanın evrenini 2006 yılında OKS’ ye giren
798307 ilköğretim 8. sınıf öğrenci; örneklemini de
bu evrenden tesadüfî örnekleme yöntemi ile seçilen 10727 öğrenci oluşturmuştur. Araştırmanın örneklemini oluşturan 10727 öğrencinin alt testlere
vermiş olduğu cevaplar ile birlikte diğer bilgiler,
Milli Eğitim Bakanlığının Ölçme ve Değerlendirme Dairesi başkanlığından yazılı izinle temin edilmiştir. Tüm veriler üzerinden seçilen örneklem,
Ölçme ve Değerlendirme başkanlığı tarafından belirlenmiştir.
ACAR / Maddenin Farklı Fonksiyonlaşmasında Örneklem Büyüklüğü: Genelleştirilmiş Aşamalı Doğrusal ...
Veri Toplama Aracı
Bu araştırmada, OKS-2006 yılında uygulanmış
olan 25’er maddelik Türkçe, Fen Bilgisi ve Sosyal Bilgiler alt testleri veri toplama aracı olarak ele
alınmıştır. Alt testlerin her biri, 4 seçenekli çoktan
seçmeli testlerdir. Öğrencilerin her bir maddeye
vermiş olduğu doğru cevaplar için 1, yanlış cevaplar için 0 puanlaması yapılmıştır.
Verilerin Analizi
MFF belirleme çalışması cinsiyete göre yapıldığından, cinsiyet değişkenine göre alt gruplar oluşturulmuştur. Odak grubu kız öğrenciler ve referans
alınan grubu da erkek öğrenciler oluşturmuştur.
GADM ile MFF belirlenmesinde HLM-6.04 programı (Raudenbush, Bryk, Cheong ve Congdon,
2001) kullanılmıştır. GADM’de kurulan modeller
şu şekildedir (Kamata, 2002):
Düzey 1 (Madde Düzeyi) Denklemi: i (i=1,2,….k)
madde ve j (j=1,2,….N) birey indeksini göstermek
üzere
hij : Kestirilen sonuç değişkeni, bir başka deyişle, j.
kişinin i.maddeye doğru cevap verme olasılığı
Xqij : i. madde için gösterge değişkenidir. Bir maddeye verilen cevap, i. madde üzerinde olduğunda
(q=i iken) 1 diğer durumda (
) 0 olarak değer
alır.
b0j : kesme noktasıdır. Bir başka deyişle, bütün
Xqij ’ler sıfır olduğunda modele alınmayan (referans
alınan) maddenin etkisi ortaya çıkar. Dolayısıyla,
b0j , modele alınmayan maddenin etkisidir.
b1j : i=1,2,…(k-1)’e kadar j. kişi için doğru cevap
verme olasılığı (sonuç değişkeni) üzerinde 1. maddenin etkisidir. b1j ’den b(k-1)j ’ye kadar olan parametreler j.kişi için 1. maddeden k. maddeye kadar
doğru cevap verme olasılıkları (sonuç değişkenleri)
üzerinde maddelerin etkilerini gösteren bir katsayıdır. j kişi indisi, farklı kişiler ve farklı madde düzeyi parametreleri ile ilişkilendirilir. Daha üst düzeye çıkıldığında Bij’deki j indisi düşer ve madde
parametreleri, kişiler arasında sabit tutulur.
Öğrencilerin cinsiyetlerine göre her bir maddeyi
doğru cevaplandırma olasılıkları arasındaki farkı
görebilmek için 2. düzey oluşturulur.
Düzey 2 (Birey Düzeyi) Denklemi:
...
bij : i=1,2,…(k-1)’e kadar j. kişi için doğru cevap
verme olasılığı üzerinde i. maddenin etkisidir.
b1j ’den b(k-1)j ’ye kadar olan parametreler 1. maddeden k. maddeye kadar j.kişi için doğru cevap verme
olasılığı üzerinde maddelerin etkileridir.
g00: Referans alınan madde parametresidir.
g01: Kız ve erkek öğrencilerin ilgili maddeye doğru
cevap verme olasılıkları arasındaki farktır. Bir başka deyişle, i. maddenin doğru cevaplanma olasılığının cinsiyet değişkeni üzerindeki etkisidir.
u01: Tesadüfi cinsiyet değişkeninin etkisi. Dağılımın ortalaması 0 varyansı t olan normal dağılım
gösteren b0j’nin tesadüfi etkisidir.
Araştırmanın amacı farklı örneklem büyüklüklerinde GADM ile elde edilen MFF’li madde sayılarındaki değişkenliği gözlemek olduğundan 10727
öğrenciden oluşan veri setinden ayrıca sekiz farklı büyüklükte veri setleri oluşturulmuştur. Örneklemi oluşturan 10727 gözlem sayısının %1’i, %2’si,
%5’i, %10’u, %25’i, %50’si, %75’i ve %100’ü olacak
şekilde yeniden örneklem büyüklükleri tanımlanmıştır. Sekiz farklı örnekleme düşen gözlem sayıları Tablo 1’de gösterilmiştir.
GADM ile MFF analizleri, en az 97, en çok 10727
gözlem sayısı arasında değişen örneklem büyüklüklerinde yapılmıştır. Yapılan kestirimlerin güvenirlik katsayıları incelendiğinde özellikle Türkçe ve
Sosyal Bilgiler alt testlerinde örneklemin küçük olması durumunda dahi güvenirliğin yeterli düzeyde
olduğu gözlenmiştir.
Bulgular ve Tartışma
Öncelikle, cinsiyete göre GADM yöntemiyle MFF
analizleri, Türkçe, Fen ve Sosyal Bilgiler alt testleri
için ayrı ayrı, sekiz farklı büyüklükteki örneklemlerden elde edilmiştir. Farklı örneklem büyüklüklerinde GADM yöntemiyle ortaya çıkan MFF’li madde sayıları Tablo 2’de gösterilmiştir.
MFF’li maddelerin belirlenmesinde 0.05 ve 0.01 olmak üzere iki önem düzeyi ele alınmıştır. Sonuçlara
281
KURAM VE UYGULAMADA EĞİTİM BİLİMLERİ
Tablo 1.
Örneklem Büyüklükleri ve Kestirimlerin Güvenirlikleri
Örneklemi Temsil Oranı
Örneklem Büyüklüğü
1%
Güvenirlik Kestirimleri
Türkçe
Fen
Sosyal Bilgiler
97
0,850
0,661
0,820
2%
207
0,829
0,728
0,828
5%
532
0,810
0,733
0,832
10%
1055
0,815
0,762
0,837
25%
2681
0,815
0,754
0,840
50%
5320
0,815
0,750
0,839
75%
8037
0,816
0,751
0,838
100%
10727
0,818
0,752
0,840
göre seçilen örneklemin temsil oranı %25 (n=2681)
olması durumunda MFF’li madde sayısında farklı anlamlılık düzeylerine göre belirgin bir farklılaşma gözlenmiştir. Örneklemdeki birey sayısı arttıkça testlerde gözlenen MFF’li madde sayısında da bir
artış olmuştur. %99 güven aralığında tüm alt testler
için elde edilen MFF’li madde sayılarının, %95 güven aralığında elde edilen MFF’li madde sayılarına
göre yarı yarıya bir azalma olmuştur. Güven düzeyi
arttıkça, tüm alt testlerde ve farklı örneklem büyüklüklerinde MFF’li madde sayısının daha az olduğu
sonucu çıkarılmıştır. Her iki önem düzeyine (0.05
ve 0.01) göre MFF’li madde sayısı, örneklem sayısının yeterince büyük olması durumunda MFF’li
madde sayısında farklılaşmanın daha az olduğu görülmüştür. Dolayısıyla bu çalışmada, örneklem büyüklüklerindeki değişkenliğin test maddelerinde
MFF belirlemede önemli bir etkisinin olduğu ortaya çıkmıştır. Vaughn (2006), araştırmasında çoklu puanlanabilen maddeler üzerinde GADM yöntemiyle son derece küçük örneklemlerde MFF analizi çalışmış ve kestirilen MFF’li madde sayısının büyük örneklemlere göre çok az olduğunu saptamıştır.
incelemesinde olasılık oranı (likelihood ratio) yöntemine dayalı tekniklerin MFF’li madde belirlemede özellikle örneklem büyüklüğünün oldukça belirleyici olduğunu ifade etmişlerdir. GADM tekniği “maddenin doğru cevaplanma” olasılığına dayanan bir yöntem olması sebebiyle Miller ve Spray’in
(1993) çalışmalarından çıkardıkları sonuç, bu çalışmada da söz konusudur.
Farklı becerileri ölçen alt testlerde, farklı sayılarda GADM ile MFF’li maddeler elde edilmiştir. Çeşitli çalışmalar, testin çok boyutlu olması, MFF’ye
neden olduğunu göstermiştir (Snow ve Oshima,
2009). Araştırmada kullanılan testlerin tek boyutluluğu incelenmiş ve testlerin tek boyutlu olmasına
rağmen cinsiyete göre MFF’li madde sayısının fazlalığı dikkate değerdir.
Roussos ve Stout’un (1996) similasyon çalışmalarına göre M-H ve SIBTEST teknikleri ile küçük örneklemlerde MFF belirleme sonuçları arasında çok
büyük bir fark elde edilememiştir. French ve Miller (1996)’de araştırmalarında M-H ve lojistik regresyonla küçük (n=500) ve büyük (n=2000) örneklem olarak atfettikleri örneklemlerde MFF incelemelerinde bulunmuş ve lojistik regresyon yönteminin büyük örneklemlerde önemli ölçüde güçlü so-
Miller ve Spray (1993), çoklu puanlanan 27 maddelik matematik testi üzerinde yapmış oldukları MFF
Tablo 2.
Örneklem Büyüklüklerine Göre Gözlenen MFF’li Madde Sayıları
Örneklem Büyüklüğü
Türkçe
Fen
Sosyal Bilgiler
<0.05
<0.01
<0.05
<0.01
<0.05
<0.01
97
2
1
1
0
0
0
207
2
1
1
1
0
0
532
0
0
2
0
0
0
1055
0
0
3
2
3
0
2681
11
5
4
1
6
3
5320
11
6
7
6
9
7
8037
12
11
10
7
13
10
10727
12
12
10
8
15
13
282
ACAR / Maddenin Farklı Fonksiyonlaşmasında Örneklem Büyüklüğü: Genelleştirilmiş Aşamalı Doğrusal ...
nuçlar elde edildiğini belirtmişlerdir. Yapısal olarak
GADM ve lojistik regresyon teknikleri ile MFF belirme yöntemleri benzerdir, bu anlamda büyük örneklemlerde GADM tekniğinin MFF belirlemede
güçlü bir yöntem olduğu söylenebilir. 39 maddelik
çoktan seçmeli test maddesinden oluşan matematik testi verileri üzerinde GADM tekniği ile yapılan MFF çalışmasında örneklem büyüklüğü geniş
olduğunda dahi iyi kestirimlerin elde edildiği vurgulanmıştır (Binici, 2007). Luppescu (2002), araştırmasında MFF belirlemede, örneklem büyüklüğünün ve odak gruptaki bireylerin oranının küçük
olduğu durumlarda Rasch yöntemi ile GADM yönteminin sonuçlarının benzer dolduğunu bulmuştur. Teknik olarak da Kamata (2001), rasch yöntemi ile GADM’nin eşitliğini kendi çalışmasında kanıtlamıştır.
Öneriler
Araştırmadan elde edilen bulgular ile birlikte alan
yazın dikkate alındığında öneriler şu şekilde sıralanabilir:
1-GADM yöntemi ile MFF belirlemede ele alınan
odak ve referans gruplarının birbirlerine göre
oransal büyüklükleri değerlendirilerek sonuçları incelenebilir.
2-Farklı öğrenme alanlarını ölçen testlerde
GADM yöntemine göre belirlenen MFF’li maddeler incelenebilir.
3-GADM yöntemi ile belirlenen MFF’li maddelerin alan uzmanlarının görüşleri alınarak bu sonucun madde yanlılığından mı yoksa madde etkisinden mi kaynaklandığı açıklanabilir.
4-GADM yöntemi ile belirlenen MFF’li madde
sayılarının test uzunluklarına göre değişkenlik
gösterip göstermediği araştırılabilir.
283
Kuram ve Uygulamada Eğitim Bilimleri • Educational Sciences: Theory & Practice - 11(1) • Winter • 284-288
©
2011 Eğitim Danışmanlığı ve Araştırmaları İletişim Hizmetleri Tic. Ltd. Şti.
Sample Size in Differential Item Functioning: An
Application of Hierarchical Linear Modeling
a
Tülin ACAR
Parantez Education Research Publisher
Abstract
The purpose of this study is to examine the number of DIF items detected by HGLM at different sample sizes.
Eight different sized data files have been composed. The population of the study is 798307 students who had
taken the 2006 OKS Examination. 10727 students of 798307 are chosen by random sampling method as the
sample of the study. Turkish, science, and social studies subtests, all composed of 25 items and applied in the
OKS-2006, are used as data gathering instruments in this study. It has been concluded that varieties in sample
sizes have a great effect on DIF detection in test items.
Key Words
Differential Item Functioning, Hierarchical Generalized Linear Model, Sample Size.
In the studies of social sciences having accurate,
highly reliable and acceptable measurements and
discussions is really hard and very important partly
because of the nature of variables examined. Because social sciences based on human beings, it is
sometimes technically insufficient to measure the
nature of human beings as they have such a complex structure. In physical sciences, with the availability of direct measures, the determination of
the direction and magnitude of the systematic and
fixed errors which have effects on the measurement
results is much easier. However; in social sciences,
it is not easy to determine the direction and magnitude of systematic and fixed errors in measurement results, as the measurements are commonly
indirect. In educational studies, psychological constructs of individuals such as achievement, ability,
and personality are often measured. It is important to answer the questions of how to measure
psychological constructs of individuals and what
decisions to be made according to measurement
results. As these two questions are so critical, the
size of systematic and fixed errors affecting measa Correspondence: Tülin ACAR, PhD., Measurement and Evaluation specialist, Parantez
Education Research Publisher, Selanik Street No:46/4 Kızılay-Çankaya, Ankara/TURKEY.
E-mail:[email protected] Phone: +90 312 425
1995 Fax: +90 312 425 1995.
284
urement results becomes more important for the
validity of measurement instruments and results.
With the validity of test items and measurement instruments used in education, the validity of measurement is one of the main problems of bias measuring. As it is known, one of the main objectives of
measuring applications in education is to obtain information about individuals and test items. Highly
valid and accurate measurement instruments and
results are needed to achieve this objective. However; one of the factors which have a negative effect
on validity is biased items. The existence of biased
items in a test decreases the reliability of the discussions made.
Item bias is said to be a result of “systematic errors” which have an effect on measurement results.
It does not affect all the results equally owing to
the description of systematic errors. The existence
of items including systematic errors is a problem
strongly related to the validity of the test. In validity analysis, it is important to detect biased items
among the test items. This is about detection of
“Differential Item Functioning” which can be determined by statistical methods.
In recent studies, differential item functioning
(DIF) typically refers to item bias (Ellis & Raju,
2003). In the late 1980s, the term “DIF” have
changed place with the term “item bias.” DIF re-
ACAR / Sample Size in Differential Item Functioning: An Application of Hierarchical Linear Modeling
veals the differences in the probability of answering the item correctly according to the subgroups
at every ability level of the psychological structure
that is intended to be measured with the item (Embretson & Reise, 2000; Lord, 1980). In studies on
DIF, there is a requirement of performance comparison on test items of groups in the same capability level but having different demographic characteristics such as male-female or Asian-European
(Greer, 2004).
In the case of existence of DIF in the test items, this
may be caused by real differences (item impact) or
item bias in the subgroups (Zumbo, 1999). There
are lots of methods for DIF detection. Some of
these methods are based on classical test theory.
Mantel-Haenszel (M-H), LR and SIBTEST are the
examples of the methods based on classical test
theory (Gierl, Khaliq, & Boughton, 1999). Some
DIF detection methods such as Lord’s chi square
test, Raju’s area measures and likelihood ratio are
the samples of DIF detection methods based on
item response theory (Öğretmen, 1995; Zwick,
Donoghue, & Grima, 1993). Most of these methods
provide similar information about DIF. There are
lots of DIF detection studies made by M-H technique in the literature (Allalouf, 2003; Duncan,
2006; Gondal, 2001; Hamzeh & Johanson, 2003;
Öğretmen, 2006; Randall, 2001; Yıldırım, 2006;
Yurdugül, 2003). LR method and likelihood ratio
based on the item response theory gained importance against M-H method in DIF detection studies by the late developing methods. However; in educational research, it has been discovered that data
are in a hierarchical structure. As a result, HGLM
method became remarkable in DIF detection studies (Chaimongkol, Huffer, & Kamata 2007; Kamata, Chaimongkol, Genç, & Bilir 2005; Luppescu
2002; Vaughn 2006; Williams 2003). HGLM, M-H
and logistic regression methods are similar to each
other as they are based on observed scores (Binici,
2007). This study focuses on the HGLM method.
HGLM is a method that derives linear equations
which explains individuals’ characteristics and
characteristics of group members as a function of
the group formed by individuals and group members. Estimator variables of students’ characteristics are added to level2 model in order to detect
whether the characteristics of students have an effect on the possibility of giving answer correctly to
test items or not- which is a DIF detection study
on item. In HGLM, level 1 (item level) and level 2
(individual level) modeling in which item scores
(result) have two categories are set (Kamata, 2002).
Purpose of the Study
The purpose of this study is to examine the number
of DIF items detected by HGLM at different sample sizes. In tests which measures different skills,
examination of effects of sample size on DIF is important as HGLM is a new method.
Method
This study is a descriptive research which examines
whether the DIF results determined by the HGLM
Method vary with the sample size or not.
Sample
The population of the study is 798307 students who
took the 2006 OKS Examination. 10727 students of
798307 are chosen by random sampling method as
sample.
Instrument
Turkish, science and social studies subtests, all
composed of 25 items and applied in the OKS2006, are used as data gathering instruments in this
study.
Data Analysis
As the DIF detecting study is made according to
gender, subgroups were made according to variety of gender. Female students were chosen to be
the focus group and male students were chosen to
be the reference group. HLM-6.04 (Raudenbush,
Bryk, Cheong & Congdon, 2001) program was
used in DIF detection study by HGLM. In HGLM,
level-1 and level-2 equations are established as follows, to determine the DIF with conditional modeling (Kamata, 2002):
Level-1 Equation (Item Level): To show the i
(i=1,2,….k) item and j (j=1,2,….N) individual index:
hij : Estimated outcome variable, i.e., the probability of the individual j in giving the correct answer
to the item i.
Xqij : Indicator variable for item i. When the answer
given to an item is on item i (q=i), the value is 1,
and in other condition (
), the value is 0.
b0j : It is the breakpoint. When all Xqij become 0,
285
EDUCATIONAL SCIENCES: THEORY & PRACTICE
the effect of the item that is not considered for the
model occurs. Hence, b0j is the effect of the item
that is not considered for the model.
b1j : It is the effect of item 1 on the probability (outcome variable) of individual j to give the correct
answer up to i=1,2,…(k−1). The parameters from
b1j to b(k-1)j is a coefficient that shows the effects of
the items on the probabilities of giving the correct
answer for the individual from item 1 to item k.
Individual j is associated with different individuals and different item-level parameters. If the level
increases, then j in Bij decreases, and the item parameters are kept constant among the individuals.
Level 2 is employed to determine the differences
between the probabilities of answering each item
correctly according to the genders of the students.
Level 2 (Student Level) Equation:
the correct answer to the related item of the students under the conditions of male and female
(gender). In other words, it is the effect of the probability of giving the correct answer to item i with
respect to the gender variable.
u01is the effect of random gender variable. It is the
random effect of b0j , which shows normal distribution that has a distribution average of 0 and variance of t.
As the purpose of this study is to examine variety in
number of DIF items obtained by HGLM according to different sample sizes, 8 different sized data
files have been composed. Sample sizes have been
defined again like; 1%, 2%, 5%, 10%, 25%, 50%,
75%, 100% of 10727 students. Observation numbers related to the 8 different samples are shown
in Table 1.
DIF analysis by HGLM, have been made on different sample sizes which have had varying observation numbers between 97 and 10727. While examining the reliability coefficients of estimations, it
has been observed that especially in Turkish and
social studies there have been sufficient reliability
despite smaller samples in subtests.
(Gender)
(Gender)
...
g01: is the difference in the probabilities of giving
(Gender)
Results and Discussion
bij : It is the effect of item i on the probability of giving the correct answer for individual j up to i=1,2,...
(k−1). The parameters from b1j to b(k-1)j are the effects of the items on the probability of giving the
correct answer from item 1 to item k for the individual j.
DIF analysis by HGLM method according to gender, have been obtained from 8 different sized samples for subtests of Turkish, science and social studies separately. Numbers of DIF items obtained by
HGLM method at different sample sizes are given
in Table 2.
g00 : is the referred item parameter.
In detection of DIF items, two levels of significance
have been considered: 0.05 and 0.01. When the
Table 1.
Sample Sizes and Reliability of Estimations
Representative Sample rate
286
Sample sizes
Reliability of Estimations
Turkish
Science
Social Studies
1%
97
0.850
0,661
0,820
2%
207
0.829
0,728
0,828
5%
532
0.810
0,733
0,832
10%
1055
0.815
0,762
0,837
25%
2681
0,815
0,754
0,840
50%
5320
0,815
0,750
0,839
75%
8037
0,816
0,751
0,838
100%
10727
0,818
0,752
0,840
ACAR / Sample Size in Differential Item Functioning: An Application of Hierarchical Linear Modeling
Table 2.
Number of Observed DIF Items Related to Sample Sizes
Sample Sizes
Turkish
Science
Social Studies
<0.05
<0.01
<0.05
<0.01
<0.05
<0.01
97
2
1
1
0
0
0
207
2
1
1
1
0
0
532
0
0
2
0
0
0
1055
0
0
3
2
3
0
2681
11
5
4
1
6
3
5320
11
6
7
6
9
7
8037
12
11
10
7
13
10
10727
12
12
10
8
15
13
representation ratio of the sample is 25% (n=2681),
a remarkable differentiation in the number of DIF
items have been obtained at different significance
levels. As the numbers of individuals in samples
has increased, the number of DIF items has also
increased. The number of DIF items obtained in
all subtests at 99% confidence level has been nearly
the half of the number of DIF items obtained at
95% confidence level. It has been concluded that
as the confidence level increases, the number of
DIF items decreases in all subtests and at different
sample sizes. Another observation obtained in this
study is that varieties in sample sizes have a great
effect on DIF detection in test items. Vaughn (2006)
has applied DIF analysis by the HGLM method on
polytomous items in very small sized samples and
has determined that the number of estimated DIF
items is lower than in bigger samples.
Miller and Spray (1993) applied on the multiple scorable mathematics test of 27 items, have implied
that the size of samples have a great effect on DIF
item detection, especially if a method based on
likelihood ratio is used. As the HGLM method is
based on the possibility of ‘answering items correctly’, the result that Miller and Spray obtained in
their study is acceptable in this study also.
In the subtests which measures different abilities,
different numbers of DIF items have been obtained
by HGLM. Various studies have shown that the
presence of multidimensionality may cause DIF
(Snow & Oshima, 2009). The undimensionality of
the tests, used in the studies, have been examined
and great values of DIF items related to gender
have attracted notice despite undimentional tests.
According to Roussos and Stout’s (1996) simulation studies, no ostensible differences between
DIF detection results obtained by the M-H and
SIBTEST methods have been seen in small-sized
samples. French and Miller (1996) have applied
DIF analysis in the samples that they have attributed as small sample (n=500) and large sample
(n=2000) by using M-H and logistic regression and
have determined that logistic regression method is
strongly capable of achieving more accurate results
in larger sample sizes. Structurally, DIF detection
methods by HGLM and logistic regression techniques are similar to each other. Hence, it can be
said that HGLM method is a powerful method in
DIF detection studies. In the DIF detection study
by HGLM method made on data obtained from a
mathematics test which is composed of 39 multiple choice items, it has been emphasized that good
estimations can be obtained despite larger sample
sizes (Binici, 2007). Luppescu (2002), have discovered that the results obtained by Rasch method and
HGLM method are similar to each other, when
the ratio of individuals in the focus group and the
sample size is small. Kamata (2001), have proved
the equality of Rasch method and HGLM method
technically in his studies.
Recommendations
By considering the results obtained from the study
and the literature, the following recommendations
can be listed:
1- The ratio of focus groups and reference groups
considered in DIF detection analysis can be
examined and discussions can be made on the
results.
2- DIF items detected by the HGLM method can
be examined in the test which measures different
learning fields.
3- The cause of the existence of DIF items detected
287
EDUCATIONAL SCIENCES: THEORY & PRACTICE
by the HGLM method (item bias or item impact) can be determined with the opinions of
professionals.
4- It can be determined that if the number of DIF
items detected by the HGLM method varies with
test length.
References/Kaynakça
Allalouf, A. (2003). Revising translated differential item
functioning items as a tool for improving cross-lingual
assessment. Applied Measurement In Education, 16 (1), 55-73
Binici, S. (2007). Random-Effect differential item functioning
via hierarchical generalized linear model and generalized
linear latent mixed model: A comparison of estimation
methods. Unpublished doctoral dissertation, The Florida State
University, Florida.
Chaimongkol, S., Hufferve, F. W., & Kamata, A. (2007). An
explanatory differential item functioning (DIF) model by the
WinBUG 1.4. Songklanakarin Journal of Science Technology,
29 (2). Retrieved February 10, 2008 from http://www.
sjst.psu.ac.th/journal/29_2_pdf/19item%20response%20
theory_449-458.pdf
Duncan, S. C. (2006). Improving the prediction of differential
item functioning: A comparison of the use of an effect size
for logistic regression dıf and mantel-haenszel dıf methods.
Unpublished doctoral dissertation, Sam Houston State
University, Texas.
Ellis, B. B., & Raju, N. S. (2003). Test and item bias: What they
are, what they aren’t, and how to the detect them. Retrieved
February 10, 2008 from http://www.eric.ed.gov/ERICDocs/
data/ericdocs2sql/contentşstorageş01/0000019b/80/1b/57/
a3.pdf
Embretson, S. E., & Reise, S. P. (2000). Item response theory for
psychologists. Mahwah, NJ: Lawrence Erlbaum Associates.
French, A. W., & Miller, T. R. (1996). Logistic regression and
its use in detecting differential item functioning in polytomous
items. Journal of Educational Measurement, 33 (3), 315-332.
Gierl, M., Khaliq, S. N., & Boughton, K. (1999, June). Gender
differential item functioning in mathematics and science:
Prevalence and policy implications. Paper presented at the
Improving Large-Scale Assessment in Education Symposium
at the Annual Meeting of the Canadian Society for the Study
of Education, Canada. Retrieved February 25, 2008 from
http://www.education.ualberta.ca/educ/psych/crame/files/
dif_csse99.pdf.
Gondal, M. B.(2001). Differential item functioning analysis of
4Th graders’ science and urdu (national language) achievement
test items in Pakistan. Unpublished doctoral dissertation,
Middle East Technical University, Ankara.
Greer, T. G. (2004). Detection of differential item functioning
(DIF) on the SATV: A comparison of four methods: MantelHaenszel, logistic regression, simultaneous item bias and
likelihood ratio test. Unpublished doctoral dissertation,
University of Houston, Texas.
Hamzeh, D., & Johanson, G. (2003). An analysis of sex-related
differential item functioning in attitude assessment. Assessment
& Evaluation in Higher Education, 28 (2), 129-134.
Kamata, A. (2001). Item analysis by the Hierarchical
Generalized Linear Model. Journal of Educational
Measurement, 38, 79-93.
Kamata, A. (2002, April). Procedure to perform item response
analysis by Hierarchical Generalized Linear Model. Paper
presented at the annual meeting of the American Educational
Research Association, April, New Orleans.
288
Kamata, A., Chaimongkol S., Genc, E., & Bilir, K. (2005).
Random-Effect differential item functioning across group unites
by the Hierarchical Generalized Linear Model. Paper presented
at the annual meeting of the American Educational Research
Association, Montreal, Canada. Retrieved February 25, 2008
from http://garnet.acns.fsu.edu/~akamata/papers/AERA%20
2005.pdf
Lord, M. F. (1980). Applications of item response theory to
pratical testing problems. Broadway, Hillsdile, NJ.: Lawrence
Erlbaum Associates.
Luppescu, S. (2002, April). DIF detection in HLM. Paper
presented at the annual meeting of the American Educational
Research Association, New Orleans.
Miller, T. R., & Spray, J. A. (1993). Logistic discriminant
function analysis for DIF identification of polytomously
scored items. Journal of Educational Measurement, 30 (2),
107-122.
Öğretmen, T. (1995). Differential item functioning analysis
of the verbal ability section of the first stage of the university
entrance examination in Turkey. Unpublished maters’ thesis,
Middle East Technical University, Ankara.
Öğretmen, T. (2006). Uluslararası okuma becerilerinin
gelişim projesi (PIRLS) 2001 testinin psikometrik özelliklerinin
incelenmesi: Türkiye Amerika Birleşik Devletleri örneği.
Yayınlanmamış doktora tezi, Hacettepe Üniversitesi, Sosyal
Bilimler Enstitüsü, Ankara.
Randall, D. P. (2001). Assessing differential item functioning
among multiple groups: A Comparison of three Mantel–
Haenszel procedures. Applied Measurement in Education, 14
(3), 235-259.
Raudenbush, S.W., Bryk, A. S., Cheong, Y. F., & Congdon, R.
T. (2001). HLM 5 hierarchical linear and nonlinear modelling.
Lincolnwood: Scientific Software International, Inc.
Roussos, L. A., & Stout, W. F. (1996). Simulation studies of
the effects of small sample size and studied ıtem parameters
on SIBTEST and Mantel-Haenszel Type I error performance.
Journal of Educational Measurement, 33 (2), 215-230.
Snow, T. K., & Oshima, T. C. (2009). A comparison of
unidimensional and three-dimensional differential item
functioning analysis using two-dimensional data. Educational
and Psychological Measurement, 69 (5), 732-747.
Vaughn, B. K. (2006). A hierarchical generalized linear model
of random differential item functioning for polytomous items:
A bayesian multilevel approach. Unpublished doctoral
dissertation, The Florida State University, Florida.
Williams, N. J. (2003). Item and person parameter estimation
using hierarchical generalized linear models and polytomous
item response theory models. Texas: The University of Texas at
Austin.
Yıldırım, H. H. (2006). The differential item functioning (DIF)
analysis of mathematics items in the international assessment
programs. Unpublished doctoral dissertation, Middle East
Technical University, Graduate School of Social Sciences,
Ankara.
Yurdugül, H. (2003). Ortaöğretim Kurumları Öğrenci Seçme
ve Yerleştirme Sınavının madde yanlılığı açısından incelenmesi.
Yayınlanmamış doktora tezi, Hacettepe Üniversitesi, Sosyal
Bilimler Enstitüsü, Ankara.
Zumbo, B. D. (1999). A handbook on the theory and methods of
differential item functioning (DIF): Logistic regression modeling
as a unitary framework for binary and likert-type (Ordinal) item
scores. Retrieved February 10, 2008 from http://educ.ubc.ca/
faculty/zumbo/DIF/handbook.pdf
Zwick, R., Donoghue, J. R., & Grima, A. (1993). Assessment of
differential item functioning for performance tasks. Journal of
Educational Measurement, 30 (3), 233-251.
Download

Maddenin Farklı Fonksiyonlaşmasında Örneklem Büyüklüğü