TURGUT ÖZAL ÜNİVERSİTESİ
İSTATİSTİK II DERSİ
STATA UYGULAMALARI
Dr. Ufuk DOĞUÇ
2014
1
1. STATA NEDİR?
Stata 1985 yılında StataCorp tarafından üretilen genel amaçlı bir istatistik programıdır.
Dünyada bir çok ticari ve akademik kuruluş tarafından kullanılmaktadır. Özellikle ekonomi,
sosyoloji, siyasi bilimlerde çalışan araştırmacılar kullanmaktadır.
Stata aşağıdaki alanları kapsamaktadır:
Veri yönetimi
İstatistik analiz
Grafik
Benzetim
2. STATA HANGİ İŞLETİM SİSTEMLERİNDE ÇALIŞIR?
Stata Windows (32 bit veya 64 bit), Mac OS X veya UNIX işletim sistemlerinde çalışır.
3. STATA PROGRAMININ BİLGİSAYARA KURULMASI
Stata12_Windows dizindeki Setup programını çalıştırınız. Bilgisayarınızın
özelliğine göre 32 veya 64 bit seçip hangi versionu kuracağınızı işaretlemenizi isteyecektir. Smal versionu
(SM) seçiniz. Program yüklendikten sonra aynı dizindeki Serial dosyasındaki Serial number, code ve
Authorization kodlarını yazınız.
4. STATA PROGRAMINI BAŞLATMA
Başlat’dan programlara, oradan da SmallStata12 programını tıklayın, Stata açılacaktır. Karşınıza Stata
pencereleri gelecektir. Sol üstte stata menüleri, solda yazılan komutların listesi, sağda açtığınız dosyanın
değişkenleri, altta komut yazma penceresi görülecektir.
2
5. ANA MENÜ VE DİYALOG KUTULARI
İşlemler için ya ana menü kullanılır ya da aşağıdaki gibi Command (komut) satırı kullanılır:



Komut penceresinde komut satırına ilgili komut yazılır ve Enter’a basılır.
Dialog penceresinde stata komutu uygulanır. Dialog penceresine geçmek için ya ana
menüden yada komut satırına db edit gibi komut yazarak geçilir.
Komut satırlarından oluşan .do komut dosyası çalıştırılır.
6. VERİ GİRİŞİ
Veri girişleri STATA üzerinde ya da özellikle Excel ile yapılabilir. Bunun sebepleri:

Girilecek veri sayısı fazla olduğu için aynı anda birkaç kişinin giriş yapması gerekmekte

Her bilgisayara STATA yüklemek mümkün değildir. Fakat her bilgisayarda Excel vardır. Excel
programını herkes kullanabilir. Fakat STATA kullanmak için eğitim almak gerekir.
7. ANKET VERİLERİNİN EXCEL PROGRAMINA GİRİLMESİ :
Excel programını çalıştırın. Birinci satıra değişken isimlerini yazarsanız hem gireceğiniz verileri
karıştırmaz hem de STATA’ya geçince bir daha tanım yapmanıza gerek kalmaz. Ama yazmak
zorunda değilsiniz. Verileri excele sütunlara girin. Her soru cevabı bir sütuna girilecektir.
ANKET (cep telefonu)
1.
Hangi yaş gurubundasınız? 1.( ) 18 den küçük 2.( ) 18-20
2.
Cinsiyetinizi işaretleyiniz:
3.
Bölümünüzü işaretleyiniz:
4.
Doğduğunuz bölge : 1.( ) Marmara 2.( ) Ege 3.( ) Akdeniz 4.( ) Karadeniz 5.( ) G.doğu 6.( ) Doğu 7.( ) iç ana
5.
Hangi aylık gider gurubundasınız? 1.( ) 1000’den az 2.( ) 1000-1500 3.( ) 1500-2000 4.( ) 2000 üstü
6.
Hangi marka cep telefonu kullanıyorsunuz? ………………….
7.
Cep telefonu için kulaklık kullanıyor musunuz?
8.
Cep telefonunuzun SAR değerini biliyor musunuz? 1.( ) Evet 2.( ) Hayır
1.( ) Erkek
3.( ) 21-25 4.( ) 25 üstü
2.( ) Bayan
1.( ) İşletme 2.( ) İktisat
1.( ) Evet 2.( ) Hayır
Ankete verilen cevapları karakter olanları ve sayısal olsa da sınıflara ayrılmış ise yine kodlayıp gireceksiniz.
Örneğin yaşı sınıflara ayrılmış hangi yaş gurubu seçildiyse onu gireceksiniz. Birinci kişi için yaş 1 olacak.
Aylık gider de aynı olacak.
Ankete verilen cevaplar:
3
C: diskinin ana dizininde ders isminde bir dizin açın. data ismiyle buraya kaydet ve excelden çık. Kaydettiğiniz yeri
aşağıdaki gibi not alın; çünki çalışrken dosyanın olduğu klösürü STATA’ya göstereceksiniz.
C:\ders
8. ÇALIŞILAN DİZİN ADINI GÖRME : command penceresine cd yaz Enter’e bas
9. ÇALIŞILAN DİZİNDEKİ DOSYA İSİMLERİNİ GÖRME : dir yaz Enter’e bas
10. ÇALIŞILAN DİZİNİ DEĞİŞTİRME
cd “C:\ders” yaz ve Entere bas. Artık bu dizinde çalışıyorsunuz.
11. EXCEL DOSYASINDAKİ VERİLERİN STATA’ya ÇAĞRILMASI
STATA programını açın. Komut satırına çalışacağınız (excel dosyasının olduğu) dizini tanımlayınız:
cd “C:\ders” yaz ve Entere bas. Artık bu dizinde çalışıyorsunuz.
Dosyaları excelden STATA’ya çağırmak için aşağıdaki komutu command satırına yazınız:
import excel data, firstrow
(çalıştığınız dizinden çağırmak için)
import excel \seminer\data, firstrow
(başka dizinden çağırmak için)
excel dosyasının ilk satırında açıklama varsa komuta firstrow kelimesi eklenir. Yoksa sadece import excel
data komutu yazılır.
Bu çağırma işlemleri menüden de yapılabilir.
4
12. DEĞİŞKEN DEĞERLERİNİ LİSTELEME (list komutu; kısa kullanılışı l):
command penceresine list yaz Enter
list in 3/5
13. VERİLERİ GÖRME VE DÜZELTME : command penceresine browse veya edit yaz Enter
Dosyadaki değişken değerleri ekrana gelir. Görmek istemediğiniz bir değişken varsa Variables
penceresinde değişken adının başındaki işaret kaldırılır ya da komut yazarken sadece görmek istenen
değişken isimleri yazılır.
14. YENİ DEĞİŞKEN EKLEME (generate komutu; kısa kullanılışı gen)
gen değişken adı komutunu kullanıp yeni değişken ekleriz. Örneğin bu dosyaya boy değişkeni
ekleyelim.
gen boy=0
gen sarp=sar*yas
15. DEĞİŞKEN AÇIKLAMA DEĞİŞTİRME VEYA YAZMA :
label variable boy “boyu”
16. DEĞİŞKENLERİ VE GÖZLEMLERİ SİLME
İstenmeyen bir değişken veya gözlem varsa drop komutu kullanılarak silinir.
Yeni bir değişken açın : command penceresine gen deneme=0 yaz Enter’e bas
deneme değişkeni açıldı. Şimdi bunu silelim:
drop deneme Enter (deneme değişkeni silindi)
drop in 3 (3.gözlemi siler)
drop if sar==2
keep yas cinsiyet (yas ve cinsiyet değişkenlerini tut; diğerlerini sil)
5
17. GÖZLEM SİLME
Çalıştığımız data dosyasının 9.satırını silelim:
drop in 9
(9.gözlem silindi list komutu ile görün)
18. DEĞİŞKEN TİPLERİ
STATA değişkenleri sayısal veya alfasayısal olabilir. Sayısal değişkenlerin farklı şekilleri vardır.
Alfasayısal değişkenler string olarak isimlendirilir.
Değişken Tipleri
19. DEĞİŞKEN VERİ GENİŞLİĞİNİ AYARLAMA
Değişkene girilen veri alanı çok geniş ise bunu daraltabiliriz:
format değişken % tamsayı . ondalıklı komutu ile; örneğin
format yas cinsiyet % 4.0g (4 basamaklı bir sayı girebiliriz, ondalık basamak yok:0)
format boy % 5.3g
Birden fazla değişkeni yaz yana yazabiliriz. Bunun için fare ile değişken penceresinden seçiniz.
format gnp2 gdp2 %10.2fc
format last_name first_name %‐15s
format last_name first_name %15s
20. DOSYAYI KAYDETME :
command penceresine save data yaz
aynı dosya üzerine kaydedilecekse;
save data,replace
21. HAFIZA SİLME : command penceresine clear yaz
22. DOSYA AÇMA : use data,clear
23. HELP KOMUTU İLE YARDIM İSTEME :
command penceresine help clear yaz (clear komutu hakkında İngilizce açıklamalar penceresi açılır)
24. KOMUT HAKKINDA İNTERNNETTEN AÇIKLAMA ARAMA
command penceresine findit clear yaz
6
25. İŞLEMLER
26. LOG DOSYASI
a. DOSYA OLUŞTURMA
File menüsünden Log’u seçilir, oradan Begin seçilir, yeni dosya adı örneğin deneme yazılır Kaydet
butonuna tıklanır. Çıktı ekranına dosyanın açıldığını belirten mesaj gelir:
Komut satırına
log using “C:\ders\deneme” yazılarak da açılır. Artık ekrana gelen bütün çıktılar log dosyasına
kaydedilir.
b. DOSYA KAPATMA
İşimiz bitince; komut satırına log close yazılarak log dosyası kapatılır.
c. DOSYA AÇMA
komut satırına log using “deneme” yazılıp mevcut olan dosya açılır.
27. YENİ DOSYA OLUŞTURMA
Ana Menüden  Data menüsü  Data Editor, oradan da Data Editor (Edit) seçilir.
Yada command satırına Edit yazılır.
Ekrana boş bir pencere açılır. Veriler sütunlara girilir.
Girdikten sonra sütun başlığına tıklayıp değişken adı, label etiket adı yazılır.
7
verileri giriniz.
anket1 olarak kaydedin. save anket1
clear ile hafızayı silin, aşağıdaki verileri yazın
anket2 olarak kaydedin. save anket2
28. İKİ DOSYAYI BİRLEŞTİRME (append) :
use anket1, clear
append using anket2
Anket1 dosyasındaki verilerin altına anket2 verileri eklenecektir. İki dosyanın da veri yapıları aynıdır.
29. DEĞİŞKEN TİPİNİ DEĞİŞİRME
recast float cinsiyet : cinsiyet değişkeni tipi (type) float olarak değiştirildi.
8
30. VERİLERİ ETİKETLEME
a. Menü kullanma: edit yazın veriler gelince etiketlemek istenen değişkenin başlığına tıklanır.
Properties penceresinde value label’ın sağındaki … tıklanır. Ekrana Manage Value Labels
penceresi gelir. Burada Create Label düğmesine tıklanır.
Create Label penceresi açılır. Label
Name: kısmına dbölge yazılır. Value:1 Label:Marmara yazıldıktan sonra Add düğmesi tıklanır.
Sırasıyla kodlama tanımlanır. En sonunda Ok düğmesi tıklanır.
b. Comman satırından yazıp:
label define bolum 1 "İşletme" 2 "İktisat"
31. FREKANS TABLOSU HAZIRLAMA (tabulate komutu; kısa kullanılışı tab)
Tab değişken adı komutu kullanılır. Komut satırına tab dbolge yazılır.
32. ÇAPRAZ TABLO HAZIRLAMA (tabulate komutu; kısa kullanılışı tab)
Tabulate komutu 2 değişken için kullanılır. Komut satırına tab cinsiyet bolum yazılır.
9
33. ÖZET İSTATİSTİKLER (summarize komutu; kısa kullanılışı su)
Ana Menüden seçilebilir ya da command satırına db su yazıp doğrudan dialog penceresinin
gelmesi sağlanır.
Ana menü  Statistics  Summaries…  Summary statistics  Summary statistics
Komut satırına aşağıdaki komut yazılarak sonuç alınabilir:
Su fazla kilo bel
Su fazla kilo bel,detail (detaylı sonuç almak için)
34. SAYMA İŞLEMİ (Count)
Command satırına yazılır:
count
count if bel==80
cou if bel<=80
35. GÖZLEMLERİ SIRALAMA (Sort)
Komut satırına
Sort cep (cep değişkenine göre gözlemleri sıralar)
36. MATEMATİK FONKSİYONLAR
Fonksiyon
Açıklama
abs(x)
x değişkeninin mutlak değerini verir.
İnt(x)
tam sayıya çevirir; int(5,2) = 5 ve int(-5,2) = -5
max(x1,x2,..) En büyük değeri bulur.
min((x1,x2,..)En küçük değeri bulur.
Sqrt(x)
Karekökünü alır. display sqrt(10)=3,16
round(x)
Yuvarlama yapar. display round(5.2,1)=5
10
37. KORELASYON ANALİZİ (Correlate komutu; kısa kullanılışı cor)
cor <bağımlı değişken> <bağımsız değişken>
cor yas cep
r=0,9254 Pozitif çok yüksek ilişki var
cor yas cep,means
(ortalama, st.sapma, min ve max değerlerini de gösterir)
38. REGRESYON ANALİZİ (regress komutu; kısa kullanılış reg )
Aşağıdaki verileri STATA’ya giriniz ve regresyon denklemini yazınız ve 300 m2 bir evin kirası
ne olmalı?
Bağımlı değişken (Dependent variable): Daire kirası ve Bağımsız değişken (Independent
variable) : Daire büyüklüğüdür.
Komut satırına reg <bağımlı değ.> <bağımsız değ.> şeklinde yazılır.
reg dkira dbuyuk ((α=0,05 kabul edilir)
11
Regresyon denklemi y = ax+b (bir bağımlı ve bir bağımsız değişken) için:
x’in (bağımsız değişkenin) katsayısı a=4,63, sabit (constant) b=62,62 olduğu görülüyor.
Regresyon denklemi : y = 4,63x+62,62 olur. x yerine 300 yazılırsa;
y = 4,63.(300)+62,62
y= 1389+62,62=1513 TL olmalıdır.
Korelasyon katsayısı için cor dkira dbuyuk yazılırsa
r=0,988 Pozitif çok yüksek bir ilişki vardır.
α=0,01 ise önce aşağıdaki komut, sonra regresyon komutu yazılır:
set level 99
reg dkira dbuyuk
Birden fazla bağımsız değişken olması durumu:
y=ax1+bx2+c
reg dkira dbuyuk semt
y=4,62x1+26,14x2+24,67
12
39. SAYISAL VERİYİ YENİDEN KODLAMAK
recode semt (1=3) (3=2) (2=1), gen(semty)
13
40. HİPOTEZ TESTLERİ
a. Tek Örneklem için T Testi (One-Sample t Test)
Tek örneklem t-testi, bir değişkenin ortalamasının, belirlenmiş bir sabit sayıya göre farklılık gösterip göstermediğini
bulmak için kullanılır.
65, 59, 60, 54, 65, 57, 69, 62, 49, 45, 65, 62, 64, 68, 70, 66, 65, 63, 61, 63, 69, 56, 58, 46, 56,
64, 61, 66, 63, 56, 54, 69, 75, 62, 61, 59, 73, 57, 48, 64, 61, 66, 57, 65, 63, 51, 68, 65, 65, 64
Burada "Age"(Yaş) değişkeninin ortalamasının kendi belirlediğimiz bir sabit sayıya göre farklılık gösterip
göstermediğini bulalım. Test değerimiz 63 olsun. Öncelikle hipotezleri kurmalıyız:
H0: µ = 63 (%5 hatayla ortalama 63' e benzerdir.)
Ha: µ <>63 (%5 hatayla ortalama 63' den farklıdır.)
Command satırına test komutu yazılır:
ttest yaş==63
Burada elde edilen tablonun ilk satırı tanımlayıcı istatistik değerlerini verir. Altta alternatif hipotez 63 den farklı olduğu
için ortadaki değeri alırız. 0,105>0,05 olduğu için H0 hipotezi kabul edilir. Yani %95 güvenle yaş değişkeninin
ortalaması 63’dür.
b. Bağımsız Örneklem için t Testi (Independent Samples t Test)
Okuma becerileri dersini farklı gruplarda veren bir yabancı dil öğretmeni, ders dönemi süresince, A grubunda programın
öngördüğü materyalleri kullanırken, B grubunda ek olarak, gazete dergi gibi özgün okuma marteryalleri de kullanmıştır. Dönem
sonu her iki grubun başarısını aynı testle ölçen öğretmen, grupların test puanları ortalamalarına bakarak, özgün materyal
kullanmanın öğrencilerin okuma becerileri üzerinde bir etkisinin olup olmadığını ortaya koymaya çalışmaktadır.
Yabancı dil öğretiminde özgün materyal kullanmanın, öğrencilerin okuma becerileri üzerinde anlamlı bir etkisi var mıdır? Önce
verileri STATA’ya giriniz:
Hipotezler :
H0 : Fark yoktur Ha : Fark vardır
14
Command satırına komut yazılır:
ttest puan, by(grup) yazınız:
0,789>0,05 için H0 kabul, yani Fark yoktur.
c. Bağımlı Örneklem t Testi
(Paired Samples t Test)
Eğer elimizde her hangi bir değişken ile ilgili olarak bir durum öncesi ve bir de durum sonrası ölçüm değerleri varsa;
kullanılacak olan istatistik test bağımlı gruplar için t-testidir.
Burada dikkat edilmesi gereken; veri seti oluşturulurken ölçümlerin aynı denekler için belirli aralıklarla tekrar edildiğidir.
Bu nedenle gruplar birbirine bağımlıdır.
Matematik öğretmeni öğrencilere normal yöntemle ders anlatıp bir sınav yapmış; bunu ÖNTEST olarak kaydetmiştir.
Daha sonra yeni bir yöntemle ders anlatıp sınav yapmış bunu da SONTEST olarak kaydetmiştir. Matematik
öğretmeni, aynı gruba uyguladığı, programdan önceki ve sonraki sınav sonuçlarının ortalamaları arasında farka
bakarak, etkili ve verimli çalışma programının, öğrencilerin matematik başarısı üzerinde bir etkisinin olup olmadığını
ortaya koymak istemektedir.
Etkili ve verimli çalışma programının, öğrencilerin matematik başarısı üzerinden anlamlı bir etkisi var mıdır? (istatistik
olarak anlamlı bir fark var mıdır?)
Aşağıdaki verileri STATA’ya giriniz. veri ekranında her bir satır bir öğrenciyi gösterecektir.
ontest :
55, 73, 65, 70, 59, 86, 83, 77, 78, 65, 68, 70
sontest :
60, 71, 66, 63, 70, 88, 83, 87, 78, 85, 77, 69
Command satırına komut yaz:
ttest ontest==sontest
15
Sonuç Sig. (2-tailed) 0,086> 0,05 olduğu için fark yoktur.
d. TEK FAKTÖRLÜ (Tek Yönlü) VARYANS ANALİZİ (One-Way ANOVA)
Tek yönlü varyans analizi, bir faktör çatısı altında, iki yada ikiden daha fazla bağımsız grubun ortalamalarını
karşılaştırmak için kullanılır. Tek yönlü varyans analizinde iki temel varsayım vardır. Her grup normal dağılımlıdır ve
göreceli olarak grupların varyansları homojendir.
Aşağıdaki verileri STATA’ya giriniz:
Bu veri seti, bir yemek şirketine ait ürün çeşitlerinin satış miktarlarını göstermektedir. Burada SATIS değişkeni satış miktarını
(Bağımlı Değişken), URUN değişkeni (Faktör) ise ürün çeşitlerini ifade etmektedir. Burada ürün çeşitlerinin satış miktarları
birbirinden bağımsızdır ve normal dağılıma sahiptir. Dolayısıyla bu grupların satış miktarlarının ortalamalarını karşılaştırmak için
en uygun test tek yönlü varyans analizi olur. Öncelikle hipotezler kurulmalıdır.
Varyansların homojen olduğunu kabul edelim.
Tek yönlü varyans analizi için hipotezler;
H0: %5 hata ile, grupların ortalamaları arasında istatistiksel olarak anlamlı bir farklılık yoktur.
Ha: %5 hata ile, grupların ortalamaları arasında istatistiksel olarak anlamlı bir farklılık vardır.
Command satırına komut yaz :
oneway SATIS URUN
Bu tabloda 0,000<0,05 olduğu için tek yönlü varyans analizi için olan H0 reddedilir. Yani % 5 hata ile
grupların ortalamaları arasında istatistik olarak anlamlı bir farklılık vardır denilebilir.
16
Bu anket 2 veya 3 kişi tarafından ortak yapılacaktır. Önce konu belirlenecek; konu onaylatıldıktan sonra 10
– 15 soru hazırlanacaktır. Sorular onaylatıldıktan sonra çoğaltılacak ve 2 kişi için 60, 3 kişi için 90 kişiye
sorulacaktır. Ankete verilen cevaplar STATA’ya girilecektir. Sonra aşağıdaki sıraya göre proje
hazırlanacaktır. Bittikten sonra Word dosyası olarak ve stata veri dosyası da [email protected] adresine
gönderilecektir. Son teslim tarihi: 13 Haziran 2014.
ÖRNEK ANKET
1. Yaşınız : 1. 18’den aşağı 2. 18–20 3. 21–25 4. 26 ve üzeri
2. Cinsiyetiniz: 1. Kız 2. Erkek
3. Dış politika haberlerini nereden takip edersiniz?
1. Gazete 2. İnternet 3. Televizyon 4. Yabancı ülke basını 5. Diğer
4. Aylık gideriniz ne kadardır? …………….
5. Günde kaç saat tv seyredersiniz? ……
Anketlere verilen cevapları STATA’ya girin.
17
1. FREKANS TABLOLARI
Bu bölümde tüm değişkenlerin (soruların) frekans tabloları hazırlanıp buraya yapıştırılır.
Gider frekans tablosu
Yorum: Gideri yüksek olanların az olduğu görülmektedir.
2. ÇAPRAZ TABLOLARI
Bu bölümde tüm değişkenlerin (soruların) çapraz tabloları hazırlanıp buraya yapıştırılır.
Yorum: Çoğunluğun genç olduğu görülmektedir.
3. TANIMLAYICI İSTATİSTİKLER
18
4. HİSTOGRAMLAR (tüm değişkenlerin histogramları alınır)
5. KORELASYON ANALİZİ
Aralarında ilişki olabilecek 2 değişken için korelasyon analizi yapınız.
r=0,029 Pozitif çok zayıf bir ilişki vardır.
6. REGRESYON ANALİZİ
Aralarında ilişki olan 2 değişken için regresyon analizi yapınız.
y=0,00027x + 2,88
19
7. HİPOTEZ TESTİ
Cinsiyete göre tv seyretmede bir farklılık var mıdır?
Hipotezler :
H0 : Fark yoktur Ha : Fark vardır
0,3447>0,95 için H0 kabul, yani cinsiyete göre tv seyretmede fark yoktur.
20
Download

istatistik ıı dersi stata uygulamaları