2. VERİLERİN DÜZENLENMESİ
Toplanan
verileri
yararlanılmaktadır.
düzene
koymak
için
tablo
ve
grafiklerden
Karmaşık ve dağınık bir düzende bulunan
toplanmış verileri tablo halinde sunmak kolaylıklar sağlamaktadır.
Veri tipleri
Veri kelimesi ingilizcede data kelimesinden gelmektedir. İstatistiki bir
gözlem sonucu olay veya nesnelerin ölçülebilen özelliklerine veri denir.
Temel veri türleri iki çeşittir:
Sayısal(Quantitative) veri:
Aritmetik işlemlerde doğrudan kullanılabilen sayılardan oluşur. Örneğin
Boy, kilo, yaş öğrenci sayısı gibi ölçülebilir veriler. Sayısal verileri de
ikiye ayırmak mümkündür.
- Kesikli, Belirli bir aralıktaki her değeri alamayan verilerdir. Bir
ailedeki çocuk sayısı, haftanın günleri
- Sürekli, Belirli bir aralıktaki her değeri alabilen verilerdir. Ağırlik,
boy uzunluğu gibi
Kategorik (Qualitative) veri:
Sayısal olmayan verilerden oluşur.
Doğum yeri, göz rengi, uyruğu,
cinsiyet gibi.
- İsimsel (Nominal), cinsiyet, göz rengi gibi
- Sıralı (Ordinal), Eğitim düzeyi, akademik unvan, Doğum tarihi gibi
sıralanabilen kategorik veriler.
Ölçme ve Ölçekler
Ölçme, gözlem ve kayıt etme sürecidir. Başka bir tanımı şu şekilde
yapılmıştır.
Belli bir
tanıma
göre
değişkenleri
numaralandırma
sistemidir.
Ölçek, Ölçme göstergeleridir. Her ölçme belirli bir ölçek tipine sahiptir.
Ölçekleri anlama veri analizi yaparken önem arzeder. Örneğin nominal
veriler üzerinde regresyon analizi yapılamaz. Ölçeğin türü hangi
yöntemleri, analizlerin yapılabileceğini belirler.
Dört çeşit ölçek vardır.
İsimli(nominal ölçek
Sıralı (ordinal)ölçek,
Aralık (interval)ölçeği
Oransal(ratio) ölçek
İsimli ölçek kategorik fakat sıralı olmayan verilere, sıralı ölçek Kategorik
ve sıralı veriler üzerine uygulanır. Aralık ölçeği gerçek sıfırı olmayan
sayısal verilere uygulanır. Örneğin sıcaklık verisinde sıfır değeri gerçek
sayısal sıfır ifade etmez. Dolayısı ile bu tür veriler üzerinde bölme,
çarpma ve toplama işlemi anlamlı değildir. Ancak çıkarma işleminin bir
anlamı olabilir. Oransal ölçekte ise gerçek sıfır vardır ve aritmetik
işlemler anlamlıdır. Örneğin cm olarak boy uzunluğu gibi.
Verilerin toplanması
Yığın olayları oluşturan bireylerin ve bunların özelliklerinin tek tek
kaydedilmesine istatistiki gözlem denir.
Verilerin oluşturduğu sayı kümesine seri denir.
Verilerin küçükten büyüğe doğru sıralanması ile elde edilen seriye ilkel
seri denir.
Veri toplamak için aşağıdaki yöntemler kullanılabilir.
- Mevcut kaynaklardan (eski kayıtlar, arşivler, raporlar, yıllıklar, vb...)
yararlanarak,
- Gözlem yaparak,
- Anket yaparak,
- Deney yaparak,
- Simülasyon yoluyla bilgisayarda yapay veri üreterek.
Frekans dağılımı
Frekans bir verinin kaç defa tekrarlandığını gösterir. Aşağıda verilen
tabloda bir sınıfta bulunan 40 öğrencinin haftanın kaç günü kitap
okuduğunu göstersin. Buna göre frekans dağılım tablosu aşağıdaki gibi
olacaktır.
Tablo 2.1 Haftanın kaç günü kitap okunuyor
Haftanın
Gün
sayısı Frekans
0
4
1
5
2
7
3
8
4
6
5
5
6
3
7
2
Toplam
40
Tablo 2.1’de 4 kişi haftanın hiçbir günü kitap okumuyor. 5 kişi haftanın
sadece 1 günü, 27 kişi hafatnın 2 künü ve 8 kişi haftanın üç günü vb.
kitap okuduğu görülüyor.
Göreli(oransal) frekans dağılımı
Göreli frekanslar, -Frekans değerlerinin toplam örnek(gözlem) sayısına
bölünmesi ile elde edilen frekanslardır. Göreli frekansların toplamı 1 dir.
Aşağıdaki verieln Tablo 2.2’ yi inceleyiniz.
Tablo 2.2 Haftanın kaç günü kitap okunuyor. Göreli frekanslar.
Haftanın
Göreli
Gün
Frekans
frekans
sayısı
0
4
0,1
1
5
0,125
2
7
0,175
3
8
0,2
4
6
0,15
5
5
0,125
6
3
0,075
7
2
0,05
Toplam
40
1
Frekans tablolarının hazırlanması
Frekans tablolarının hazırlanması adım adım aşağıda verilen ham veri
kümesi üzerinden açıklanacaktır. Toplanan veriler herhangi bir
düzenlemeden geçirilmemiş iseler bu verilere ham veri denir.
Bir işyerinde çalışan 50 kişinin ağırlıkları (kg) şu şekilde verilmiş olsun.
67 49
77
98
55
68
67
43
54
95
72 63
66
59
74
64
88
54
52
74
76 88
78
65
49
54
64
72
85
61
45 63
60
82
58
78
67
48
62
55
89 51
75
66
57
70
89
48
71
69
Bu verilerin toplanmasına ve kaydedilmesine istatistiki gözlem,
rakamların her birine veri, verilerin oluşturduğu kümeye seri ve serinin
küçükten büyüğe doğru sıralanmış haline ilkel seri denir. Serideki en
küçük değer 43 ve en büyük değer 98 dir. Bu ham veriler küçükten
büyüğe doğru sıralanırsa aşğıda verilen ilkel seri elde edilir.
43 49
54
59
63
66
69
74
78
88
45 51
55
60
64
67
70
74
78
89
48 52
55
61
64
67
71
75
82
89
48 54
57
62
65
67
72
76
85
95
49 54
58
63
66
68
72
77
88
98
Frekans tablolarının hazırlanmasında kullanılan tanımlar:
Dağılım Sınırları: Bir dağılımda (veri kümesinde) yer alan en küçük ve
en büyük veri değerleridir.
En küçük değer (Minimum) : 43
En büyük değer (Maksimum): 98
Dağılım Genişliği veya açıklık (DG): Dağılım sınırları arasındaki
farktır.
DG=En büyük değer - En küçük değer =98 - 43 =55
Sınıf: Eşit ya da birbirine yakın değerli verilerin oluşturduğu her bir
gruba sınıf denir.
En uygun sınıf sayısı (k) H.A. Sturges’in formülü ile bulunabilir.
k=1+3.3logN
N: Veri sayısı
Buna göre 50 kişiye ait veri kümesini
k=1+3.3 log 50 = 6.6 olarak bulunur. Tam sayıya yuvarlanırsa sınıf sayısı
k=7 olarak bulunacaktır.
Sınıfın Alt Sınırı: Bir sınıfta yer alan en küçük değerdir.
Sınıfın Üst Sınırı: Bir sınıfta yer alan en büyük değerdir.
Sınıf Aralığı: Ard Arda gelen iki sınıfın alt sınırları ya da üst sınırları
arasındaki farktır. Sınıf aralığı (c ) ile gösterilir. Örneğimizde sınıf sayısı
7 olarak bulunmuştur. Bu durumda Sınıf Aralığı:
c=
DG
98 − 43
=
= 7.8 olarak bulunur.
SINIFSAYISI
7
Tam sayıya yuvarlanırsa c=8 olarak bulunacaktır.
Frekans(sıklık) Bir sınıfta yer alan veri sayısı o sınıfın frekansını
(sıklığını) verir. Frekanslar toplamı veri sayısına eşittir.
k
N = ∑ fi
i =1
Örneğimizde ise k=7 olduğundan 7tane sınıf olduğundan N =
k
∑f
i =1
i
=50
olacaktır.
Sınıf Orta Değeri (m): Bir sınıfın alt ve üst sınırlarının ortalaması o
sınıfın sınıf değeri ya da sınıf orta değeridir. Sınıf değeri bir sınıfı tek bir
değerle temsil eder ve m ile gösterilir.
Göreli frekans(Göreli sıklık): Her sınıfa düşen veri sayısının toplam
veri sayısına göre yüzdesidir. Göreli Sıklıklar pi ile gösterilir. Toplamları
1 olmalıdır.
k
f
Pi = i ,
N
i = 1,2,3, ... k
∑p
i =1
i
=1
Buna göre ham verimizi tekrar düzenlersek aşağıdaki tabloyu elde etmiş
oluruz.
Tablo 2.3 Bir iş yerine çalışan 50 işçinin ağırlıkları
51 − 43
Sınıf
2
orta
Frekans Göreli değeri
Sınıf
Frekans (mi)
no
Sınıflar ( fi)
1
43 - 50.9
6
0,12
47
2
51 - 58.9
9
0,18
55
3
59 - 66.9
11
0,22
63
4
67 - 74.9
11
0,22
71
5
75 - 82.9
6
0,12
79
6
83 - 90.9
5
0,1
87
7
91 - 98.9
2
0,04
95
Toplam=
50
1
Grafiksel gösterimler
Tablo halinde düzenlene verilerin grafiksel olarak gösterilmesi veriler
üzerinde yorum yapmayı kolaylaştırabilir. Bu yüzden tablo olarak
düzenlene veriler grafiksel olarak gösterilir.
Grafiksel gösterişmde iki tür grafik çok tercih edilir.
1. Çubuk grafiği
2. Daire grafiği
Tablo 2.4 de verilen 50 kişiye hangi meslekten oldukları sorulduğunda
alınan cevaplar görülmektedir. Bu tablodaki veriler kesikli verilerden
oluşmaktadır. Çünkü veriler ara değer almamaktadır. Örneğin 4.5 kişi
öğretmen olamaz. Göreli frekanslar 360 ile çarpılırsa daire grafiği
oluşturmak için gerekli açısal değerler elde edilmiş olur.
Daire grafikleri oransal frekansların 360ile çarpılması ile elde edilen
açısal değerlerin daire üzerinde gösterilmesi ile elde edilirler. Kesikli
verilerden oluşan Tablo 2.4’de verilen tablonun çubuk grafiği Şekil 2.1’de
ve daire grafiğ ise Şekil 2.2’de görülmektedir.
Tablo 2.4 50 kişinik meslek dağılımı
Kişi
Göreli
Meslek
sayısı (Oransal)
(Frekans) frekans
x
360
Öğretmen
4
0,08
=
Mühendis
8
0,16
İşçi
11
0,22
Doktor
6
0,12
Sanatçı
9
0,18
Terzi
7
0,14
Memur
3
0,06
Muhasebeci
2
0,04
Toplam
50
1
Açı
28,8
57,6
79,2
43,2
64,8
50,4
21,6
14,4
360
50 k iş inin m es lek dağılım ı
12
Frekans
10
8
6
4
2
M
em
ur
M
uh
as
eb
ec
i
Te
rz
i
Do
kt
or
Sa
na
tçı
İş
çi
Ö
ğr
et
m
en
M
üh
en
dis
0
Mes lek ler
Şekil 2.1
50 kişinin meslek dağılımının çubuk grafiği
50 kişinin meslek dağılımı
Muhasebeci 14,40
4%
Öğretmen 28,80
8%
Memur 21,60
6%
Mühendis 57,60
16%
Terzi 50,40
14%
Sanatçı 64,80
18%
İşçi 79,20
22%
Doktor 43,20
12%
Şekil 2.2. 50 kişinin meslek dağılımı daire grafiği
Sürekli verilerin grafiksel gösterimleri de benzer şekildedir. Bu tür
veriler için Histogram grafikleri çizilir. Bu tür verilerde veriler
sınıflandırıldığından her bir sınıfın frekansi ayrı ayrı dikdörtgenler
kullanılarak gösterilir. İlk sınıfa giren veriler 43<x<51, ikinci sınıfa giren
veriler 51<x<59
şeklinde ifade edilirler. Tablo 2.3 de verilen 50 işçinin
histogram ve daire grafikleri şekil 2.3 de ve Şekil 2.4 de görülmektedir.
Şekil 2.3
50 kişinin ağırlık dağılımı Histogram grafiği
50 kişinin ağırlık dağılımı daire grafiği
4%
10%
12%
43 - 50.9
51 - 58.9
12%
18%
59 - 66.9
67 - 74.9
75 - 82.9
83 - 90.9
91 - 98.9
22%
22%
Şekil 2.4 50 kişinin ağırlık dağılımı
Download

2. Verilerin Düzenlenmesi