Veri indirgeme , bir veri setini onun orijinal(ilk hali) bütününü temsil eden
daha küçük bir boyuta indirmeyi amaçlayan veri işleme aşamalarından biridir.
Veri indirgeme teknikleri sayesinde kısaca örnek veri kümesindeki
ilgisiz ve gereksiz tekrar eden veriler çıkarılarak boyut ve hacim
küçültülür.
Veri İndirgeme Teknikleri:
•Data Cube Aggregation(Veri küpü bütünleştirme):
Oluşturulan bir veri küpü yapısı içerisinde bütünleştirme uygulamaları
veriye uygulanır.
•Attribute Subset Selection(Öznitelikli Altküme Ayıklama):
Veri madenciliği için ilgisiz, az ilişkili ya da gereğinden fazla olan
özellikler ya da boyutlar tespit edilir ve silinir.
Veri İndirgeme Teknikleri:
•Dimension Reduction(Boyut Đndirgeme):
Veri seti boyutunun küçültülmesi için çeşitli algoritmalar uygulanır.
•Numerosity Reduction(Sayısal Đndirgeme):
Verilerin kendisini temsil eden daha küçük, alternatif verilerle
değiştirildiği ya da tahmini verilerle düzeltildiği veri indirgeme tekniğidir.
Bu işlemde gerçek verinin yerine sadece model değişkenleri saklayan
parametrik(değişkene bağlı) modeller ya da kümeleme, örnekleme ve
histogram gibi parametrik olmayan metotlar kullanılır.
Veri indirgeme ile veritabanının ilk halinden de ulaşabileceğimiz
analitik sonuçlara daha verimli şekilde ulaşılır.
DATA CUBE AGGREGATION
DATA CUBE AGGREGATION
Veri küpleri OLAP(Online-Analytical Processing) işlemlerinden de faydalanarak
önceden işlenmiş ve özetlenmiş verilere hızlı erişim imkanı sağlar.
DIMENSION REDUCTION
Boyut indirgemede,orijinal verinin sıkıştırılmış veya indirgenmiş
gösterimi için ;
Veri şifreleme(data encoding)
Dönüşümler(transformations) yöntemlerine başvurulur.
Eğer orijinal veri,herhangi bir kayıp bilgi olmadan,sıkıştırılmış
veriden yeniden oluşturulabilir ise veri indirgeme,kayıpsız
gerçekleşmiştir.
DIMENSION REDUCTION
Boyut indirgemenin 2 tane popüler ve etkileyici metodu vardır.
• Wavelet Transforms(Dalgacık dönüşümü)
• Principal components analysis(Temel bileşenler analizi)
DIMENSION REDUCTION
Wavelet Transforms(Dalgacık Dönüşümü) :
DWT(Ayrık dalgacık dönüşümü),bir X vektörünü sayısal olarak farklı bir
vektöre dönüştürmek için kullanılan bir sinyal işleme tekniğidir. Veri
indirgemede bu tekniği uygularken, X = (x1;x2; : : : ;xn) gibi bir n
boyutlu veri vektörü gibi her bir öğe dikkate alınmalıdır.
Bu teknik,veri temizlemeyi etkin kılarak verinin ana özelliklerini
düzeltmeden gürültüyü kaldırmak için kullanılır.Verilen katsayı
sabitleriyle,DWT nin tersi kullanılarak orijinal veriye yakınlık elde
edilebilir.
DIMENSION REDUCTION
DIMENSION REDUCTION
-DWT(Discrete wavelet transforms) ve DFT(Discrete fourier transforms)• DWT,sinüs ve cosinüs leri içeren bir sinyal işleme tekniği olan DFT
ile hemen hemen benzer terimlerdir.
•
DWT,lossy compression yönteminde daha başarılıdır.
• Katsayıların aynı numaraları,DWT ve DFT için tutulduğu
zaman;DWT,orijinal veriye daha kesin bir yakınlık sağlar.
DIMENSION REDUCTION
Principal Components Analysis(Temel bileşen analizi) :
Bir değişkenler setinin varyans-kovaryans yapısını, bu değişkenlerin
doğrusal birleşimleri vasıtasıyla açıklayarak, boyut indirgenmesi ve
yorumlanmasını sağlayan, çok değişkenli bir istatistik yöntemidir.
• PCA’nın 3 temel amacı vardır:
• Verilerin boyutunu azaltmak,
• Tahminleme yapmak,
• Veri setini, bazı analizler için görüntülemek.
DIMENSION REDUCTION
Temel bileşenlerin üç özelliği vardır:
• Korelasyonsuzlardır.
• Birinci temel bileşen toplam değişkenliği en çok açıklayan
değişkendir.
• Bir sonraki temel bileşen kalan değişkenliği en çok açıklayan
değişkendir.
Download

Veri İndirgeme Teknikleri