Yeşim AKSAN, Selma Ayşe ÖZEL, Yasin BEKTAŞ, Mustafa AKSAN,
Umut Ufuk DEMİRHAN, Ümit MERSİNLİ, Hakan YILMAZER
Sunan : Yasin BEKTAŞ
5 Şubat 2014
1. 
2. 
3. 
Giriş
Alanyazın
Açık Kaynak / Ücretsiz Yazılımlarla Türkçe
Tümcelerin Belirlenmesi
1.  TUD-Alt Derlemi
2.  Açık Kaynak Kodlu / Ücretsiz Uygulamaların
Performans Analizleri
4. 
5. 
Sonuç ve Öneriler
Kaynaklar
Doğal Dil İşleme (DDİ) günümüzde
–  dil bilimi,
–  dil eğitimi,
–  bilgisayar mühendisliği v.b.
pek çok farklı alanı birleştiren bir
araştırma alanıdır.
} 
Derlem İşlemleme (Corpus Processing)
◦  Özel ya da genel amaçlı incelemeler yapmak için yazılı ve
sözlü metinlerden oluşan metinler bütünüdür,
◦  Elektronik veritabanında kayıtlı metinlerin veri bilgisiyle
birleştirilmiş toplamıdır,
◦  Derlem veritabanları, dilin farklı yönlerinin araştırmacılar
tarafından betimlenmesine olanak tanımaktadır.
Tümce sonu belirleme çalışmalarında,
–  nokta,
–  ünlem,
–  soru işareti vb.
noktalama işaretleri sadece tümce ayracı olarak
kullanılmazlar ve bu anlamda,
Tümce sonu belirleme, noktalama işaretlerinin
belirginleştirilmesi olarak da özetlenebilir.
} 
Bilgisayar mühendisliği açısından tümce sonu
belirleme ;
◦  Sözdizimsel ayrıştırma (syntactic parsing),
◦  Bilgi çıkarımı (information extraction),
◦  Makine çevirisi (machine translation),
◦  Metin hizalama (text alignment),
◦  Belge özetleme (document summarization),
◦  İstatistiksel ya da makine öğrenmesi yöntemleri
◦  Sözcük türü belirginleştirme
çalışmaları için önemli olduğu söylenebilir.
Bilgisayarlı dilbilim alanyazınında tümce sonu
belirleme problemi iki farklı yöntemle
çözümlenmeye çalışılmıştır;
–  Kural Tabanlı Yaklaşım
–  Makine Öğrenmesine Dayalı Yaklaşım
} 
Kural Tabanlı Yaklaşım
◦ 
◦ 
} 
Anlaşılması zor
Veri setleri yalnızca kullanılan metinler ile sınırlı
Makine Öğrenmesine Dayalı Yaklaşım
◦  Reynar ve Ratnaparkhi(Maksimum Entropi)
◦  Riley(Karar Ağacı Sınıflandırıcısı)
◦  Palmer ve Hearst(Yapay Sinir Ağı)
◦  Mikheev(Hiddin Markov-Maksimum Entropi)
} 
Var Olan Bazı Uygulamalar
◦  Apache OpenNLP kütüphanesi
◦  Julie Sentence Boundary Detector (Tomanek vd.)
◦  GeniaSS
◦  Splitta(Gillick)
} 
Türkçe için yapılan bazı çalışmalar
◦  İstatistiksel Bir Bilgi Çıkarım Sistemi (Tür) Başarım: %91.56
◦  Türkçede tümce sonu belirleme (Dinçer ve
Karaoğlan ) – Başarım: %96.02
◦  Türkçe için kural tabalı cümle belirleme
metodu(Aktaş ve Çebi) - Başarım: %99.60
Çalışmaya konu olan derlem, TUD dağılım
ölçütleri kullanılarak hazırlanmış;
– 
– 
– 
– 
– 
– 
Günümüz Türkçesinin metin örneklerinden oluşan,
20 yıllık bir dönemi (1990-2009) kapsayan,
Çok farklı alan ve türden
Yazılı ve sözlü metin örneklerini içeren,
Dengeli
Temsil yeterliliğine sahip
bir alt-derlemdir.
Alan
Oran
Toplam
Sözcük
Sayısı
Hedeflenen
Sözcük Sayısı
1 . K u r g u s a l %19
Düzyazı
1.901.174
1.900.000
2. Bilgilendirici
Metinler
7.956.406
8.100.000
%81
Tablo 1. Alana göre Dağılım
Türev Metin Biçimi
Oran
1. Akademik Düzyazı
%95
2. Kurgu ve Şiir
3. Dram, Tiyatro
%2
%3
Toplam Sözcük
Sayısı
1.806.708
37.059
57.407
Tablo 2. Kurgusal Düzyazı Metinlerinin Türev Metin Biçimine göre Dağılımı
Media
1. Kitaplar
2. Süreli Yayınlar
2.1. Bilim.Dergileri
2.2. Gazeteler
2.3. Dergiler
3. Diğer Basılmış
Metinler
4. Basılmamış Yazılı
Metinler
5. Sözlü Metinler
Oran
%46,1
%37,1
%14,9
%11,1
%11,1
%6,09
Toplam Sözcük Sayısı
3.667.944
2.951.859
1.185.466
883.176
883.217
484.550
%2,5
198.912
%8,21
653.228
Tablo 3. Bilgilendirici Metinlerin Medyaya göre Dağılımı
Alan
1. Bilgilendirici: Doğa ve Temel Bilimler
2. Bilgilendirici: Uygulamalı Bilimler
3. Bilgilendirici: Sosyal Bilimler
4. Bilgilendirici: Dünya Sorunları
5. Bilgilendirici: Sanat
6. Bilgilendirici: Düşünce ve İnanç
7. Bilgilendirici: Serbest
8. Bilgilendirici: Ticaret ve Finans
Oran
Toplam Sözcük Sayısı
%5,03
%10,21
%20,08
%22,57
%8,78
%5,00
%18,29
%10,04
400.207
812.349
1.597.646
1.795.761
698.572
397.820
1.455.226
798.823
Tablo 4. Bilgilendirici Metinlerin Alanlara göre Dağılımı
Bu çalışmada açık kaynak kodlu
◦  Julie Sentence Boundary Detector (JSBD),
◦  GeniaSS,
◦  Splitta,
◦  Ücretsiz Web servisi şeklinde çalışan ve Dokuz Eylül
Üniversitesi Doğal Dil İşleme Araştırma Grubu
(9EDDİ) tarafından Türkçe metinler için geliştirilmiş
tümce ayırma sistemi karşılaştırılmıştır.
Kullanılan alt derlem;
• 
• 
• 
Yarı otomatik olarak oluşturulmuştur
10 Milyon sözcük
774.449 adet tümce elde edilmiştir.
Yazılım
JSBD
Splitta
GeniaSS
9EDDİ
Bulunan Toplam Doğru Tümce
Tümce Sayısı
Sayısı
690.998
664.769
893.401
683.609
539.628
171.467
681.850
576.920
Doğruluk
Oranı
%70
%22
%88
%75
Tablo 5. Tümce Sonu Belirleme Yazılımlarının Alt-derlem Üzerindeki Başarımı
Şekil 1. Yazılımların Doğa ve Temel Bilimler
Alanındaki Metinler Üzerindeki Başarımı
Şekil 2. Yazılımların Uygulamalı Bilimler
Alanındaki Metinler Üzerindeki Başarımı
Şekil 3. Yazılımların Sosyal Bilimler
Alanındaki Metinler Üzerindeki Başarımı
Şekil 4. Yazılımların Dünya Sorunları
Alanındaki Metinler Üzerindeki Başarımı
Şekil 5. Yazılımların Sanat Alanındaki
Metinler Üzerindeki Başarımı
Şekil 7. Yazılımların Serbest Alanındaki
Metinler Üzerindeki Başarımı
Şekil 6. Yazılımların Düşünce ve İnanç
Alanındaki Metinler Üzerindeki Başarımı
Şekil 8. Yazılımların Ticaret ve Finans
Alanındaki Metinler Üzerindeki Başarımı
◦  Şekillerde yer alan yüzdelik ifadeler,
yazılımın ürettiği doğru tümce sayısının/yazılımın ürettiği toplam tümce
◦  Splitta hariç %75 ile %89 aralığında oranlar elde
edilmiştir.
◦  En fazla tümceyi ve en fazla doğru tümceyi üreten
GeniaSS uygulaması olmuştur.
◦  Güncel Türkçe metinler için hazırlanan 9EDDİ ise
bazı alanlarda daha iyi sonuçlar vermiştir.
◦  İngilizce tıp metinleri için hazırlanmasına rağmen
en iyi sonucu GeniaSS üretmiştir.
◦  Daha sonra (özellikle bazı metin gurupları için)
9EDDİ yazılımı başarılı sonuçlar vermiştir.
◦  Üretilen tümce sayının doğru tümcelere oranına
bakıldığında 9EDDİ daha iyi sonuçlar vermiştir.
Bu çalışma çeşitli alanlarda yazılmış
Türkçe metinler için;
◦ 
Daha etkin tümce sonu belirleme sistemlerine
ihtiyaç olduğunu göstermiştir.
◦ 
Tümce sonu belirleme yöntemi geliştirilirken TUD
alt-derlemi gibi dili temsil etme yeteneğine sahip
bir derlem ile çalışmanın daha etkin sistemlerin
geliştirilmesine yardımcı olacağı düşünülmektedir.
TÜBİTAK: Proje no 113K039
Yasin BEKTAŞ
[email protected]
Download

Yeşim AKSAN, Selma Ayşe ÖZEL, Yasin BEKTAŞ, Mustafa AKSAN