| dc.description.abstract |
İnternet' in yaygınlaşmasıyla elektronik ortamdaki doküman sayısı oldukça artmıştır. Gittikçe artan bu bilgiye daha kolay ve hızlı erişmek amacıyla metin sıkıştırma önem kazanmaktadır. Son yıllarda, metin sıkıştırma alanında yapılan çalışmaların bir kısmı, dilin biçimbilimsel yapısını kullanmayı amaçlayan çalışmaları kapsamaktadır.Bu çalışmada, Türkçe ve İngilizce dokümanların sıkıştırılma verimlerinin belirlenmesinde farklı ayrıştırma yöntemleri ve bu yöntemlerin sıkıştırma oranına etkileri araştırılmıştır. Dokümanlar Türkçe ve İngilizcenin biçimbilimsel yapısı kullanılarak ayrıştırılmıştır. Sonraki aşamada ayrıştırılan dokümanlardaki yapılara sıkıştırma işlemi uygulanmıştır. Sonuçta, 17 farklı ayrıştırma tekniği oluşturulmuş ve bunlar ile farklı külliyatlar üzerinde denemeler yapılmıştır.Kullanılan Türkçe külliyatlar, siyaset, spor, güncel gibi farklı konularda yazan 18 erkek, 4 kadın olmak üzere toplam 22 yazara ait, 900 farklı dokümandan oluşturulmuştur. İngilizce için oluşturulan külliyat, güncel konularda yazan farklı kişilere ait 290 farklı dokümandan elde edilmiştir. Farklı doküman gruplarının, farklı konularda yazılan metinlerin, yazar sayısının ve yazar cinsiyetinin başarıya olan etkisini gözlemlemek amacıyla 9 farklı külliyat grubu oluşturulmuştur.Sıkıştırma oranını belirlemede, doküman boyutunun sıkıştırmaya olan etkisini tespit edebilmek amacıyla her külliyatın altında 10 farklı boyuttaki dokümana Huffman sıkıştırma metodu uygulanarak elde edilen performanslar karşılaştırılmıştır.Yapılan denemelere göre, en başarılı sonuçlar, 1024Kb boyutundaki dosyalarda ve tez yazılarından elde edilen külliyattan sağlanmıştır. Farklı konularda yazan kadın yazarların yazılarının yer aldığı dokümanlardan ise en başarısız sıkıştırma oranları elde edilmiştir. |
|