Metinsel veriler için çok sınıflı problemlere hata düzelten kod tabanlı kolektif öğrenme yönteminin uygulanması
Dosyalar
Tarih
Yazarlar
Dergi Başlığı
Dergi ISSN
Cilt Başlığı
Yayıncı
Erişim Hakkı
Özet
Verinin incelenmesi, anlaşılması, yorumlanması, işlenmesi ve bilgisayar tarafından hakkında karar vermeye hazır hale getirilebilmesi ile, son yıllarda üzerinde fazlaca çalışılan problemlerden biri, verinin sınıflandırılması olmuştur. Bu problem, verinin belirlenen özelliklerinin sınıflandırma algoritmaları tarafından kullanılarak önceden belirlenen sınıflardan hangisine ait olacağının, etiketlenmiş veri üzerinde eğitilen bir bilgisayar tarafından tahmin edilmesine dayanan bir denetimli öğrenme problemidir. Makine öğrenmesi üzerine yöntemler geliştirildikçe bu yöntemlerin birkaç tanesinin toplu olarak kullanılıp değerlendirilmesine yönelik kolektif öğrenme metotları da geliştirilmiştir. Her ne kadar çalışmaların ilerlemesi sonucu geri beslemeli öğrenmeye dayanan derin öğrenme algoritmaları geliştirilmiş olsa da özellikle kolektif öğrenme algoritmalarının temel performanslarının değerlendirilebilmesi için makine öğrenmesi algoritmaları üzerinde analiz edilmeleri önem arz etmektedir. Bu çalışmada, çok sınıflı metin sınıflandırma problemleri üzerinde incelemeler yapılmıştır. İki ayrı veri seti üzerinde, hata düzelten çıktı kodları olarak bilinen kolektif öğrenme metodunun performansı, standart makine öğrenmesi algoritmalarının tek başına uygulanması sonucu elde edilen performanslar ile karşılaştırılarak değerlendirilmiştir. Verinin ve sınıfların performans üzerine etkileri tartışılmış, metodun performansını arttırma olasılığına yönelik yapılabilecek geliştirmeler ile ilgili önerilerde bulunulmuştur.
The classification of data as a significant problem has been studied extensively in recent years in the context of understanding, interpreting, processing, and preparing the data for computer-based decision making. This problem is a supervised learning problem based on the computer's prediction, trained on labeled data, of which of the predefined classes a data belongs to, depending on predetermined features, using classification algorithms. As methods for machine learning have been developed, ensemble learning methods are introduced for the use and evaluation of several of these methods together. Although deep learning algorithms based on back propagation and feedback learning have been developed as a result of the progress of the work, it is important to analyze machine learning algorithms, especially to evaluate the basic performance of ensemble learning algorithms. In this study, examinations were made on multi-class text classification problems. The performance of the ensemble method known as error-correcting output codes was evaluated by comparing it with the performance obtained from the application of standard machine learning algorithms on two different datasets. The effects of the data and classes on performance were discussed, and suggestions were made for improvements to the method's performance.









