Yapay zeka ile ortak yönelimli web sitelerinin tespiti

Yükleniyor...
Küçük Resim

Tarih

Dergi Başlığı

Dergi ISSN

Cilt Başlığı

Yayıncı

İstanbul Sabahattin Zaim Üniversitesi

Erişim Hakkı

info:eu-repo/semantics/openAccess

Araştırma projeleri

Organizasyon Birimleri

Dergi sayısı

Özet

Çalışmamızda iyi bir sınıflandırıcı yaparak herhangi bir web sitesinin yönelimini tespit etmek için metin sınıflandırma ile hangi tipte sınıf olduğunun bulunabilmesi konusu üzerinde durulmuştur. Farklı sınıflara ait web sitelerinden alınan İngilizce metinlerin vektörleri oluşturulmuştur. Sınıfı bilinmeyen herhangi bir web sitesinden alınan metnin hangi sınıfa ait olduğu belirlenebilir ve böylece yönelimi tespit edilebilir. Bunun için Gensim Kütüphanesi kullanılarak, Doc2Vec'in PV-DM ve PV-DBOW yöntemleri ile model eğitimleri yapılmıştır. Farklı iterasyonlarla yapılan eğitimlerin iki model için de doğruluk oranına etkileri araştırılmak istenmiştir. Buradan elde edilen vektörler üzerinde makine öğrenmesi sınıflandırma yöntemleri Random Forest ve Gauss Naive Bayes ile başarı oranları incelenmiştir. Daha sonra görüntü işlemede etkili bir yöntem olduğu bilinen derin öğrenme yöntemi CNN kullanılmak üzere, Doc2Vec ile elde edilen her bir örneğe ait vektörler resme çevrilmiştir. Makine öğrenmesi sınıflandırma yöntemleri ile elde edilen sonuçların başarı oranları karşılaştırılmış ve ortak yönelimin tespiti açısından etkileri değerlendirilmiştir. Son olarak, Doc2Vec ile oluşturulan belge vektörleri boyut azaltma yöntemleri olan PCA ve t-SNE kullanılarak 2 boyuta indirilip grafiği çizdirilmiştir. Bu çalışmadan elde edilen sonuçlara göre web sitelerinin ortak yönelimlerinin tespit edilmesi konusunda yüksek doğruluk oranı elde edilmiş olup web siteleri başarılı bir şekilde ait oldukları sınıfa göre etiketlenmişlerdir.

In our study, it was focused on finding the type of class by text classification to detect the tendentious of any website by making a good classifier. Vectors of English text where taken from websites of different classes have been created. The text extracted from any website of unknown class is able to determine which class it belongs to and thus it's tendentious can be detected. Therefore, model trainings were made with the PV-DM and PV-DBOW methods of Doc2Vec by using Gensim Library. The effects of the trainings with different iterations on the accuracy rate for both methods were investigated. The machine learning classification methods on the vectors obtained from here are analyzed with Random Forest and Gauss Naive Bayes. Afterwards, vectors belonging to each sample obtained with Doc2Vec were converted into a picture with the use the deep learning method CNN, which is known to be an effective method of image processing. The success rates of the results obtained by machine learning classification methods were compared and their effects were evaluated in terms of detecting the common tendentious. Finally, document vectors created with Doc2Vec have been reduced to 2 dimensions and plotted using PCA and t-SNE, which are reduction dimension methods. According to the results obtained from this study, high accuracy rate has been reached in detecting of common tendentious of the websites and the websites have been successfully tagged by the class they belong to.

Açıklama

Anahtar Kelimeler

Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control

Kaynak

WoS Q Değeri

Scopus Q Değeri

Cilt

Sayı

Künye

Doğru, H. B. (2020). Yapay zeka ile ortak yönelimli web sitelerinin tespiti. (Yüksek Lisans Tezi). İstanbul Sabahattin Zaim Üniversitesi Lisansüstü Eğitim Enstitüsü.

Onay

İnceleme

Ekleyen

Referans Veren