Deep learning based Turkish video indexing and retrieval system

Rasheed, Jawad

Deep learning based Turkish video indexing and retrieval system

dc.contributor.advisor	Akhtar, Jamil
dc.contributor.author	Rasheed, Jawad
dc.contributor.author	Rasheed, Jawad
dc.date.accessioned	2023-03-28T07:12:17Z
dc.date.available	2023-03-28T07:12:17Z
dc.date.issued	2021	en_US
dc.department	Lisansüstü Eğitim Enstitüsü	en_US
dc.description.abstract	The continual technological advancement of handheld devices and personal computers over past few decades has reshaped the world's communication system by enabling the humans and robots to capture and share images and videos in digitized form at large. Practically, annotation-based video indexing and retrieval systems are widely being used to maintain the ongoing growth of multimedia content. These systems grant multimedia content retrieval using textual annotations, but are limited to predefined annotation/keywords. The online multimedia content libraries require manual annotation of video while uploading, which is a hectic and time-consuming assignment that sometimes even does not align with the visual content. This limits the searching capacity, as user may be unable to retrieve video because of incomplete video description at the time of annotation. Therefore, it strongly requires an efficient and sophisticated video indexing and retrieval system. To accomplish it, content-based video indexing is an optimal solution by detecting text appearing in videos. This dissertation demonstrates a new text detection system based on advance deep learning approach to bridge the gap by building an automatic and efficient content-based video indexing and retrieval system for Turkish videos. The text appearing in videos provides useful information that can be exploited for developing automatic video indexing and retrieval system. Therefore, this study integrates heuristic and deep learning-based approaches that utilizes CNN for automatic text detection and extraction. To train the proposed CNN-based model, a new dataset is generated by collecting videos from various Turkish channels related to News, financial and business, sports and cartoon channels. The dataset is fed to proposed model that first generates features maps and then classifies the image as textual or non-textual class. Extensive trails and experiments are carried out with different structural combination of convolutional layers, thus ended up with a best model out of three proposed models that can accurately detect the text. Next, the extracted text is fed to publicly available Tesseract OCR for recognition, which is then indexed in database along with video information such as file storage location. Lastly, a web-based user interface is provided for querying purposes. For each user query, the proposed system retrieved the most relevant videos based on its textual content appearing inside. Besides displaying the retrieved videos in provided user interface, the system also informs the user about the appearance time of queried words inside each retrieved video so that user can directly jump to the point of interest by using sleek bar. All basic functionalities are provided to play, pause, maximize, minimize, and download the retrieved video with additional controls for volume and sleek bar. Moreover, various conventional machine-learning algorithms such as SVM and LR, and few state-of-the-art image classification models (including VGG16, ResNet50 and DenseNet121) are also implemented and trained with identical datasets. The proposed models outperformed the prior state-of-the-art deep learning frameworks and machine learning classifiers.	en_US
dc.description.abstract	Son zamanlarda el cihazlarının ve kişisel bilgisayarların teknolojik gelişimi, insanların ve robotların görüntüler ve videoları yakalayıp büyük ölçüde dijitalleştirilmiş biçimde paylaşılmasını sağlayarak dünyanın iletişim sistemini yeninden şekillendirmiştir. Pratikte, açıklama tabanlı video indeksleme ve bilgi erişim sistemleri günümüzde büyüyen multimedya içeriklerinin sürdürebilirliğini devam ettirmek amacıyla kullanılmaktadırlar. İlgili sistemler, metin notlarını kullanarak multimedya içeriğinin elde edilmesini sağlamaktadırlar, ancak ek açıklamaları tanımlamada sınırlıdırlar. Çevrimiçi multimedya içerikli kütüphanelerde, video yükleme işleminde videonun açıklaması manuel olarak gerçekleşmesi gerekmektedir. Bu durum, zaman gerektiren bir işlem olduğu gibi bazı durumlarda video açıklaması görsel içerik ile uyuşmamaktadır. Aynı zamanda, videolarda oluşacak eksik açıklamalar nedeniyle kullanıcıların arama yapma kapasitelerini sınırlamaktadır. Bu nedenle, verimli ve sofistike bir video indeksleme ve erişim sistemi gereklidir. Bu problemi çözüme kavuşturmak için, videolarda mevcut olan metinleri tespit ederek içerik tabanlı video indeksleme sistemi geliştirmek en uygun bir çözümdür. Bu tez çalışmasında, Türkçe videolar için otomatik ve verimli içerik tabanlı video indeksleme ve bilgi erişim sistemi oluşturmak amaçlı derin öğrenmeye dayalı yeni bir metin algılama sistemi geliştirilmektedir. Videolarda görünen metin, otomatik video indeksleme ve bilgi erişim sistemini geliştirmek için kullanılabilecek faydalı bilgiler sağlamaktadır. Dolayısıyla, bu çalışma otomatik metin algılama ve çıkarma işlemlerini gerçekleştirmek için Evrişimsel Sinir Ağlarından yararlanarak, sezgisel ve Derin Öğrenmeye dayalı yaklaşımları bütünleştirmektedir. Önerilen Evrişimsel Sinir Ağı tabanlı modeli eğitmek için, Haberler, finans ve iş, spor ve çizgi ile ilgili çeşitli Türk televizyon kanallarından videolar toplanarak yeni bir veri kümesi oluşturulmuştur. Oluşturulan veri seti, ilk aşamada önerilen modele özellik haritalarının elde edilmesi amacıyla beslenmektedir, devamında önerilen model görüntüyü metinsel veya metinsel olmayan sınıf olarak sınıflandırmaktadır. Evrişimsel katmanların farklı yapısal kombinasyonları ile kapsamlı deneyler yapıldıktan sonra önerilen üç modelden metni en doğru bir şekilde algılayabilen model elde edildi. Devamında, çıkarılan (elde edilen) metnin tanınması için Tesseract OCR'a beslenir, ve dosya depolama konumu gibi video bilgileri ile birlikte veri tabanında indekslenir. Son olarak, sorgulama amacıyla web tabanlı bir kullanıcı arayüzü geliştirilir. Her kullanıcı sorgusu için, önerilen sistem görüntü içinde görünen metin içeriğine göre en alakalı videoları kullanıcıya sunmaktadır. Buna ek olarak, sistem kullanıcın sorguladığı kelimeleri videonun hangi süreleri arasında geçtiğine dair bilgi vermektedir, dolayısıyla kullanıcı arama çubuğunu kullanarak doğrudan ilgi alanına gidebilir. Sunulan videoyu oynatmak, duraklatmak, büyütmek, küçültmek ve indirmek için ek ses ve kontrol çubuğu kontrolleriyle birlikte tüm temel işlevler sağlanmıştır. Ayrıca, Destek Vektör Makineleri ve Lojistik Regresyon gibi çeşitli geleneksel makine öğrenimi algoritmaları ve birkaç son teknoloji görüntü sınıflandırma modeli (VGG16, ResNet50 ve DenseNet121) aynı veri setiyle uygulanır ve eğitilir. Önerilen modeller, son teknoloji derin öğrenme modeleri ve makine öğrenimi sınıflandırıcılarından daha iyi performans göstermiştir.	en_US
dc.identifier.endpage	142	en_US
dc.identifier.startpage	1	en_US
dc.identifier.uri	https://tez.yok.gov.tr/UlusalTezMerkezi/TezGoster?key=qVqOZFj2DwNmvdf1oGFYiKmxzVzQ0eALv16ddoUGwyBlcYWy4Y0J738M_Qvu8r0K
dc.identifier.uri	https://hdl.handle.net/20.500.12436/4579
dc.institutionauthor	Rasheed, Jawad
dc.language.iso	en
dc.publisher	İstanbul Sabahattin Zaim Üniversitesi	en_US
dc.relation.publicationcategory	Tez	en_US
dc.rights	info:eu-repo/semantics/openAccess	en_US
dc.subject	Convolutional neural network	en_US
dc.subject	Deep learning	en_US
dc.subject	Machine learning	en_US
dc.subject	Text detection	en_US
dc.subject	Text recognition	en_US
dc.subject	Video indexing	en_US
dc.subject	Video retrieval	en_US
dc.subject	Evrişimsel sinir ağları	en_US
dc.subject	Derin öğrenme	en_US
dc.subject	Makine öğrenmesi	en_US
dc.subject	Metin tespiti	en_US
dc.subject	Metin tanıma	en_US
dc.subject	Video indeksleme	en_US
dc.subject	Video sunma	en_US
dc.title	Deep learning based Turkish video indexing and retrieval system	en_US
dc.title.alternative	Derin öğrenmeye dayalı Türkçe video indeksleme ve bilgi getirimi sistemi	en_US
dc.type	Doctoral Thesis
dspace.entity.type	Publication
relation.isAuthorOfPublication	f9b9b46c-d923-42d3-b413-dd851c2e913a
relation.isAuthorOfPublication.latestForDiscovery	f9b9b46c-d923-42d3-b413-dd851c2e913a

Dosyalar

Orijinal paket

Listeleniyor 1 - 1 / 1

İsim:: 767413.pdf
Boyut:: 4.8 MB
Biçim:: Adobe Portable Document Format
Açıklama:: Tez dosyası / Thesis file

İndir

Lisans paketi

Listeleniyor 1 - 1 / 1

İsim:: license.txt
Boyut:: 1.44 KB
Biçim:: Item-specific license agreed upon to submission
Açıklama:

İndir

Koleksiyon

Bilgisayar Bilimleri ve Mühendisliği