Improving image captioning methods using machine learning approaches

Atliha, Viktar

dc.contributor.author	Atliha, Viktar
dc.date.accessioned	2023-12-22T07:01:55Z
dc.date.available	2023-12-22T07:01:55Z
dc.date.issued	2023
dc.identifier.uri	https://etalpykla.vilniustech.lt/handle/123456789/153456
dc.description.abstract	Recently, computer vision (CV) and natural language processing (NLP) fields started gaining increasing attention from researchers and the industry. While the first bunch of methods allows for solving many tasks within the images and pictures domain, such as image classification, image detection, etc., the others work in a text domain, including text classification or translation tasks. However, many problems remain on a border between the two mentioned domains that have a practical use. One of them is called image captioning. The goal of image captioning systems is to automatically generate a human-like textual description of the given image. Such systems could be used for smoother human–computer interactions, information retrieval, or, more importantly, to help visually impaired people. To succeed, algorithms used in these systems should consume low resources (particularly, acquire little memory) and be of high quality. As the image captioning task is a cross-domain, and state-of-the-art models for computer vision and natural language processing tasks use deep learning models, it also leads to using such approaches for the image captioning task. However, most of the well-known methods of improving image captioning models tend to be focused more on quality improvement, considering no additional resources are needed. Thus, the best models, for now, are very big and unsuitable for use on mobile and other memory-constrained devices where they could bring the greatest practical benefit. The dissertation consists of an introduction, three main chapters, and general conclusions. The First Chapter reviews existing research on image captioning. The Second Chapter investigates the application of model compression methods for existing image captioning models, proposing several methods of reducing the model size without significant quality loss. The Third Chapter focuses on improving image captioning models without significant changes (or without changes at all) in model architecture, highlighting the importance of such methods. The performed experiments and analysis showed that image-captioning models could be significantly compressed without almost any quality loss. Application of all proposed methods allowed to reduce the model size by 91%, losing only up to 3% in the main quality metrics. More than that, methods proposed for improving quality without changing models’ architecture allowed for almost neutralizing this effect, leading to up to 5% quality improvements.	eng
dc.description.abstract	Pastaruoju metu kompiuterinio regėjimo ir natūralios kalbos apdorojimo sritys sulaukia vis daugiau mokslininkų ir pramonės dėmesio. Pirmos srities metodų grupė leidžia išspręsti daugybę užduočių, susijusių su vaizdų apdorojimu, pavyzdžiui, vaizdų klasifikavimą, vaizdų aptikimą ir kt., antros srities metodai apdoroja tekstą, įskaitant teksto klasifikavimo ar vertimo užduotis. Tačiau yra ir uždavinių, esančių šių dviejų sričių sankirtoje. Vienas iš tokių uždavinių yra vaizdų antraščių generavimas. Vaizdų antraščių generavimo sistemos tikslas automatiškai sugeneruoti panašų į žmogaus sudarytą tekstinį pateikto vaizdo aprašymą. Tokios sistemos galėtų būti naudojamos sklandesnei žmogaus ir kompiuterio sąveikai, informacijos paieškai arba, kas dar svarbiau, padėti silpnaregiams. Kad šiose sistemose naudojami algoritmai būtų sėkmingi, jie turi sunaudoti mažai išteklių (ypač, turėti mažai atminties) ir būti kokybiški. Kadangi vaizdų antraščių generavimo užduotis yra kelių sričių sankirtoje, o moderniausi modeliai, skirti tiek kompiuterinio regėjimo, tiek natūralios kalbos apdorojimo užduotims, naudoja giliojo mokymosi modelius, tokius metodus reikia naudoti ir vaizdų antraštėms generuoti. Tačiau dauguma gerai žinomų vaizdų antraščių generavimo modelių tobulinimo būdų yra labiau orientuoti į kokybes gerinimą, neatsižvelgiant į jokius papildomus reikalingus išteklius. Taigi geriausi modeliai šiuo metu yra labai dideli ir netinkami naudoti mobiliuosiuose ir kituose ribotos atminties įrenginiuose, kur galėtų duoti didžiausią praktinę naudą. Disertaciją sudaro įvadas, trys pagrindiniai skyriai ir bendrosios išvados. Pirmajame skyriuje apžvelgiami esami vaizdų antraščių generavimo metodų tyrimai. Antrajame skyriuje nagrinėjamas modelių glaudinimo metodų taikymas esamiems vaizdų antraščių generavimo modeliams, siūlomi keli modelio dydžio sumažinimo būdai kokybės neprarandant. Trečiajame skyriuje dėmesys telkiamas į vaizdų antraščių generavimo modelių tobulinimą be reikšmingų modelių architektūros pokyčių, pabrėžiant tokių metodų svarbą. Atlikti eksperimentai ir analizė parodė, kad vaizdų antraščių generavimo modelius galima labai suspausti, beveik neprarandant kokybes. Visų siūlomų metodų taikymas leido sumažinti modelio dydį 91 %, prarandant tik iki 3 % pagrindinėje kokybes metrikoje. Be to, pasiūlyti metodai pagerinti kokybę, nekeičiant modelių architektūros, leido beveik neutralizuoti šį poveikį, todėl kokybė pagerėjo iki 5 %.	lit
dc.format	PDF
dc.format.extent	136 p.
dc.format.medium	tekstas / txt
dc.language.iso	eng
dc.rights	Laisvai prieinamas internete
dc.source.uri	https://talpykla.elaba.lt/elaba-fedora/objects/elaba:176938178/datastreams/MAIN/content
dc.title	Improving image captioning methods using machine learning approaches
dc.title.alternative	Vaizdų antraščių generavimo metodų tobulinimas mašininio mokymosi metodais
dc.type	Daktaro disertacija / Doctoral dissertation
dcterms.references	169
dc.type.pubtype	ETD_DR - Daktaro disertacija / Doctoral dissertation
dc.contributor.institution	Vilnius Gediminas Technical University
dc.contributor.faculty	Fundamentinių mokslų fakultetas / Faculty of Fundamental Sciences
dc.subject.researchfield	T 007 - Informatikos inžinerija / Informatics engineering
dc.subject.vgtuprioritizedfields	IK0303 - Dirbtinio intelekto ir sprendimų priėmimo sistemos / Artificial intelligence and decision support systems
dc.subject.ltspecializations	L106 - Transportas, logistika ir informacinės ir ryšių technologijos (IRT) / Transport, logistic and information and communication technologies
dc.subject.lt	image captioning
dc.subject.lt	model compression
dc.subject.lt	convolutional neural networks
dc.subject.en	image captioning
dc.subject.en	model compression
dc.subject.en	convolutional neural networks
dc.publisher.name	Vilnius Gediminas Technical University
dc.publisher.city	Vilnius
dc.identifier.doi	https://doi.org/10.20334/2023-021-M
dc.identifier.elaba	176938178

Files in this item

Name:: V_Atliha Dissertation.pdf
Size:: 14.90Mb
Format:: PDF

View/Open

This item appears in the following Collection(s)

Daktaro disertacijos ir jų santraukos / Doctoral dissertations and their summaries [1752]

Show simple item record