Show simple item record

dc.contributor.authorAtliha, Viktar
dc.date.accessioned2023-12-22T07:01:55Z
dc.date.available2023-12-22T07:01:55Z
dc.date.issued2023
dc.identifier.urihttps://etalpykla.vilniustech.lt/handle/123456789/153456
dc.description.abstractRecently, computer vision (CV) and natural language processing (NLP) fields started gaining increasing attention from researchers and the industry. While the first bunch of methods allows for solving many tasks within the images and pictures domain, such as image classification, image detection, etc., the others work in a text domain, including text classification or translation tasks. However, many problems remain on a border between the two mentioned domains that have a practical use. One of them is called image captioning. The goal of image captioning systems is to automatically generate a human-like textual description of the given image. Such systems could be used for smoother human–computer interactions, information retrieval, or, more importantly, to help visually impaired people. To succeed, algorithms used in these systems should consume low resources (particularly, acquire little memory) and be of high quality. As the image captioning task is a cross-domain, and state-of-the-art models for computer vision and natural language processing tasks use deep learning models, it also leads to using such approaches for the image captioning task. However, most of the well-known methods of improving image captioning models tend to be focused more on quality improvement, considering no additional resources are needed. Thus, the best models, for now, are very big and unsuitable for use on mobile and other memory-constrained devices where they could bring the greatest practical benefit. The dissertation consists of an introduction, three main chapters, and general conclusions. The First Chapter reviews existing research on image captioning. The Second Chapter investigates the application of model compression methods for existing image captioning models, proposing several methods of reducing the model size without significant quality loss. The Third Chapter focuses on improving image captioning models without significant changes (or without changes at all) in model architecture, highlighting the importance of such methods. The performed experiments and analysis showed that image-captioning models could be significantly compressed without almost any quality loss. Application of all proposed methods allowed to reduce the model size by 91%, losing only up to 3% in the main quality metrics. More than that, methods proposed for improving quality without changing models’ architecture allowed for almost neutralizing this effect, leading to up to 5% quality improvements.eng
dc.description.abstractPastaruoju metu kompiuterinio regėjimo ir natūralios kalbos apdorojimo sritys sulaukia vis daugiau mokslininkų ir pramonės dėmesio. Pirmos srities metodų grupė leidžia išspręsti daugybę užduočių, susijusių su vaizdų apdorojimu, pavyzdžiui, vaizdų klasifikavimą, vaizdų aptikimą ir kt., antros srities metodai apdoroja tekstą, įskaitant teksto klasifikavimo ar vertimo užduotis. Tačiau yra ir uždavinių, esančių šių dviejų sričių sankirtoje. Vienas iš tokių uždavinių yra vaizdų antraščių generavimas. Vaizdų antraščių generavimo sistemos tikslas automatiškai sugeneruoti panašų į žmogaus sudarytą tekstinį pateikto vaizdo aprašymą. Tokios sistemos galėtų būti naudojamos sklandesnei žmogaus ir kompiuterio sąveikai, informacijos paieškai arba, kas dar svarbiau, padėti silpnaregiams. Kad šiose sistemose naudojami algoritmai būtų sėkmingi, jie turi sunaudoti mažai išteklių (ypač, turėti mažai atminties) ir būti kokybiški. Kadangi vaizdų antraščių generavimo užduotis yra kelių sričių sankirtoje, o moderniausi modeliai, skirti tiek kompiuterinio regėjimo, tiek natūralios kalbos apdorojimo užduotims, naudoja giliojo mokymosi modelius, tokius metodus reikia naudoti ir vaizdų antraštėms generuoti. Tačiau dauguma gerai žinomų vaizdų antraščių generavimo modelių tobulinimo būdų yra labiau orientuoti į kokybes gerinimą, neatsižvelgiant į jokius papildomus reikalingus išteklius. Taigi geriausi modeliai šiuo metu yra labai dideli ir netinkami naudoti mobiliuosiuose ir kituose ribotos atminties įrenginiuose, kur galėtų duoti didžiausią praktinę naudą. Disertaciją sudaro įvadas, trys pagrindiniai skyriai ir bendrosios išvados. Pirmajame skyriuje apžvelgiami esami vaizdų antraščių generavimo metodų tyrimai. Antrajame skyriuje nagrinėjamas modelių glaudinimo metodų taikymas esamiems vaizdų antraščių generavimo modeliams, siūlomi keli modelio dydžio sumažinimo būdai kokybės neprarandant. Trečiajame skyriuje dėmesys telkiamas į vaizdų antraščių generavimo modelių tobulinimą be reikšmingų modelių architektūros pokyčių, pabrėžiant tokių metodų svarbą. Atlikti eksperimentai ir analizė parodė, kad vaizdų antraščių generavimo modelius galima labai suspausti, beveik neprarandant kokybes. Visų siūlomų metodų taikymas leido sumažinti modelio dydį 91 %, prarandant tik iki 3 % pagrindinėje kokybes metrikoje. Be to, pasiūlyti metodai pagerinti kokybę, nekeičiant modelių architektūros, leido beveik neutralizuoti šį poveikį, todėl kokybė pagerėjo iki 5 %.lit
dc.formatPDF
dc.format.extent136 p.
dc.format.mediumtekstas / txt
dc.language.isoeng
dc.rightsLaisvai prieinamas internete
dc.source.urihttps://talpykla.elaba.lt/elaba-fedora/objects/elaba:176938178/datastreams/MAIN/content
dc.titleImproving image captioning methods using machine learning approaches
dc.title.alternativeVaizdų antraščių generavimo metodų tobulinimas mašininio mokymosi metodais
dc.typeDaktaro disertacija / Doctoral dissertation
dcterms.references169
dc.type.pubtypeETD_DR - Daktaro disertacija / Doctoral dissertation
dc.contributor.institutionVilnius Gediminas Technical University
dc.contributor.facultyFundamentinių mokslų fakultetas / Faculty of Fundamental Sciences
dc.subject.researchfieldT 007 - Informatikos inžinerija / Informatics engineering
dc.subject.vgtuprioritizedfieldsIK0303 - Dirbtinio intelekto ir sprendimų priėmimo sistemos / Artificial intelligence and decision support systems
dc.subject.ltspecializationsL106 - Transportas, logistika ir informacinės ir ryšių technologijos (IRT) / Transport, logistic and information and communication technologies
dc.subject.ltimage captioning
dc.subject.ltmodel compression
dc.subject.ltconvolutional neural networks
dc.subject.enimage captioning
dc.subject.enmodel compression
dc.subject.enconvolutional neural networks
dc.publisher.nameVilnius Gediminas Technical University
dc.publisher.cityVilnius
dc.identifier.doihttps://doi.org/10.20334/2023-021-M
dc.identifier.elaba176938178


Files in this item

Thumbnail

This item appears in the following Collection(s)

Show simple item record