Improving image captioning methods using machine learning approaches
Abstract
Recently, computer vision (CV) and natural language processing (NLP) fields started gaining increasing attention from researchers and the industry. While the first bunch of methods allows for solving many tasks within the images and pictures domain, such as image classification, image detection, etc., the others work in a text domain, including text classification or translation tasks. However, many problems remain on a border between the two mentioned domains that have a practical use. One of them is called image captioning. The goal of image captioning systems is to automatically generate a human-like textual description of the given image. Such systems could be used for smoother human–computer interactions, information retrieval, or, more importantly, to help visually impaired people. To succeed, algorithms used in these systems should consume low resources (particularly, acquire little memory) and be of high quality. As the image captioning task is a cross-domain, and state-of-the-art models for computer vision and natural language processing tasks use deep learning models, it also leads to using such approaches for the image captioning task. However, most of the well-known methods of improving image captioning models tend to be focused more on quality improvement, considering no additional resources are needed. Thus, the best models, for now, are very big and unsuitable for use on mobile and other memory-constrained devices where they could bring the greatest practical benefit. The dissertation consists of an introduction, three main chapters, and general conclusions. The First Chapter reviews existing research on image captioning. The Second Chapter investigates the application of model compression methods for existing image captioning models, proposing several methods of reducing the model size without significant quality loss. The Third Chapter focuses on improving image captioning models without significant changes (or without changes at all) in model architecture, highlighting the importance of such methods. The performed experiments and analysis showed that image-captioning models could be significantly compressed without almost any quality loss. Application of all proposed methods allowed to reduce the model size by 91%, losing only up to 3% in the main quality metrics. More than that, methods proposed for improving quality without changing models’ architecture allowed for almost neutralizing this effect, leading to up to 5% quality improvements. Pastaruoju metu kompiuterinio regėjimo ir natūralios kalbos apdorojimo sritys sulaukia vis daugiau mokslininkų ir pramonės dėmesio. Pirmos srities metodų grupė leidžia išspręsti daugybę užduočių, susijusių su vaizdų apdorojimu, pavyzdžiui, vaizdų klasifikavimą, vaizdų aptikimą ir kt., antros srities metodai apdoroja tekstą, įskaitant teksto klasifikavimo ar vertimo užduotis. Tačiau yra ir uždavinių, esančių šių dviejų sričių sankirtoje. Vienas iš tokių uždavinių yra vaizdų antraščių generavimas. Vaizdų antraščių generavimo sistemos tikslas automatiškai sugeneruoti panašų į žmogaus sudarytą tekstinį pateikto vaizdo aprašymą. Tokios sistemos galėtų būti naudojamos sklandesnei žmogaus ir kompiuterio sąveikai, informacijos paieškai arba, kas dar svarbiau, padėti silpnaregiams. Kad šiose sistemose naudojami algoritmai būtų sėkmingi, jie turi sunaudoti mažai išteklių (ypač, turėti mažai atminties) ir būti kokybiški. Kadangi vaizdų antraščių generavimo užduotis yra kelių sričių sankirtoje, o moderniausi modeliai, skirti tiek kompiuterinio regėjimo, tiek natūralios kalbos apdorojimo užduotims, naudoja giliojo mokymosi modelius, tokius metodus reikia naudoti ir vaizdų antraštėms generuoti. Tačiau dauguma gerai žinomų vaizdų antraščių generavimo modelių tobulinimo būdų yra labiau orientuoti į kokybes gerinimą, neatsižvelgiant į jokius papildomus reikalingus išteklius. Taigi geriausi modeliai šiuo metu yra labai dideli ir netinkami naudoti mobiliuosiuose ir kituose ribotos atminties įrenginiuose, kur galėtų duoti didžiausią praktinę naudą. Disertaciją sudaro įvadas, trys pagrindiniai skyriai ir bendrosios išvados. Pirmajame skyriuje apžvelgiami esami vaizdų antraščių generavimo metodų tyrimai. Antrajame skyriuje nagrinėjamas modelių glaudinimo metodų taikymas esamiems vaizdų antraščių generavimo modeliams, siūlomi keli modelio dydžio sumažinimo būdai kokybės neprarandant. Trečiajame skyriuje dėmesys telkiamas į vaizdų antraščių generavimo modelių tobulinimą be reikšmingų modelių architektūros pokyčių, pabrėžiant tokių metodų svarbą. Atlikti eksperimentai ir analizė parodė, kad vaizdų antraščių generavimo modelius galima labai suspausti, beveik neprarandant kokybes. Visų siūlomų metodų taikymas leido sumažinti modelio dydį 91 %, prarandant tik iki 3 % pagrindinėje kokybes metrikoje. Be to, pasiūlyti metodai pagerinti kokybę, nekeičiant modelių architektūros, leido beveik neutralizuoti šį poveikį, todėl kokybė pagerėjo iki 5 %.