Development of a Deep Learning Model for 3D Human Pose Estimation in Monocular Videos

Grinciūnaitė, Agnė

dc.contributor.author	Grinciūnaitė, Agnė
dc.date.accessioned	2023-09-18T08:51:31Z
dc.date.available	2023-09-18T08:51:31Z
dc.identifier.uri	https://etalpykla.vilniustech.lt/handle/123456789/108068
dc.description.abstract	There exists a visual system which can easily recognize and track human body position, movements and actions without any additional sensing. This system has the processor called brain and it is competent after being trained for some months. With a little bit more training it is also able to apply acquired skills for more complicated tasks such as understanding inter-personal attitudes, intentions and emotional states of the observed moving person. This system is called a human being and is so far the most inspirational piece of art for today’s artificial intelligence creators. The most impressive results of complex computer vision and machine learning tasks were recently achieved by applying various deep learning methods. It is amazing how fast deep neural networks became popular and broadly used not only in research community but also in commercial world. The major impact was made by convolutional neural networks being able to beat some challenges in computer vision by quite a big margin and attract everybody’s attention. These networks are motivated by the known neurophysiology of the brain and its functional properties required for cognition. The goal of this thesis is to explore the capabilities of convolutional neural network to deal with easily manageable task for human-beings - perceiving other human’s location in spacetime from the perspective of the viewer. New approach of incorporating 3D convolutions to extract valuable features from motion data captured by monocular video camera and directly regress to joint positions in 3D camera coordinate space is used. This research shows the ability of such a network to achieve state of the art results on selected dataset. The achieved results imply that improved realization could possibly be used in real-world applications such as human-computer interaction, augmented and virtual reality, robotics, surveillance, smart homes, etc.	eng
dc.description.abstract	Egzistuoja tokia vaizdo apdorojimo sistema, kuri geba lengvai atpažinti ir sekti žmogaus kūno poziciją, judesius ir veiksmus be jokių papildomų pojūčių. Šios sistemos procesorius tampa kompetentingas vos per kelis apmokymo mėnesius ir yra vadinamas smegenimis. Pasimokęs šiek tiek ilgiau, jis taip pat sugeba savo įgūdžius panaudoti sudėtingesnėms užduotims, pavyzdžiui, stebint judantį žmogų suprasti jo santykį su aplinka, asmeninius ketinimus bei emocinę būklę. Ši sistema yra vadinama žmogumi ir tai yra vienas labiausiai šių dienų dirbtinio intelekto kūrėjus įkvepiančių meno kūrinių. Neseniai pasiekti rezultatai kompiuterinės vizijos ir sistemos mokymosi srityje naudojant įvairius giliojo mokymosi metodus išties daro įspūdį. Neįtikėtinai greitai gilieji neuroniniai tinklai tapo populiarūs ir plačiai naudojami ne tik mokslo bendruomenėje, bet ir komerciniame pasaulyje. Didžiausią įtaką tam turėjo būtent konvoliuciniai neuroniniai tinklai, dėl kurių buvo įveikti keli didžiausių kompiuterinės vizijos iššūkių. Tai ir pritraukė visų dėmesį. Šie neuroniniai tinklai yra įkvėpti žinomos smegenų neurofiziologijos ir jų funkcinėmis savybėmis, kurios reikalingos kognityvumui. Šio darbo tikslas yra ištirti, ar konvoliucinis neuroninis tinklas gali susidoroti su lengvai žmogui „įkandama“ užduotimi – iš savo matymo perspektyvos suvokti kito žmogaus poziciją erdvėlaikyje. Šiuo darbu yra pristatomas naujas būdas inkorporuojant trimates konvoliucijas išgauti vertingas savybes iš judesio informacijos, užfiksuotos videomedžiagoje, ir tiesiogiai išvesti žmogaus kūno taškų pozicijas trimatėje kameros koordinačių sistemoje. Tyrimas parodo, kad siūloma neuroninio tinklo realizacija leidžia pasiekti geriausius rezultatus su pasirinktos duomenų bazės duomenimis. Pasiekti rezultatai leidžia manyti, kad patobulinta realizacija galėtų būti sėkmingai taikoma tokiose srityse kaip žmogaus ir kompiuterio sąveika, papildyta ir virtuali realybė, robotika, sekimo technologijos, išmanieji namai ir pan.	lit
dc.format	PDF
dc.format.extent	46 p.
dc.format.medium	tekstas / txt
dc.language.iso	eng
dc.rights	Laisvai prieinamas internete
dc.source.uri	https://talpykla.elaba.lt/elaba-fedora/objects/elaba:16248161/datastreams/MAIN/content
dc.title	Development of a Deep Learning Model for 3D Human Pose Estimation in Monocular Videos
dc.title.alternative	Žmogaus pozos 3D erdvėje atpažinimas videomedžiagoje, taikant giliojo mokymosi modelį
dc.type	Magistro darbas / Master thesis
dcterms.references	0
dc.type.pubtype	ETD_MGR - Magistro darbas / Master thesis
dc.contributor.institution	Vilniaus Gedimino technikos universitetas
dc.subject.researchfield	T 007 - Informatikos inžinerija / Informatics engineering
dc.subject.lt	Konvoliuciniai neuroniniai tinklai
dc.subject.lt	žmogaus pozicijos atpažinimas trimatėje erdvėje
dc.subject.lt	judesio savybės videomedžiagoje
dc.subject.en	Convolutional neural network
dc.subject.en	3D human pose estimation
dc.subject.en	motion features in monocular video data
dc.identifier.elaba	16248161

Files in this item

Name:: Agne_Grinciunaite_Report.pdf
Size:: 6.392Mb
Format:: PDF

View/Open

This item appears in the following Collection(s)

Magistrų darbai / Master theses [2734]

Show simple item record