Show simple item record

dc.contributor.authorGrinciūnaitė, Agnė
dc.date.accessioned2023-09-18T08:51:31Z
dc.date.available2023-09-18T08:51:31Z
dc.identifier.urihttps://etalpykla.vilniustech.lt/handle/123456789/108068
dc.description.abstractThere exists a visual system which can easily recognize and track human body position, movements and actions without any additional sensing. This system has the processor called brain and it is competent after being trained for some months. With a little bit more training it is also able to apply acquired skills for more complicated tasks such as understanding inter-personal attitudes, intentions and emotional states of the observed moving person. This system is called a human being and is so far the most inspirational piece of art for today’s artificial intelligence creators. The most impressive results of complex computer vision and machine learning tasks were recently achieved by applying various deep learning methods. It is amazing how fast deep neural networks became popular and broadly used not only in research community but also in commercial world. The major impact was made by convolutional neural networks being able to beat some challenges in computer vision by quite a big margin and attract everybody’s attention. These networks are motivated by the known neurophysiology of the brain and its functional properties required for cognition. The goal of this thesis is to explore the capabilities of convolutional neural network to deal with easily manageable task for human-beings - perceiving other human’s location in spacetime from the perspective of the viewer. New approach of incorporating 3D convolutions to extract valuable features from motion data captured by monocular video camera and directly regress to joint positions in 3D camera coordinate space is used. This research shows the ability of such a network to achieve state of the art results on selected dataset. The achieved results imply that improved realization could possibly be used in real-world applications such as human-computer interaction, augmented and virtual reality, robotics, surveillance, smart homes, etc.eng
dc.description.abstractEgzistuoja tokia vaizdo apdorojimo sistema, kuri geba lengvai atpažinti ir sekti žmogaus kūno poziciją, judesius ir veiksmus be jokių papildomų pojūčių. Šios sistemos procesorius tampa kompetentingas vos per kelis apmokymo mėnesius ir yra vadinamas smegenimis. Pasimokęs šiek tiek ilgiau, jis taip pat sugeba savo įgūdžius panaudoti sudėtingesnėms užduotims, pavyzdžiui, stebint judantį žmogų suprasti jo santykį su aplinka, asmeninius ketinimus bei emocinę būklę. Ši sistema yra vadinama žmogumi ir tai yra vienas labiausiai šių dienų dirbtinio intelekto kūrėjus įkvepiančių meno kūrinių. Neseniai pasiekti rezultatai kompiuterinės vizijos ir sistemos mokymosi srityje naudojant įvairius giliojo mokymosi metodus išties daro įspūdį. Neįtikėtinai greitai gilieji neuroniniai tinklai tapo populiarūs ir plačiai naudojami ne tik mokslo bendruomenėje, bet ir komerciniame pasaulyje. Didžiausią įtaką tam turėjo būtent konvoliuciniai neuroniniai tinklai, dėl kurių buvo įveikti keli didžiausių kompiuterinės vizijos iššūkių. Tai ir pritraukė visų dėmesį. Šie neuroniniai tinklai yra įkvėpti žinomos smegenų neurofiziologijos ir jų funkcinėmis savybėmis, kurios reikalingos kognityvumui. Šio darbo tikslas yra ištirti, ar konvoliucinis neuroninis tinklas gali susidoroti su lengvai žmogui „įkandama“ užduotimi – iš savo matymo perspektyvos suvokti kito žmogaus poziciją erdvėlaikyje. Šiuo darbu yra pristatomas naujas būdas inkorporuojant trimates konvoliucijas išgauti vertingas savybes iš judesio informacijos, užfiksuotos videomedžiagoje, ir tiesiogiai išvesti žmogaus kūno taškų pozicijas trimatėje kameros koordinačių sistemoje. Tyrimas parodo, kad siūloma neuroninio tinklo realizacija leidžia pasiekti geriausius rezultatus su pasirinktos duomenų bazės duomenimis. Pasiekti rezultatai leidžia manyti, kad patobulinta realizacija galėtų būti sėkmingai taikoma tokiose srityse kaip žmogaus ir kompiuterio sąveika, papildyta ir virtuali realybė, robotika, sekimo technologijos, išmanieji namai ir pan.lit
dc.formatPDF
dc.format.extent46 p.
dc.format.mediumtekstas / txt
dc.language.isoeng
dc.rightsLaisvai prieinamas internete
dc.source.urihttps://talpykla.elaba.lt/elaba-fedora/objects/elaba:16248161/datastreams/MAIN/content
dc.titleDevelopment of a Deep Learning Model for 3D Human Pose Estimation in Monocular Videos
dc.title.alternativeŽmogaus pozos 3D erdvėje atpažinimas videomedžiagoje, taikant giliojo mokymosi modelį
dc.typeMagistro darbas / Master thesis
dcterms.references0
dc.type.pubtypeETD_MGR - Magistro darbas / Master thesis
dc.contributor.institutionVilniaus Gedimino technikos universitetas
dc.subject.researchfieldT 007 - Informatikos inžinerija / Informatics engineering
dc.subject.ltKonvoliuciniai neuroniniai tinklai
dc.subject.ltžmogaus pozicijos atpažinimas trimatėje erdvėje
dc.subject.ltjudesio savybės videomedžiagoje
dc.subject.enConvolutional neural network
dc.subject.en3D human pose estimation
dc.subject.enmotion features in monocular video data
dc.identifier.elaba16248161


Files in this item

Thumbnail

This item appears in the following Collection(s)

Show simple item record