Lietuvių kalbos animavimo technologija taikant trimatį veido modelį
Abstract
Kalbos animacija plačiai naudojama technikos įrenginiuose siekiant kurtiesiems, vaikams, vidutinio ir vyresnio amžiaus žmonėms sudaryti vienodas bendravimo galimybes. Žmonės yra labai jautrūs veido išvaizdos pokyčiams, todėl kalbos animavimas yra sudėtingas procesas, kurio metu žmogaus kalboje atpažinta akustinė informacija (fonemos) yra vizualizuojama naudojant specialiai sumodeliuotas veido išraiškas vadinamas vizemomis. Didžiausią įtaką kalbos animacijos tikroviškumui turi teisingas fonemas atitinkančių vizemų identifikavimas, modeliavimas ir jų išrikiavimas laiko juostoje. Tačiau, norint užtikrinti kalbos animacijos natūralumą, būtina papildomai išnalizuoti vizemų įtaką kaimyninėms fonemoms ir atsižvelgiant į animuojamos kalbos fonetines savybes sukurti koartikuliacijos valdymo modelį. Kiekvienos kalbos fonetika skiriasi, todėl kitai vienai kalbai sukurta animavimo sistema nėra tiesiogiai tinkama kitai kalbai animuoti. Kalbos animavimo karkasas, kuriame realizuojama Lietuvių kalbai skirta animavimo technologija, turi būti sukurta lietuvių kalbai vizualizuoti. Darbą sudaro įvadas, trys pagrindiniai skyriai, bendrosios išvados, literatūros sąrašas, publikacijų sąrašas. Pirmame skyriuje Skyriuje analizuojamos pasaulyje naudojamos kalbos animavimo technologijos. Kalbos signalas yra ir girdimas, ir matomas, todėl jos animacija yra sudėtinis procesas priklausantis nuo pasirinktos veido modeliavimo metodikos, kalbos signalo tipo, ir koartikuliacijos valdymo modelio. Antrajame skyriuje pristatomas karkasas, skirtas lietuvių kalbai animuoti. Jis sukurtas atsižvelgiant į esamų kalbos animavimo technologijų privalumus ir trūkumus. Išanalizavus esamus sprendimus, skyriuje siūlomas teorinis modelis, kaip atviro kodo vizemomis paremta anglų kalbos animavimo sistema gali būti panaudota siūlomai lietuvių kalbos animavimo technologijai realizuoti. Pasirinkta sistema veido judesiams kontroliuoti naudoja hierarchinį trimatį galvos modelį. Trečiame skyriuje detaliai aprašomi du nauji modeliai, kurie naudojami lietuvių kalbos animavimo technologijai sukurti ir lietuvių kalbos animacijos suprantamumui ir tikroviškumui padidinti. Tarpkalbinis vizemų parinkimo modelis yra naudojamas lietuvių kalbos vizemoms skirstyti į pastoviąją (tarptautinę) ir kintamąją dalis. Atsižvelgiant į lietuvių kalbos fonetikos taisykles lietuvių kalbos dvibalsiams animuoti sukuriamas naujas koartikuliacijos valdymo modelis. Siūlomos lietuvių kalbos animavimo technologijos kokybė įvertinama praktiniais eksperimentais. Darbas baigiamas išvadomis apie tyrimą. Disertacijos paskelbti trys straipsniai. Speech animation is widely used in technical devices to allow the growing number of hearing impaired persons, children, middle-aged and elderly equal participation in communication. Speech animation systems (“Talking heads”) are basically driven by speech phonetics and their visual representation – visemes. Acuraccy of the chosen speech recognition engine, naturally looking visemes, phoneme to viseme mapping and coarticulation control model considerably influence the quality of animated speech. Speech animation is strongly related with language phonetics, so new“Talking heads” should be created to animate different languages. Framework suitable to animate Lithuanian speech, which includes two new models that help to improve intelligibility of animated Lithuanian speech is used to create Lithuanian „Talking head” „LIT”. The dissertation consists of Introduction, three main chapters and general conclusions. Chapter 1 provides the analysis of the existing speech animation technologies. Different facial modelling techniques are analysed to define the most suitable 3D „Talking head” modelling technique for Lithuanian language. Viseme classification experiments across different languages are analysed to identify variety of viseme classification methods. Coarticulation control models are compared to deside which one should be used to define coarticulation of Lithuanian speech. Chapter 2 describes theoretical framework for Lithuanian speech animation. Translingual visual speech synthesis methods, specifics of Lithuanian phonetics and their influence for the selection of automatic phonemes recognition system that will be used in the proposed framework are analysed. Chapter 3 presents the proposed Lithuanian speech animation technology and two new models that help to improve intelligibility of animated Lithuanian speech. Translingual viseme selection model divides viseme classes of any language into two parts: constant (translingual) and variable Technology to create constant (translingual) viseme set for 22 most popular consonants is proposed. Modelling of 3D Lithuanian visemes is proposed to identify expressiveness coefficients of visemes that belong to variable set of visemes. The second model proposed in this chapter is coarticulation control model specified for pure Lithuanian diphthongs. This chapter is concluded with practical evaluation of the proposed framework for Lithuanian speech animation. General conclusions as summarises the present study. It is followed by an extensive list of 144 references and a list of 3 publications by the author on the topic of the dissertation.