Lithuanian speech animation technology for 3D facial model
Abstract
Speech animation is widely used in technical devices to allow the growing number of hearing impaired persons, children, middle-aged and elderly equal participation in communication. Accuracy of the speech recognition or generation engine, modelled visemes, phonemes to visemes mapping and coarticulation control model mainly influence speech animation quality, so phonetics of specific language must be analysed to create new „Talking head” (synthetic head model that can produce visual speech). Framework suitable to visualize Lithuanian language, which includes two new models to improve intelligibility of animated speech is proposed and applied to create Lithuanian „Talking head” „LIT”. The dissertation consists of Introduction, three main chapters and general conclusions. Chapter 1 provides the analysis of the existing speech animation technologies. Different facial modelling techniques are examined to define the most suitable 3D „Talking head” modelling technique. Viseme classification experiments across different languages are analysed to identify variety of viseme identification and classification methods. Different coarticulation control models are compared to decide which one should be used to define coarticulation of Lithuanian speech. Chapter 2 describes theoretical framework for Lithuanian speech animation. Translingual visual speech synthesis methods, specifics of Lithuanian phonetics and phonemes recognition system which is included in the proposed framework are analysed. Chapter 3 presents the proposed Lithuanian speech animation technology and two new models to improve intelligibility of animated Lithuanian speech. The new translingual viseme selection model divides viseme classes of any language into two parts: constant (translingual) and variable. Technology to create constant (translingual) viseme set for 22 most popular consonants is proposed. Coarticulation control model specified for pure Lithuanian diphthongs is also proposed. The chapter is concluded with practical evaluation of the Lithuanian „Talking head” „LIT”. General conclusions summarise the present study. It is followed by an extensive list of 144 references and a list of 3 publications by the author on the topic of the dissertation. Kalbos animacija plačiai naudojama technikos įrenginiuose siekiant kurtiesiems, vaikams, vidutinio ir vyresnio amžiaus žmonėms sudaryti vienodas bendravimo galimybes. Žmonės yra labai jautrūs veido išvaizdos pokyčiams, todėl kalbos animavimas yra sudėtingas procesas, kurio metu žmogaus kalboje atpažinta akustinė informacija (fonemos) yra vizualizuojama naudojant specialiai sumodeliuotas veido išraiškas vadinamas vizemomis. Didžiausią įtaką kalbos animacijos tikroviškumui turi teisingas fonemas atitinkančių vizemų identifikavimas, modeliavimas ir jų išrikiavimas laiko juostoje. Tačiau, norint užtikrinti kalbos animacijos natūralumą, būtina papildomai išnalizuoti vizemų įtaką kaimyninėms fonemoms ir atsižvelgiant į animuojamos kalbos fonetines savybes sukurti koartikuliacijos valdymo modelį. Kiekvienos kalbos fonetika skiriasi, todėl kitai vienai kalbai sukurta animavimo sistema nėra tiesiogiai tinkama kitai kalbai animuoti. Kalbos animavimo karkasas, kuriame realizuojama Lietuvių kalbai skirta animavimo technologija, turi būti sukurta lietuvių kalbai vizualizuoti. Darbą sudaro įvadas, trys pagrindiniai skyriai, bendrosios išvados, literatūros sąrašas, publikacijų sąrašas. Pirmame skyriuje Skyriuje analizuojamos pasaulyje naudojamos kalbos animavimo technologijos. Kalbos signalas yra ir girdimas, ir matomas, todėl jos animacija yra sudėtinis procesas priklausantis nuo pasirinktos veido modeliavimo metodikos, kalbos signalo tipo, ir koartikuliacijos valdymo modelio. Antrajame skyriuje pristatomas karkasas, skirtas lietuvių kalbai animuoti. Jis sukurtas atsižvelgiant į esamų kalbos animavimo technologijų privalumus ir trūkumus. Išanalizavus esamus sprendimus, skyriuje siūlomas teorinis modelis, kaip atviro kodo vizemomis paremta anglų kalbos animavimo sistema gali būti panaudota siūlomai lietuvių kalbos animavimo technologijai realizuoti. Pasirinkta sistema veido judesiams kontroliuoti naudoja hierarchinį trimatį galvos modelį. Trečiame skyriuje detaliai aprašomi du nauji modeliai, kurie naudojami lietuvių kalbos animavimo technologijai sukurti ir lietuvių kalbos animacijos suprantamumui ir tikroviškumui padidinti. Tarpkalbinis vizemų parinkimo modelis yra naudojamas lietuvių kalbos vizemoms skirstyti į pastoviąją (tarptautinę) ir kintamąją dalis. Atsižvelgiant į lietuvių kalbos fonetikos taisykles lietuvių kalbos dvibalsiams animuoti sukuriamas naujas koartikuliacijos valdymo modelis. Siūlomos lietuvių kalbos animavimo technologijos kokybė įvertinama praktiniais eksperimentais. Darbas baigiamas išvadomis apie tyrimą. Disertacijos paskelbti trys straipsniai.