Acoustic modelling of Lithuanian speech recognition

Laurinčiukaitė, Sigita

dc.contributor.author	Laurinčiukaitė, Sigita
dc.date.accessioned	2023-09-18T09:25:34Z
dc.date.available	2023-09-18T09:25:34Z
dc.date.issued	2008
dc.identifier.uri	https://etalpykla.vilniustech.lt/handle/123456789/111149
dc.description.abstract	This paper is devoted to an acoustic modelling of Lithuanian speech recognition. Word-, syllable-, contextual syllable-, phoneme- and contextual phoneme-based speech recognition was investigated. Investigations were performed for isolated words and continuous speech. The most popular sub-word units in Lithuanian speech recognition are phonemes and contextual phonemes, and research on other sub-word units is omitted. This paper aims to compare capacity of linguistic sub-word units to model speech and to demonstrate that investigation of sub-word units suggest using alternative sub-word units to phoneme and contextual phoneme. The dissertation proposes a new methodology for acoustic modelling of syllables and phonemes, new sub-word unit – pseudo-syllable; technologies for acoustic modelling of separate sub-word units, including developed schemes, tools and recommendations. Speech corpus of isolated words was prepared and two versions of corpus of continuous speech LRN were developed for experimental research. Investigation of recognition of isolated words and construction of acoustic models for words showed that a size of training set of acoustic models, a content of training set in regard to number of speakers have an influence on speech recognition accuracy. The recommendations for word-based acoustic modelling are given. Investigation of recognition of isolated words and construction of acoustic models for words, syllables and phonemes showed that the best recognition results 98 ±1,8 % are achieved with sub-word unit of syllable. The complexity of syllable-based acoustic modelling prescribes sub-word unit type of word to use for acoustical modelling. After investigation of phoneme-based and contextual phoneme-based recognition of continuous speech two sets of phonemes with the best speech recognition accuracy (62 ±1,5 % and 62 ±1,5 %)) were selected. Set of phonemes without (or with) softness of consonants, accent and splitting of diphthongs are recommended for acoustic modelling of phoneme- and contextual phoneme-based recognition of continuous speech. Contextual phoneme with regard to speech recognition accuracy or phoneme with regard to simplicity of acoustic modelling is recommended. Investigation of recognition of continuous speech according to proposed methodology showed that new sub-word unit (pseudo-syllable) increase speech recognition accuracy (57 ±0,3 %) in comparison to phoneme models (52 ±0,3 %). Investigation of separate blocks in methodology allowed to increase speech recognition accuracy to 67 ±1,4 %. Contextual syllables-phonemes increase speech recognition accuracy to 72 ±1,4 %, but are inferior to contextual phonemes (76 ±1,3 %).	eng
dc.description.abstract	Darbas „Lietuvių šnekos atpažinimo akustinis modeliavimas“ yra skirtas lietuvių šnekos atpažinimo akustiniam modeliavimui. Darbe buvo tirtas žodžiais, skiemenimis, kontekstiniais skiemenimis, fonemomis ir kontekstinėmis fonemomis grįstas šnekos atpažinimas. Tyrimai atlikti izoliuotiems žodžiams ir ištisinei šnekai. Iki šiol lietuvių šnekos atpažinime populiariausi kalbos vienetai buvo fonema ir kontekstinė fonema, o kitų kalbos vienetų analizė nebuvo atliekama. Šiame darbe siekiama palyginti lingvistinio tipo kalbos vienetų gebėjimą modeliuoti šneką ir parodyti, kad kalbos vienetų analizė siūlo alternatyvius fonemai ir kontekstinei fonemai kalbos vienetus. Darbe pasiūlyta metodika mišriam skiemenų ir fonemų akustiniam modeliavimui, naujas kalbos vienetas – pseudo-skiemuo; technologijos atskirų kalbos vienetų akustiniam modeliavimui (schemos, įrankiai, rekomendacijos). Eksperimentiniams tyrimams atlikti paruoštas izoliuotų žodžių garsynas ir sukurtos dvi ištisinės šnekos garsyno LRN versijos. Ištyrus izoliuotų žodžių atpažinimą, akustinius modelius konstruojant žodžiams, nustatyta, kad modelių mokymo aibės dydis, akustinių modelių mokymo aibės turinys daro įtaką šnekos atpažinimo tikslumui. Pateikiamos rekomendacijos akustiniam modeliavimui žodžių pagrindu. Ištyrus izoliuotų žodžių atpažinimą, akustinius modelius konstruojant žodžiams, skiemenims ir fonemoms, gauti rezultatai 98 ±1,8 % tikslumu siejami su skiemens tipo kalbos vienetais. Dėl skiemenų akustinio modeliavimo sudėtingumo jį rekomenduojama atlikti žodžiams. Atlikus ištisinės šnekos atpažinimo tyrimus fonemų ir kontekstinių fonemų kalbos vienetų pagrindu išrinktos dvi fonemų aibės, kurios pasiekia didžiausią atpažinimo tikslumą (62 ±1,5 % ir 62 ±1,5 %). Modeliuojant ištisinės šnekos atpažinimą rekomenduojama naudoti fonemų aibę be (arba su) minkštumo žymių (-ėmis), su kirčio žymėmis ir išskaidžius dvigarsius į atskiras komponentes. Renkantis tarp paprastos fonemos ir kontekstinės fonemos dėl atpažinimo tikslumo siūloma rinktis kontekstinę fonemą, o jei svarbiau modeliavimo paprastumas – paprastą fonemą. Tiriant skiemens tipo kalbos vienetus pagal pasiūlytą metodiką naujas kalbos vieneto tipas – pseudo-skiemuo padidina šnekos atpažinimo tikslumą (57 ±0,3 %) lyginant su fonemų akustiniais modeliais (52 ±0,3 %). Analizuojant metodikos etapus ištisinės šnekos atpažinimo tikslumą pavyko padidinti iki 67 ±1,4 %. Sukurti kontekstinių skiemenų akustiniai modeliai šnekos atpažinimo tikslumą padidina iki 72 ±1,4 %. Lyginant su kontekstinėmis fonemomis (76 ±1,3 %) kontekstinių skiemenų modeliavimo atpažinimo tikslumas mažesnis.	lit
dc.format	PDF
dc.format.extent	25 p.
dc.format.medium	tekstas / txt
dc.language.iso	eng
dc.rights	Prieinamas tik institucijos intranete
dc.source.uri	https://talpykla.elaba.lt/elaba-fedora/objects/elaba:1727881/datastreams/ATTACHMENT_1727887/content
dc.source.uri	https://talpykla.elaba.lt/elaba-fedora/objects/elaba:1727881/datastreams/MAIN/content
dc.title	Acoustic modelling of Lithuanian speech recognition
dc.title.alternative	Lietuvių šnekos atpažinimo akustinis modeliavimas
dc.type	Daktaro disertacijos santrauka / Doctoral dissertation summary
dc.type.pubtype	ETD_DR_S - Daktaro disertacijos santrauka / Doctoral dissertation abstract
dc.contributor.institution	Vilniaus Gedimino technikos universitetas
dc.subject.researchfield	T 007 - Informatikos inžinerija / Informatics engineering
dc.subject.lt	Šnekos atpažinimas
dc.subject.lt	akustinis modeliavimas
dc.subject.lt	paslėptieji Markovo modeliai
dc.subject.lt	skiemenimis grįstas šnekos atpažinimas
dc.subject.lt	fonemomis grįstas šnekos atpažinimas
dc.subject.en	Speech recognition
dc.subject.en	acoustic modelling
dc.subject.en	hidden Markov model
dc.subject.en	syllable-based speech recognition
dc.subject.en	phoneme-based speech recognition
dc.publisher.name	Lithuanian Academic Libraries Network (LABT)
dc.publisher.city	Kaunas
dc.identifier.elaba	1727881

Šio įrašo failai

Pavadinimas:: Laurinciukaites_summary.pdf
Dydis:: 309.7Kb
Formatas:: PDF

Peržiūrėti/Atidaryti

Šis įrašas yra šioje (-se) kolekcijoje (-ose)

Daktaro disertacijos ir jų santraukos / Doctoral dissertations and their summaries [1752]

Rodyti trumpą aprašą