dc.contributor.author | Laurinčiukaitė, Sigita | |
dc.date.accessioned | 2023-09-18T09:25:34Z | |
dc.date.available | 2023-09-18T09:25:34Z | |
dc.date.issued | 2008 | |
dc.identifier.uri | https://etalpykla.vilniustech.lt/handle/123456789/111149 | |
dc.description.abstract | This paper is devoted to an acoustic modelling of Lithuanian speech recognition. Word-, syllable-, contextual syllable-, phoneme- and contextual phoneme-based speech recognition was investigated. Investigations were performed for isolated words and continuous speech. The most popular sub-word units in Lithuanian speech recognition are phonemes and contextual phonemes, and research on other sub-word units is omitted. This paper aims to compare capacity of linguistic sub-word units to model speech and to demonstrate that investigation of sub-word units suggest using alternative sub-word units to phoneme and contextual phoneme. The dissertation proposes a new methodology for acoustic modelling of syllables and phonemes, new sub-word unit – pseudo-syllable; technologies for acoustic modelling of separate sub-word units, including developed schemes, tools and recommendations. Speech corpus of isolated words was prepared and two versions of corpus of continuous speech LRN were developed for experimental research. Investigation of recognition of isolated words and construction of acoustic models for words showed that a size of training set of acoustic models, a content of training set in regard to number of speakers have an influence on speech recognition accuracy. The recommendations for word-based acoustic modelling are given. Investigation of recognition of isolated words and construction of acoustic models for words, syllables and phonemes showed that the best recognition results 98 ±1,8 % are achieved with sub-word unit of syllable. The complexity of syllable-based acoustic modelling prescribes sub-word unit type of word to use for acoustical modelling. After investigation of phoneme-based and contextual phoneme-based recognition of continuous speech two sets of phonemes with the best speech recognition accuracy (62 ±1,5 % and 62 ±1,5 %)) were selected. Set of phonemes without (or with) softness of consonants, accent and splitting of diphthongs are recommended for acoustic modelling of phoneme- and contextual phoneme-based recognition of continuous speech. Contextual phoneme with regard to speech recognition accuracy or phoneme with regard to simplicity of acoustic modelling is recommended. Investigation of recognition of continuous speech according to proposed methodology showed that new sub-word unit (pseudo-syllable) increase speech recognition accuracy (57 ±0,3 %) in comparison to phoneme models (52 ±0,3 %). Investigation of separate blocks in methodology allowed to increase speech recognition accuracy to 67 ±1,4 %. Contextual syllables-phonemes increase speech recognition accuracy to 72 ±1,4 %, but are inferior to contextual phonemes (76 ±1,3 %). | eng |
dc.description.abstract | Darbas „Lietuvių šnekos atpažinimo akustinis modeliavimas“ yra skirtas lietuvių šnekos atpažinimo akustiniam modeliavimui. Darbe buvo tirtas žodžiais, skiemenimis, kontekstiniais skiemenimis, fonemomis ir kontekstinėmis fonemomis grįstas šnekos atpažinimas. Tyrimai atlikti izoliuotiems žodžiams ir ištisinei šnekai. Iki šiol lietuvių šnekos atpažinime populiariausi kalbos vienetai buvo fonema ir kontekstinė fonema, o kitų kalbos vienetų analizė nebuvo atliekama. Šiame darbe siekiama palyginti lingvistinio tipo kalbos vienetų gebėjimą modeliuoti šneką ir parodyti, kad kalbos vienetų analizė siūlo alternatyvius fonemai ir kontekstinei fonemai kalbos vienetus. Darbe pasiūlyta metodika mišriam skiemenų ir fonemų akustiniam modeliavimui, naujas kalbos vienetas – pseudo-skiemuo; technologijos atskirų kalbos vienetų akustiniam modeliavimui (schemos, įrankiai, rekomendacijos). Eksperimentiniams tyrimams atlikti paruoštas izoliuotų žodžių garsynas ir sukurtos dvi ištisinės šnekos garsyno LRN versijos. Ištyrus izoliuotų žodžių atpažinimą, akustinius modelius konstruojant žodžiams, nustatyta, kad modelių mokymo aibės dydis, akustinių modelių mokymo aibės turinys daro įtaką šnekos atpažinimo tikslumui. Pateikiamos rekomendacijos akustiniam modeliavimui žodžių pagrindu. Ištyrus izoliuotų žodžių atpažinimą, akustinius modelius konstruojant žodžiams, skiemenims ir fonemoms, gauti rezultatai 98 ±1,8 % tikslumu siejami su skiemens tipo kalbos vienetais. Dėl skiemenų akustinio modeliavimo sudėtingumo jį rekomenduojama atlikti žodžiams. Atlikus ištisinės šnekos atpažinimo tyrimus fonemų ir kontekstinių fonemų kalbos vienetų pagrindu išrinktos dvi fonemų aibės, kurios pasiekia didžiausią atpažinimo tikslumą (62 ±1,5 % ir 62 ±1,5 %). Modeliuojant ištisinės šnekos atpažinimą rekomenduojama naudoti fonemų aibę be (arba su) minkštumo žymių (-ėmis), su kirčio žymėmis ir išskaidžius dvigarsius į atskiras komponentes. Renkantis tarp paprastos fonemos ir kontekstinės fonemos dėl atpažinimo tikslumo siūloma rinktis kontekstinę fonemą, o jei svarbiau modeliavimo paprastumas – paprastą fonemą. Tiriant skiemens tipo kalbos vienetus pagal pasiūlytą metodiką naujas kalbos vieneto tipas – pseudo-skiemuo padidina šnekos atpažinimo tikslumą (57 ±0,3 %) lyginant su fonemų akustiniais modeliais (52 ±0,3 %). Analizuojant metodikos etapus ištisinės šnekos atpažinimo tikslumą pavyko padidinti iki 67 ±1,4 %. Sukurti kontekstinių skiemenų akustiniai modeliai šnekos atpažinimo tikslumą padidina iki 72 ±1,4 %. Lyginant su kontekstinėmis fonemomis (76 ±1,3 %) kontekstinių skiemenų modeliavimo atpažinimo tikslumas mažesnis. | lit |
dc.format | PDF | |
dc.format.extent | 25 p. | |
dc.format.medium | tekstas / txt | |
dc.language.iso | eng | |
dc.rights | Prieinamas tik institucijos intranete | |
dc.source.uri | https://talpykla.elaba.lt/elaba-fedora/objects/elaba:1727881/datastreams/ATTACHMENT_1727887/content | |
dc.source.uri | https://talpykla.elaba.lt/elaba-fedora/objects/elaba:1727881/datastreams/MAIN/content | |
dc.title | Acoustic modelling of Lithuanian speech recognition | |
dc.title.alternative | Lietuvių šnekos atpažinimo akustinis modeliavimas | |
dc.type | Daktaro disertacijos santrauka / Doctoral dissertation summary | |
dc.type.pubtype | ETD_DR_S - Daktaro disertacijos santrauka / Doctoral dissertation abstract | |
dc.contributor.institution | Vilniaus Gedimino technikos universitetas | |
dc.subject.researchfield | T 007 - Informatikos inžinerija / Informatics engineering | |
dc.subject.lt | Šnekos atpažinimas | |
dc.subject.lt | akustinis modeliavimas | |
dc.subject.lt | paslėptieji Markovo modeliai | |
dc.subject.lt | skiemenimis grįstas šnekos atpažinimas | |
dc.subject.lt | fonemomis grįstas šnekos atpažinimas | |
dc.subject.en | Speech recognition | |
dc.subject.en | acoustic modelling | |
dc.subject.en | hidden Markov model | |
dc.subject.en | syllable-based speech recognition | |
dc.subject.en | phoneme-based speech recognition | |
dc.publisher.name | Lithuanian Academic Libraries Network (LABT) | |
dc.publisher.city | Kaunas | |
dc.identifier.elaba | 1727881 | |