Analysis and improvement of multilingual speech coding
Abstract
The thesis investigates the performance of voice codec’s that uses linear predictive coding (LPC), over different languages. The English language has had a dominating influence on the advance of telecommunications. With many of the major developments coming from primarily English speaking areas there is the risk that these advances may not be linguistically robust. It is noted that the quality of a speech produced by voice codecs mainly is assessed using samples of English language. Investigations show that most low-rate speech coders show bias towards non-accented English. When the coders are used for heavily accented English or other languages, significant performance degradation is noted. The main goal of the thesis is to investigates and propose ways for improvement of the performance of CELP voice codecs for coding multilingual speech. In order to achieve the goal, the following problems had been solved: performed analytical review on aspects of multilingual CELP voice coding; created speech records of Lithuanian language database according to ITU-T Rec. P.50 App. 1. that is suitable for tests of performance voice codecs; investigated performance of AMR and Speex codecs for coding non-English speech and proposed and proved ways for improvement of multilingual speech coding. Chapter 1 reviews most of the work done in the field of influence of language on coding, by introducing CELP based codes, and previous researches about the topic in hand. As well, it concludes in formulating of main objective and tasks of present investigation. Chapter 2 introduces the quality measuring techniques categorized by subjective and objective. Moreover, it contains our primary experiment on the codecs and quality assessment techniques. Chapter 3 presents the construction of the Lithuanian speech database. After concluding the results in chapter 2, we found ourselves in need of a well formed speech database for Lithuanian language to carry out our experiments on. Chapter 4 presents the experimental study on the performance of CELP based codes under different languages. Chapter 5 suggests a solution the codecs to perform better under different languages. Three scientific articles have been published in reviewed scientific publications by the author within scope of research: two publications in reviewed ISI Web of Science journals and one in other reviewed scientific editions. Also results of performed investigations were presented in 4 scientific conferences. Disertacijoje tiriamas balso kodekų taikančių tiesinės prognozės mechanizmą našumas koduojant skirtingų kalbų kalbos signalus. Anglų kalba nuo seno dominavo ir darė didžiausę įtaką telekomunikacijų technikos raidai. Tai lėmė faktai, kad dauguma atradimų ir patobulinimų buvo padaryta angliškai kalbančiose šalyse. Taigi, yra labai tikėtina, kad šie patobulinimai yra lingvistiškai nepagrįsti. Yra pastebėta, kad balso kodekais atkurto kalbos signalo kokybė yra dažniausiai vertinama anglų kalbai. Tyrimai rodo, kad mažos duomenų spartos kodavime kitų, ne anglų kabos, kalbos signalai yra labiau sugadinami. Pagrindinis disertacijos tikslas yra ištirti CELP balso kodekų našumą koduojant skirtingų kalbų signalus ir pasiūlyti būdus kodavimo pagerinimui. Siekiant šio tikslo reikia išspręsti šiuos uždavinius: atlikti analitinę CELP balso kodavimo koduojant skirtingų kalbų signalus analizę; sukurti lietuvių kalbos įrašų duomenų bazę pagal to ITU-T P.50 rekomendacijos 1 priedo analogą, kuri būtų tinkama balso kodekų testavimui; ištirti AMR ir Speex našumą dekoduoto balso kokybės prasme koduojant ne anglų kalbos signalus. Pirmame disertacijos skyriuje yra atliekama kalbos įtakos balso kodavimo teorijoje apžvalga, apžvelgiamas balso kodekų veikimo principas, formuluojami disertacijos uždaviniai. Antrame skyriuje pateikiamos kalbos signalo kokybės samprata, jos vertinimo būdai. Atliekami pirminiai kodekų kodavimo gerumo įvairioms kalboms tyrimai. Trečias skyrius skirtas sukurtos lietuvių kalbos įrašų duomenų bazės aprašymui ir jos tinkamumo kodekų testavimui vertinimui. Ketvirtame skyriuje aprašomi AMR ir Speex kodekų kokybės tyrimai koduojant anglų, lietuvių ir arabų kalbų signalus. Penktame skyriuje pateikiamas kodekų kodavimo pritaikymo konkrečiai kalbai būdas – fiksuotos kodų lentelės adaptavimas konkrečiai kalbai. Parodoma, kad tai leidžia pagerinti Speex kodeko kokybę koduojant lietuvių ir arabų kalbų kalbos signalus. Disertacijos tematika yra paskelbtos trys publikacijos recenzuojamuose mokslo leidiniuose: du straipsniai ISI Web of Science žurnaluose ir vienas tarptautinės konferencijos medžiagoje indeksuojamoje IEEE Xplore duomenų bazėje. Disertacijos rezultatai viešinti keturiuose mokslinėse konferencijose.