Žodžio trukmės signalų apdorojimo priemonių kūrimas ir įgyvendinimas
Abstract
Šneka žmogui yra viena priimtiniausių ir patogiausių bendravimo formų, todėl kompiuterizuotų sistemų valdymas balsu yra ypač reikalingas, kai asmens galimybes tai daryti įprastais būdais riboja kiti atliekami veiksmai ar jo buklė. Šnekos signalų apdorojimo priemonių įgyvendinimą mobiliuosiuose įrenginiuose ar įterptinese sistemose apsunkina ribota greitaveika, veikimo trukmė, atminties apimtis. Disertacijoje nagrinėjama žodžio trukmės signalų apdorojimo priemonių tikslumo ir greitaveikos, tinkamos šiuolaikiniams įrenginiams, problema. Darbo tikslas – sukurti žodžio trukmės signalų apdorojimo priemones, pasiūlant intelektualiuosius sprendimus žodžio trukmės signalams apdoroti ir ištiriant žodžio trukmės signalų apdorojimo įgyvendinimo galimybes lauku programuojama logine matrica. Jam pasiekti išsikeliami ir sprendžiami trys pagrindiniai uždaviniai: vokalizuotų garsų modeliavimo dinaminiu dirbtiniu neuronu privalumų ir trūkumų tyrimas, dinaminių dirbtinių neuronų tinklų taikymo kalbėtojui identifikuoti pagal žodžio trukmės signalą galimybės tyrimas bei pavienių žodžių atpažinimo, taikant dinaminio laiko skalės kraipymo metodą, praktikoje tinkamo įgyvendinimo lauku programuojama logine matrica galimybės tyrimas. Pirmajame skyriuje pateikiamos esminės žinios apie šneka grįstas atpažinimo sistemas, atskleidžiamas šnekos signalo nešamos informacijos įvairiapusiškumas, apžvelgiami šnekos signalu grįstų sistemų naudojami požymių išskyrimo ir klasifikavimo metodai bei analizuojami sunkumai, su kuriais susiduriama įgyvendinant tokias sistemas mobiliuosiuose įrenginiuose ar įterptinėse sistemose. Pristatoma lauku programuojamų loginių matricų technologija bei jos pritaikomumas šnekos signalų analizės algoritmams įgyvendinti, formuluojami disertacijos uždaviniai. Antrajame skyriuje siūloma naudoti dinaminį dirbtinį neuroną tikslesniam šnekos signalo vokalizuotų garsų modeliavimui ir pateikiami balsių signalų prognozės tyrimų rezultatai. Trečiajame skyriuje siūloma kalbėtojo identifikavimo pagal žodžio trukmės signalų metodika grįsta dinaminių neuronų tinklais bei parodomas gaunamų rezultatų pranašumas lyginant su kitais metodais. Ketvirtasis skyrius skirtas lietuvių kalbos izoliuotų žodžių atpažinimo sistemos, grįstos dinaminiu laiko skalės kraipymo metodu, įgyvendinimui lauku programuojamoma matrica bei įgyvendinimo tikslumo ir greitaveikos tyrimams. Pagrindiniai disertacijos rezultatai paskelbti 7-uose moksliniuose straipsniuose, iš kuriu 5 atspausdinti recenzuojamuose mokslo žurnaluose. Rezultatai viešinti 9 mokslinese konferencijose. Speech is one of the most acceptable and convenient forms of communication. Because of this, the control of computerized systems is desirable, especially when ordinary ways of doing it is limited by other user actions or disability. The adoption of speech processing means for automatic speech or speaker recognition in mobile devices or appliances is restricted by the constrains of processing power, battery capacity and memory size. The problems of development and implementation of word duration signal processing means, suitable for modern devices, is analyzed in this work. The aim of the work is to develop speech signal processing means based on intellectual algorithms for word duration speech signal processing and investigating the potential of word duration signal processing implementation in field programmable gate array. To archive the aim three problems were elevated and explored: the investigation of dynamic artificial neuron usage advantages and disadvantages for vocalized speech sound modelling, the potential of dynamic artificial neural network usage for speaker identification from word duration signals and isolated word recognition implementation in field programmable gate array applicable in practice. The thesis is divided into introduction, four chapters and generalization. In the first chapter the fundamental knowledge on speech signal recognitition systems is given, the diversity information, carried by speech signal, is revealed. The overview of speech signal features, classifiers used in recognition systems based on speech signal and problems of their implementation in mobile or embedded devices is given. Field programable gate array technology and its applicability for algorithms of speech signal analysis is presented. In the second chapter – the usage of artificial neuron for signal modelling of vowels sounds is offered in order increase accuracy of signal prediction. The employment of dynamic artificial neural networks for speaker recognition from word duration speech signals is proposed and experiments performed in the third chapter. The identification results are analyzed by comparing them with ones obtained by using vector quantization and Gaussian mixture model methods. The fourth chapter is devoted for Lithuanian language isolated word recognition system, based on dynamic time warping technique, implementation in a field programable gate array and investigation on its performance and accuracy. The main results of the thesis were published in 7 scientific papers, 5 of which were printed in peer-reviewed scientific journals. The results were also publicized in 9 scientific conferences.