Show simple item record

dc.contributor.authorKamarauskas, Juozas
dc.date.accessioned2023-09-18T09:04:14Z
dc.date.available2023-09-18T09:04:14Z
dc.date.issued2009
dc.identifier.urihttps://etalpykla.vilniustech.lt/handle/123456789/109936
dc.description.abstractQuestions of speaker’s recognition by voice are investigated in this dissertation. Speaker recognition systems, their evolution, problems of recognition, systems of features, questions of speaker modeling and matching used in text-independent and text-dependent speaker recognition are considered too. The text-independent speaker recognition system has been developed during this work. The Gaussian mixture model approach was used for speaker modeling and pattern matching. The automatic method for voice activity detection was proposed. This method is fast and does not require any additional actions from the user, such as indicating patterns of the speech signal and noise. The system of the features was proposed. This system consists of parameters of excitation source (glottal) and parameters of the vocal tract. The fundamental frequency was taken as an excitation source parameter and four formants with three antiformants were taken as parameters of the vocal tract. In order to equate dispersions of the formants and antiformants we propose to use them in mel-frequency scale. The standard mel-frequency cepstral coefficients (MFCC) for comparison of the results were implemented in the recognition system too. These features make baseline in speech and speaker recognition. The experiments of speaker recognition have shown that our proposed system of features outperformed standard mel-frequency cepstral coefficients. The equal error rate (EER) was equal to 5.17% using proposed features system compared to 5.86% that has been obtained using standard MFCC. Usage of the formants and antiformants in the mel-frequency scale improved recognition accuracy in comparison to usage of those in linear scale. The dimension of proposed system of features is lower and these features consist of 8 components, meanwhile standard features (MFCC) consist of 13 components. Therefore we need to implement 1.6 times less operations of calculation when we create speaker’s models or during the recognition, using proposed system of features compared to standard MFCC. The method of line spectral pairs was used for approximate calculation of formants and antiformants, because they are not always easy to be found directly. The method of estimation of initial GMM parameters was proposed too. Initial parameters of GMM are calculated after division of the initial space of the feature vectors into clusters. Statistical parameters of the clusters are calculated and assigned to corresponding Gaussian mixture as initial parameters. Vector quantization approach was proposed for this case. Other methods of forming of clusters are implemented in this system too: linear division of feature vectors into the clusters and random forming of the clusters. Experiments performed have shown that vector quantization approach provided best results of accuracy in this case and outperformed other methods of forming of clusters. Method of random forming was outperformed by 0.71% and method of linear division – by 0.88%, yet not reducing count of iterations necessary to build speaker’s model.eng
dc.description.abstractDisertacijoje nagrinėjami kalbančiojo atpažinimo pagal balsą klausimai. Aptartos kalbančiojo atpažinimo sistemos, jų raida, atpažinimo problemos, požymių sistemos įvairovė bei kalbančiojo modeliavimo ir požymių palyginimo metodai, naudojami nuo ištarto teksto nepriklausomame bei priklausomame kalbančiojo atpažinime. Darbo metu sukurta nuo ištarto teksto nepriklausanti kalbančiojo atpažinimo sistema. Kalbėtojų modelių kūrimui ir požymių palyginimui buvo panaudoti Gauso mišinių modeliai. Pasiūlytas automatinis vokalizuotų garsų išrinkimo (segmentavimo) metodas. Šis metodas yra greitai veikiantis ir nereikalaujantis iš vartotojo jokių papildomų veiksmų, tokių kaip kalbos signalo ir triukšmo pavyzdžių nurodymas. Pasiūlyta požymių vektorių sistema, susidedanti iš žadinimo signalo bei balso trakto parametrų. Kaip žadinimo signalo parametras, panaudotas žadinimo signalo pagrindinis dažnis, kaip balso trakto parametrai, panaudotos keturios formantės bei trys antiformantės. Siekiant suvienodinti žemesnių bei aukštesnių formančių ir antiformančių dispersijas, jas pasiūlėme skaičiuoti melų skalėje. Rezultatų palyginimui sistemoje buvo realizuoti standartiniai požymiai, naudojami kalbos bei asmens atpažinime – melų skalės kepstro koeficientai (MSKK). Atlikti kalbančiojo atpažinimo eksperimentai parodė, kad panaudojus pasiūlytą požymių sistemą buvo gauti geresni atpažinimo rezultatai, nei panaudojus standartinius požymius (MSKK). Gautas lygių klaidų lygis, panaudojant pasiūlytą požymių sistemą, – 5,17 %, tuo tarpu panaudojant MSKK – 5,86 %. Formančių skaičiavimas melų skalėje taip pat šiek tiek pagerino atpažinimo rezultatus, nei jų skaičiavimas tiesinėje skalėje. Pasiūlyta požymių sistema yra mažesnės dimensijos ir susideda iš 8 komponenčių, tuo tarpu standartiniai požymiai – MSKK susideda iš 13 komponenčių. Dėl šių priežasčių, kuriant kalbėtojų modelius bei atpažinimo metu naudojant pasiūlytą požymių sistemą, reikia atlikti maždaug 1,6 karto mažiau skaičiavimo operacijų. Formančių bei antiformančių įvertinimui panaudotas spektrinių porų metodas, kadangi ne visada galima jas tiesiogiai rasti. Pasiūlytas metodas pradiniam GMM parametrų vertinimui. Pradiniai GMM parametrai apskaičiuojami padalinus pradinę požymių vektorių aibę į klasterius bei radus atitinkamų klasterių statistinius parametrus. Dėl to klasterių formavimui pasiūlėme naudoti vektorinio kvantavimo algoritmą. Sistemoje realizuoti ir kiti klasterių formavimo metodai: tiesinis požymių vektorių dalijimas į klasterius bei atsitiktinis klasterių formavimas. Atlikus eksperimentus paaiškėjo, kad panaudojant vektorinio kvantavimo metodą buvo gauti geriausi atpažinimo rezultatai, lygių klaidų lygis sumažėjo 0,71 %, lyginant su atsitiktinio klasterių formavimo metodu, bei 0,88 %, lyginant su tiesinio dalijimo į klasterius metodu, tačiau nesumažino iteracijų skaičiaus, reikalingo tikslinant kalbėtojų modelius.lit
dc.formatPDF
dc.format.extent24 p.
dc.format.mediumtekstas / txt
dc.language.isoeng
dc.rightsLaisvai prieinamas internete
dc.source.urihttps://talpykla.elaba.lt/elaba-fedora/objects/elaba:2070603/datastreams/ATTACHMENT_2070606/content
dc.source.urihttps://talpykla.elaba.lt/elaba-fedora/objects/elaba:2070603/datastreams/MAIN/content
dc.titleSpeaker recognition by voice
dc.title.alternativeAsmens atpažinimas pagal balsą
dc.typeDaktaro disertacijos santrauka / Doctoral dissertation summary
dc.type.pubtypeETD_DR_S - Daktaro disertacijos santrauka / Doctoral dissertation abstract
dc.contributor.institutionVilniaus Gedimino technikos universitetas
dc.subject.researchfieldT 007 - Informatikos inžinerija / Informatics engineering
dc.subject.ltAutomatinė kalbančio atpažinimo sistema
dc.subject.ltGauso mišinių modeliai
dc.subject.ltformantės
dc.subject.ltantiformantės
dc.subject.ltpagrindinis tonas
dc.subject.enAutomatic speaker recognition system
dc.subject.enGaussian mixture models
dc.subject.enformants
dc.subject.enantiformants
dc.subject.enpitch
dc.publisher.nameLithuanian Academic Libraries Network (LABT)
dc.publisher.cityKaunas
dc.identifier.elaba2070603


Files in this item

Thumbnail

This item appears in the following Collection(s)

Show simple item record