Speaker recognition by voice

Kamarauskas, Juozas

dc.contributor.author	Kamarauskas, Juozas
dc.date.accessioned	2023-09-18T09:04:14Z
dc.date.available	2023-09-18T09:04:14Z
dc.date.issued	2009
dc.identifier.uri	https://etalpykla.vilniustech.lt/handle/123456789/109936
dc.description.abstract	Questions of speaker’s recognition by voice are investigated in this dissertation. Speaker recognition systems, their evolution, problems of recognition, systems of features, questions of speaker modeling and matching used in text-independent and text-dependent speaker recognition are considered too. The text-independent speaker recognition system has been developed during this work. The Gaussian mixture model approach was used for speaker modeling and pattern matching. The automatic method for voice activity detection was proposed. This method is fast and does not require any additional actions from the user, such as indicating patterns of the speech signal and noise. The system of the features was proposed. This system consists of parameters of excitation source (glottal) and parameters of the vocal tract. The fundamental frequency was taken as an excitation source parameter and four formants with three antiformants were taken as parameters of the vocal tract. In order to equate dispersions of the formants and antiformants we propose to use them in mel-frequency scale. The standard mel-frequency cepstral coefficients (MFCC) for comparison of the results were implemented in the recognition system too. These features make baseline in speech and speaker recognition. The experiments of speaker recognition have shown that our proposed system of features outperformed standard mel-frequency cepstral coefficients. The equal error rate (EER) was equal to 5.17% using proposed features system compared to 5.86% that has been obtained using standard MFCC. Usage of the formants and antiformants in the mel-frequency scale improved recognition accuracy in comparison to usage of those in linear scale. The dimension of proposed system of features is lower and these features consist of 8 components, meanwhile standard features (MFCC) consist of 13 components. Therefore we need to implement 1.6 times less operations of calculation when we create speaker’s models or during the recognition, using proposed system of features compared to standard MFCC. The method of line spectral pairs was used for approximate calculation of formants and antiformants, because they are not always easy to be found directly. The method of estimation of initial GMM parameters was proposed too. Initial parameters of GMM are calculated after division of the initial space of the feature vectors into clusters. Statistical parameters of the clusters are calculated and assigned to corresponding Gaussian mixture as initial parameters. Vector quantization approach was proposed for this case. Other methods of forming of clusters are implemented in this system too: linear division of feature vectors into the clusters and random forming of the clusters. Experiments performed have shown that vector quantization approach provided best results of accuracy in this case and outperformed other methods of forming of clusters. Method of random forming was outperformed by 0.71% and method of linear division – by 0.88%, yet not reducing count of iterations necessary to build speaker’s model.	eng
dc.description.abstract	Disertacijoje nagrinėjami kalbančiojo atpažinimo pagal balsą klausimai. Aptartos kalbančiojo atpažinimo sistemos, jų raida, atpažinimo problemos, požymių sistemos įvairovė bei kalbančiojo modeliavimo ir požymių palyginimo metodai, naudojami nuo ištarto teksto nepriklausomame bei priklausomame kalbančiojo atpažinime. Darbo metu sukurta nuo ištarto teksto nepriklausanti kalbančiojo atpažinimo sistema. Kalbėtojų modelių kūrimui ir požymių palyginimui buvo panaudoti Gauso mišinių modeliai. Pasiūlytas automatinis vokalizuotų garsų išrinkimo (segmentavimo) metodas. Šis metodas yra greitai veikiantis ir nereikalaujantis iš vartotojo jokių papildomų veiksmų, tokių kaip kalbos signalo ir triukšmo pavyzdžių nurodymas. Pasiūlyta požymių vektorių sistema, susidedanti iš žadinimo signalo bei balso trakto parametrų. Kaip žadinimo signalo parametras, panaudotas žadinimo signalo pagrindinis dažnis, kaip balso trakto parametrai, panaudotos keturios formantės bei trys antiformantės. Siekiant suvienodinti žemesnių bei aukštesnių formančių ir antiformančių dispersijas, jas pasiūlėme skaičiuoti melų skalėje. Rezultatų palyginimui sistemoje buvo realizuoti standartiniai požymiai, naudojami kalbos bei asmens atpažinime – melų skalės kepstro koeficientai (MSKK). Atlikti kalbančiojo atpažinimo eksperimentai parodė, kad panaudojus pasiūlytą požymių sistemą buvo gauti geresni atpažinimo rezultatai, nei panaudojus standartinius požymius (MSKK). Gautas lygių klaidų lygis, panaudojant pasiūlytą požymių sistemą, – 5,17 %, tuo tarpu panaudojant MSKK – 5,86 %. Formančių skaičiavimas melų skalėje taip pat šiek tiek pagerino atpažinimo rezultatus, nei jų skaičiavimas tiesinėje skalėje. Pasiūlyta požymių sistema yra mažesnės dimensijos ir susideda iš 8 komponenčių, tuo tarpu standartiniai požymiai – MSKK susideda iš 13 komponenčių. Dėl šių priežasčių, kuriant kalbėtojų modelius bei atpažinimo metu naudojant pasiūlytą požymių sistemą, reikia atlikti maždaug 1,6 karto mažiau skaičiavimo operacijų. Formančių bei antiformančių įvertinimui panaudotas spektrinių porų metodas, kadangi ne visada galima jas tiesiogiai rasti. Pasiūlytas metodas pradiniam GMM parametrų vertinimui. Pradiniai GMM parametrai apskaičiuojami padalinus pradinę požymių vektorių aibę į klasterius bei radus atitinkamų klasterių statistinius parametrus. Dėl to klasterių formavimui pasiūlėme naudoti vektorinio kvantavimo algoritmą. Sistemoje realizuoti ir kiti klasterių formavimo metodai: tiesinis požymių vektorių dalijimas į klasterius bei atsitiktinis klasterių formavimas. Atlikus eksperimentus paaiškėjo, kad panaudojant vektorinio kvantavimo metodą buvo gauti geriausi atpažinimo rezultatai, lygių klaidų lygis sumažėjo 0,71 %, lyginant su atsitiktinio klasterių formavimo metodu, bei 0,88 %, lyginant su tiesinio dalijimo į klasterius metodu, tačiau nesumažino iteracijų skaičiaus, reikalingo tikslinant kalbėtojų modelius.	lit
dc.format	PDF
dc.format.extent	24 p.
dc.format.medium	tekstas / txt
dc.language.iso	eng
dc.rights	Laisvai prieinamas internete
dc.source.uri	https://talpykla.elaba.lt/elaba-fedora/objects/elaba:2070603/datastreams/ATTACHMENT_2070606/content
dc.source.uri	https://talpykla.elaba.lt/elaba-fedora/objects/elaba:2070603/datastreams/MAIN/content
dc.title	Speaker recognition by voice
dc.title.alternative	Asmens atpažinimas pagal balsą
dc.type	Daktaro disertacijos santrauka / Doctoral dissertation summary
dc.type.pubtype	ETD_DR_S - Daktaro disertacijos santrauka / Doctoral dissertation abstract
dc.contributor.institution	Vilniaus Gedimino technikos universitetas
dc.subject.researchfield	T 007 - Informatikos inžinerija / Informatics engineering
dc.subject.lt	Automatinė kalbančio atpažinimo sistema
dc.subject.lt	Gauso mišinių modeliai
dc.subject.lt	formantės
dc.subject.lt	antiformantės
dc.subject.lt	pagrindinis tonas
dc.subject.en	Automatic speaker recognition system
dc.subject.en	Gaussian mixture models
dc.subject.en	formants
dc.subject.en	antiformants
dc.subject.en	pitch
dc.publisher.name	Lithuanian Academic Libraries Network (LABT)
dc.publisher.city	Kaunas
dc.identifier.elaba	2070603

Files in this item

Name:: mii_dis_san_09_kamarauskas.pdf
Size:: 1.187Mb
Format:: PDF

View/Open

This item appears in the following Collection(s)

Daktaro disertacijos ir jų santraukos / Doctoral dissertations and their summaries [1694]

Show simple item record