• Lietuvių
    • English
  • English 
    • Lietuvių
    • English
  • Login
View Item 
  •   DSpace Home
  • Mokslinės publikacijos (PDB) / Scientific publications (PDB)
  • Moksliniai ir apžvalginiai straipsniai / Research and Review Articles
  • Straipsniai Web of Science ir/ar Scopus referuojamuose leidiniuose / Articles in Web of Science and/or Scopus indexed sources
  • View Item
  •   DSpace Home
  • Mokslinės publikacijos (PDB) / Scientific publications (PDB)
  • Moksliniai ir apžvalginiai straipsniai / Research and Review Articles
  • Straipsniai Web of Science ir/ar Scopus referuojamuose leidiniuose / Articles in Web of Science and/or Scopus indexed sources
  • View Item
JavaScript is disabled for your browser. Some features of this site may not work without it.

Speaker recognition using excitation source parameters

Thumbnail
View/Open
eee_Vol1_No107_55-58_Kamarauskas.pdf (1.139Mb)
Date
2011
Author
Kamarauskas, Juozas
Šalna, Bernardas
Metadata
Show full item record
Abstract
Excitation signal is used in speaker recognition. It corresponds to the frequency of oscillation of vocal cords and is one of the speaker's characteristics. Although this feature gives worse recognition results compared to the vocal tract parameters, but it is more robust to various distortions in the recording channels. As a result, pitch is commonly used in forensic investigations, where different recording channels is one of the main problems. Currently, the pitch distribution generally is modeled using histograms and calculating various distances or similarity measures between two histograms. However, pitch distribution is not Gaussian and view of the histograms and comparison results depend on the number of classes used. We model pitch distribution using Gaussian mixture models (GMM), and calculate similarity and distance measures between the GMM approximations of two comparative records. Best results were achieved using symmetric Kullback-Leibler distance.
 
Žadinimo signalas naudojamas kalbančiajam atpažinti. Jis atitinka balso stygų virpėjimo dažnį, ir tai yra viena iš kalbančiojo charakteristikų. Nors atpažinimo pagal tokį požymį rezultatai būna prastesni nei pagal balso trakto parametrus, tačiau šis metodas yra atsparesnis įvairiems įrašymo kanalų iškraipymams. Dėl to žadinimo signalo pagrindinis dažnis plačiai naudojamas teismo tyrimuose, kur skirtingi įrašymo kanalai yra viena iš pagrindinių problemų. Šiuo metu pagrindinio tono pasiskirstymas dažniausiai modeliuojamas naudojant histogramas bei skaičiuojant įvairius atstumus ar dviejų histogramų atitikimus. Tačiau pagrindinio tono pasiskirstymas nėra gausinis ir histogramų vaizdas bei palyginimo rezultatai priklauso nuo panaudoto klasių skaičiaus. Šiame darbe pagrindinio tono pasiskirstymui išreikšti naudojome Gauso mišinių modelius (GMM), o įrašams palyginti skaičiavome atstumus bei GMM aproksimacijų atitikimus. Geriausi rezultatai gauti naudojant Kullbacko ir Leiblerio atstumą.
 
Issue date (year)
2011
URI
https://etalpykla.vilniustech.lt/handle/123456789/129868
Collections
  • Straipsniai Web of Science ir/ar Scopus referuojamuose leidiniuose / Articles in Web of Science and/or Scopus indexed sources [7946]

 

 

Browse

All of DSpaceCommunities & CollectionsBy Issue DateAuthorsTitlesSubjects / KeywordsInstitutionFacultyDepartment / InstituteTypeSourcePublisherType (PDB/ETD)Research fieldStudy directionVILNIUS TECH research priorities and topicsLithuanian intelligent specializationThis CollectionBy Issue DateAuthorsTitlesSubjects / KeywordsInstitutionFacultyDepartment / InstituteTypeSourcePublisherType (PDB/ETD)Research fieldStudy directionVILNIUS TECH research priorities and topicsLithuanian intelligent specialization

My Account

LoginRegister