• Lietuvių
    • English
  • Lietuvių 
    • Lietuvių
    • English
  • Prisijungti
Peržiūrėti įrašą 
  •   DSpace pagrindinis
  • Mokslinės publikacijos (PDB) / Scientific publications (PDB)
  • Moksliniai ir apžvalginiai straipsniai / Research and Review Articles
  • Straipsniai Web of Science ir/ar Scopus referuojamuose leidiniuose / Articles in Web of Science and/or Scopus indexed sources
  • Peržiūrėti įrašą
  •   DSpace pagrindinis
  • Mokslinės publikacijos (PDB) / Scientific publications (PDB)
  • Moksliniai ir apžvalginiai straipsniai / Research and Review Articles
  • Straipsniai Web of Science ir/ar Scopus referuojamuose leidiniuose / Articles in Web of Science and/or Scopus indexed sources
  • Peržiūrėti įrašą
JavaScript is disabled for your browser. Some features of this site may not work without it.

Unsupervised pre-training for voice activation

Thumbnail
Peržiūrėti/Atidaryti
Unsupervised Pre-Training for Voice Activation.pdf (368.8Kb)
Data
2020
Autorius
Kolesau, Aliaksei
Šešok, Dmitrij
Metaduomenys
Rodyti detalų aprašą
Santrauka
The problem of voice activation is to find a pre-defined word in the audio stream. Solutions such as keyword spotter “Ok, Google” for Android devices or keyword spotter “Alexa” for Amazon devices use tens of thousands to millions of keyword examples in training. In this paper, we explore the possibility of using pre-trained audio features to build voice activation with a small number of keyword examples. The contribution of this article consists of two parts. First, we investigate the dependence of the quality of the voice activation system on the number of examples in training for English and Russian and show that the use of pre-trained audio features, such as wav2vec, increases the accuracy of the system by up to 10% if only seven examples are available for each keyword during training. At the same time, the benefits of such features become less and disappear as the dataset size increases. Secondly, we prepare and provide for general use a dataset for training and testing voice activation for the Lithuanian language. We also provide training results on this dataset.
Paskelbimo data (metai)
2020
URI
https://etalpykla.vilniustech.lt/handle/123456789/151022
Kolekcijos
  • Straipsniai Web of Science ir/ar Scopus referuojamuose leidiniuose / Articles in Web of Science and/or Scopus indexed sources [7946]

 

 

Naršyti

Visame DSpaceRinkiniai ir kolekcijosPagal išleidimo datąAutoriaiAntraštėsTemos / Reikšminiai žodžiai InstitucijaFakultetasKatedra / institutasTipasŠaltinisLeidėjasTipas (PDB/ETD)Mokslo sritisStudijų kryptisVILNIUS TECH mokslinių tyrimų prioritetinės kryptys ir tematikosLietuvos sumanios specializacijosŠi kolekcijaPagal išleidimo datąAutoriaiAntraštėsTemos / Reikšminiai žodžiai InstitucijaFakultetasKatedra / institutasTipasŠaltinisLeidėjasTipas (PDB/ETD)Mokslo sritisStudijų kryptisVILNIUS TECH mokslinių tyrimų prioritetinės kryptys ir tematikosLietuvos sumanios specializacijos

Asmeninė paskyra

PrisijungtiRegistruotis