Improvement of learning-based methods for localization of multiple sound sources
Abstract
Sound source localization is an important topic in humanmachine interacting, teleconferencing, security systems, as well as autonomous driving and robotics. While current state-of-the-art sound source localization methods allow localization of a single or a small number of sound sources in moderately reverberant environments, it is known that their performance deteriorates when the reverberation time is increased. Moreover, the localization of multiple sound sources is an even more difficult task. Learning-based sound source localization methods recently gained interest as they tend to outperform the state-of-the-art methods in multiple source localization cases in reverberant environments. Nevertheless, this branch of sound source localization methods is not yet sufficiently investigated. Therefore, this thesis is aimed to the research of such methods. Both regression-based and classification-based methods for single and multiple sound source localization in two-dimensional and three-dimensional space are investigated. Supervised and semi-supervised training strategies are researched. A dataset of tetrahedral microphone array signals is collected for the evaluation of the performance of sound source localization methods. The dissertation consist of an introduction, three chapters and general conclusions. In the introduction, the dissertation problem is formulated, the object of the research is defined and the aim of the thesis is presented. Next, the objectives of the thesis are formulated. A brief presentation of the research methodology is provided, followed by the outline of the scientific novelty of the thesis and the practical value of the research findings. Finally, the defended statements are formulated. The first chapter reveals the state of the art of sound source localization using microphone arrays and networks. In the section, most important sound source localization methods are outlined, with an emphasis on learning-based source localization methods. In the second chapter presented are the learning-based sound source localization methods suggested by the author. Specifically, the multi-layer perceptron-based method for single sound source localization in two dimensions, the convolutional neural network-based methods for multiple sound source localization in two and three dimensions and the Graph-Regularized Neural Network-based single sound source localization method. In the third chapter, the experimental setups for evaluation of the performance of the original methods, presented in the second chapter, and the results of the experimentation are presented. In the final chapter, the discussion on the experimental results is presented and the conclusions are drawn. The results of the thesis were published in six scientific publications: three papers in the reviewed scientific journals and three papers in other journals. Additionally, the results of the research were presented in five conferences. Garso šaltinio lokalizavimas yra svarbus elementas žmogaus ir kompiuterio sąveikos, telekonferencijų, apsaugos sistemų, taip pat autonominio vairavimo ir robotikos srityse. Nors dabartiniai moderniausi garso šaltinių lokalizavimo metodai leidžia lokalizuoti vieną ar nedidelį skaičių garso šaltinių vidutiniškai aidžioje aplinkoje, yra žinoma, kad padidėjus aidėjimo laikui jų veikimas blogėja. Be to, kelių garso šaltinių lokalizavimas yra dar sudėtingesnė užduotis. Mokymusi grįsti garso šaltinio lokalizavimo metodai pastaruoju metu sulaukia vis didesnio susidomėjimo, nes jų veikimo tikslumas pranoksta pažangiausius klasikinius šaltinių lokalizavimo metodus daugelio šaltinių lokalizavimo atvejų aidžioje aplinkoje. Nepaisant to, ši garso šaltinio lokalizavimo metodų šaka dar nėra pakankamai ištirta. Todėl ši disertacija skirta mokymusi grįstų metodų tyrimams. Tiriami tiek regresija, tiek klasifikavimu pagrįsti metodai, skirti vieno ir kelių garso šaltinių lokalizavimui dvimatėje ir trimatėje erdvėje. Tiriamos prižiūrimo ir pusiau prižiūrimo mokymo strategijos. Garso šaltinio lokalizavimo metodų veikimui įvertinti surinktas tetraedrinės mikrofonų gardelės signalų duomenų rinkinys. Disertaciją sudaro įvadas, trys skyriai ir bendros išvados. Įvade suformuluojama disertacijos problema, apibrėžiamas tyrimo objektas ir pateikiamas darbo tikslas. Toliau suformuluoti baigiamojo darbo tikslai. Pateikiamas trumpas tyrimo metodikos pristatymas, po kurio aprašoma baigiamojo darbo mokslinė naujovė ir praktinė tyrimo išvadų vertė. Galiausiai suformuluojami ginami teiginiai. Disertaciją sudaro įvadas, trys skyriai ir bendros išvados. Pirmame skyriuje aprašoma garso šaltinio lokalizacijos pažangiausi metodai, kurie naudoja mikrofonų gardeles ir dirbtinius neuronų tinklus. Skyriuje aprašomi svarbiausi garso šaltinio lokalizavimo metodai, akcentuojant mokymusi grįstus garso šaltinio lokalizavimo metodus. Antrame skyriuje pateikiami autoriaus siūlomi mokymu pagrįsti garso šaltinių lokalizavimo metodai: daugiasluoksniu perceptronu pagrįstas vieno garso šaltinio lokalizavimo dvimatėje erdvėje metodas, sąsūkos neuronų tinklu pagrįstas metodas, skirtas daugelio garso šaltinių lokalizavimui dvimatėje erdvėje, ir grafu reguliarizuotu dirbtiniu neuronų tinklu pagrįstas vieno garso šaltinio lokalizavimo dvimatėje erdvėje metodas. Aptariami garso šaltinio lokalizavimo tikslumą įtakojantys veiksniai. Pristatomi akustiniai požymiai, kurie gali būti naudojami su mokymu grįstais garso šaltinio lokalizavimo metodais. Trečiajame skyriuje pateikiami metodų, aprašytų antrajame skyriuje, eksperimentinių tyrimų aprašymai ir rezultatai. Pristatomas tetraedrinių gardelių signalų duomenų rinkinys. Paskutiniame skyriuje pateikiamos bendrosios disertacijos išvados. Darbo rezultatai buvo paskelbti šešiose mokslinėse publikacijose: trijuose recenzuojamuose mokslo žurnaluose ir trijuose kituose leidiniuose. Be to, tyrimo rezultatai buvo pristatyti penkiose konferencijose.