Development of isolated word recognition systems
Abstract
An isolated word recognition and segmentation system KAS was developed. System uses dynamic time warping method for word recognition. Original word endpoints detection method is implemented in recognition system. Endpoints are detected as change moments of the linear prediction model of the speech signal. Endpoint detection method and clustering based learning were proposed for isolated word recognition. It induced 10-19 % recognition accuracy increase. The word segmentation into phones method was proposed and implemented also. As in case of endpoint detection, segmentation is based on detection of change moments of the speech signal model. Two segmentation methods are implemented. The first one uses maximum likelihood criterion, the second is based on minimal prediction error estimate. Experimentally minimal prediction error method demonstrated higher performance and robustness to environmental noise - its error level was 14,5 % and was lower at a quarter than maximum likelihood method level. Isolated word recognition in phones was implemented joining segmentation and recognition processes. Sukurta pavienių žodžių atpažinimo ir segmentavimo sistema KAS (Kalbos Atpažinimas ir Segmentavimas). Žodžiams palyginti panaudotas dinaminio laiko skalės kraipymo metodas. Sukurtas automatinis žodžio ribų nustatymo metodas. Žodžio ribos aptinkamos kaip kalbos signalo savybių pasikeitimo momentai. Atpažinimo procese panaudojus pasiūlytąjį žodžio ribų nustatymo metodą bei klasterizavimu paremtą mokymą, atpažinimo tikslumas išaugo 10-19 %. Sistemoje taip pat realizuotas žodžių segmentavimas į garsus. Tam panaudotas kalbos signalo tiesinės prognozės modelio parametrų pasikeitimo momentų nustatymo principas. Sukurti du žodžių segmentavimo metodai, naudojantys skirtingus pasikeitimo momentų įvertinimo kriterijus: tikėtinumo funkcijos maksimizavimo ir prognozės klaidos minimizavimo. Eksperimentiniai tyrimai parodė, jog pastarasis metodas buvo atsparesnis triukšmui ir padarė beveik ketvirtadaliu mažiau klaidų nei pirmasis - 14,5 %. Apjungus segmentavimo ir atpažinimo procedūras, realizuotas pavienių žodžių atpažinimas garsais.