Neuroninio tinklo taikymas lietuviško teksto autorystei nustatyti
Abstract
Darbe sprendžiama lietuviško teksto autorystės nustatymo, naudojant dirbtinį neuroninį tinklą, problema. Atlikta su šia tema susijusios mokslinės literatūros analizė ir pristatyti užsienio bei lietuvių mokslininkų tiriamieji darbai. Pateikta programinės įrangos, tinkamos darbui su dirbtiniu neuroniniu tinklu, analizė. Aprašytas programinis kodas, adaptuojantis lietuvių kalbos tekstyną pasirinktai programinei įrangai. Pasiūlytas automatizuotas lietuviško teksto autorystės nustatymo metodas. Šio metodo pagrindinės sudedamosios dalys yra tekstynas, programinė įranga ir dirbtinis neuroninis tinklas. Bandymų duomenimis pasirinkti viešai publikuojami, moksliniams tyrimams pritaikyti lietuvių kalbos tekstynai. Jie transformuojami pasinaudojant anksčiau minėtu programiniu kodu. Duomenų rinkinių apdorojimui pasirinktas daugiasluoksnis perceptronas su atgalinio sklidimo mokymo algoritmu. Atlikti eksperimentiniai tyrimai siekiant nustatyti pasiūlyto metodo efektyvumą. Taip pat, bandyta išsiaiškinti teksto tipų, duomenų rinkinio pobūdžio ir apimties bei dirbtinio neuroninio tinklo nustatymų poveikį autorystės nustatymo rezultatams. Darbe aprašyti bandymai su nauja teksto transformacija – teksto lemų simbolių 5-grama. Šių bandymų tikslas – patvirtinti transformacijos tinkamumą naudoti lietuviško teksto autorystės nustatymo uždaviniuose. Galiausiai, įvertintas lietuviškų raidžių tekste poveikis tyrimams, vykdytiems su naujai pasiūlytu metodu. Gauti rezultatai apibendrinti pavaizduojant juos diagramose, apjungtose su duomenų lentelėmis. In this paper, there is solving the problem of authorship attribution of Lithuanian texts. Related researches of foreign and Lithuanian scientists are presented. Analysis of artificial neural network software is given. Java script is created for adapting Lithuanian texts to artificial neural network software. New method for determination of authorship of Lithuanian texts is proposed. The major parts of the method are corpus of Lithuanian texts, software adapted to artificial neural network and artificial neural network. For tests, public corpus of Lithuanian texts are using. Corpus are created special for researches of authorship identification. Multilayer perceptron with feedforward learning algorithm is used as artificial neural network model. Tests were performed for determination of new method effectiveness. Researches for determine text type, size, transformation and artificial neural network parameters influence to results were done. In this paper there is presented new transformation – lemmas of text divided to 5-grams. It is used for determination of authorship attribution of Lithuanian texts. Finally, specific Lithuanian letters influence to results is evaluated. All results are visualized in diagrams combined with data tables.