dc.contributor.author | Tinteris, Daumantas | |
dc.date.accessioned | 2023-09-18T08:47:20Z | |
dc.date.available | 2023-09-18T08:47:20Z | |
dc.date.issued | 2022 | |
dc.identifier.uri | https://etalpykla.vilniustech.lt/handle/123456789/107191 | |
dc.description.abstract | Baigiamajame magistro darbe nagrinėjama kalbos tekstų autorystės nustatymo tema. Tekstų lietuvių kalba autorystei nustatyti pasirinkti giliojo mokymosi tinklai: daugiasluoksnis perceptronas (MLP), konvoliuciniai neuronų tinklai (CNN), rekurentiniai neuronų tinklai (RNN), ilgos trumpalaikės atminties metodas (LSTM) ir autoenkoderiai. Tyrimo metu pasirinktieji metodai palyginti su kitais mašininio mokymosi metodais: atraminių vektorių klasifikatoriumi (SVM), k-artimiausių kaimynų algoritmu (KNN) ir Bajeso tikimybiniu klasifikatoriumi (Bayes). Kaip duomenys panaudojami lietuvių kalbos tekstai – 147 parlamentarų pasisakymai, kurių bendras skaičius siekė daugiau nei 110 tūkst. Metrikoms buvo pasirinktos n-gramos modelis. Tyrimo metu didžiausias gautasis lietuvių kalbos teksto autorystės nustatymo tikslumas siekė 74 %. Remiantis gautaisiais rezultatais, pateikiamos išvados ir rekomendacijos. Darbą sudaro: įvadas, tekstų autorystės identifikavimas, dirbtinio intelekto metodų analizė teksto autorystei identifikuoti, eksperimentinio tyrimo rezultatai, išvados, rekomendacijos ir literatūros sąrašas. Darbo apimtis – 46 p. teksto be priedų, 12 paveikslų, 5 lentelės, 37 bibliografiniai šaltiniai. | lit |
dc.description.abstract | The final master's thesis deals with the topic of authorship of language texts. The deep learning networks chosen for the authorship of English language texts are the Multilayer Perceptron (MLP), Convolutional Neural Networks (CNN), Recurrent Neural Networks (RNN), Long Short-Term Memory (LSTM) and autoencoders. The study compares the selected methods with other machine learning methods: support vector machine (SVM), k-nearest neighbours algorithm (CNN) and Bayesian probabilistic classifier (Bayes). The data used are Lithuanian language texts - 147 parliamentary speeches with a total number of more than 110,000. The n-gram model was chosen for the metrics. The highest accuracy obtained in the study was 74%. Based on the results, conclusions and recommendations are presented. The paper consists of: introduction, text authorship identification, analysis of artificial intelligence methods for text authorship identification, results of the experimental study, conclusions, recommendations and reference list. Thesis consists of 46 p. text without appendixes, 12 pictures, 5 tables, 37 bibliographical entries. Appendixes are included separately. | eng |
dc.format | PDF | |
dc.format.extent | 52 p. | |
dc.format.medium | tekstas / txt | |
dc.language.iso | lit | |
dc.rights | Laisvai prieinamas internete | |
dc.source.uri | https://talpykla.elaba.lt/elaba-fedora/objects/elaba:133434703/datastreams/MAIN/content | |
dc.title | Teksto autorystės modeliavimas ir identifikavimas | |
dc.title.alternative | Text authorship modeling and identification | |
dc.type | Magistro darbas / Master thesis | |
dcterms.references | 0 | |
dc.type.pubtype | ETD_MGR - Magistro darbas / Master thesis | |
dc.contributor.institution | Vilniaus Gedimino technikos universitetas | |
dc.subject.researchfield | T 007 - Informatikos inžinerija / Informatics engineering | |
dc.subject.studydirection | B01 - Informatika / Informatics | |
dc.subject.lt | autorystės identifikavimas | |
dc.subject.lt | dirbtinio intelekto metodai | |
dc.subject.lt | n-gramos | |
dc.subject.lt | analitinė tyrimų apžvalga | |
dc.subject.lt | lietuvių kalbos tekstai. | |
dc.subject.en | Authorship identification | |
dc.subject.en | artificial intelligence methods | |
dc.subject.en | n-grams | |
dc.subject.en | analytical research review | |
dc.subject.en | Lithuanian texts. | |
dc.identifier.elaba | 133434703 | |