Show simple item record

dc.contributor.authorTinteris, Daumantas
dc.date.accessioned2023-09-18T08:47:20Z
dc.date.available2023-09-18T08:47:20Z
dc.date.issued2022
dc.identifier.urihttps://etalpykla.vilniustech.lt/handle/123456789/107191
dc.description.abstractBaigiamajame magistro darbe nagrinėjama kalbos tekstų autorystės nustatymo tema. Tekstų lietuvių kalba autorystei nustatyti pasirinkti giliojo mokymosi tinklai: daugiasluoksnis perceptronas (MLP), konvoliuciniai neuronų tinklai (CNN), rekurentiniai neuronų tinklai (RNN), ilgos trumpalaikės atminties metodas (LSTM) ir autoenkoderiai. Tyrimo metu pasirinktieji metodai palyginti su kitais mašininio mokymosi metodais: atraminių vektorių klasifikatoriumi (SVM), k-artimiausių kaimynų algoritmu (KNN) ir Bajeso tikimybiniu klasifikatoriumi (Bayes). Kaip duomenys panaudojami lietuvių kalbos tekstai – 147 parlamentarų pasisakymai, kurių bendras skaičius siekė daugiau nei 110 tūkst. Metrikoms buvo pasirinktos n-gramos modelis. Tyrimo metu didžiausias gautasis lietuvių kalbos teksto autorystės nustatymo tikslumas siekė 74 %. Remiantis gautaisiais rezultatais, pateikiamos išvados ir rekomendacijos. Darbą sudaro: įvadas, tekstų autorystės identifikavimas, dirbtinio intelekto metodų analizė teksto autorystei identifikuoti, eksperimentinio tyrimo rezultatai, išvados, rekomendacijos ir literatūros sąrašas. Darbo apimtis – 46 p. teksto be priedų, 12 paveikslų, 5 lentelės, 37 bibliografiniai šaltiniai.lit
dc.description.abstractThe final master's thesis deals with the topic of authorship of language texts. The deep learning networks chosen for the authorship of English language texts are the Multilayer Perceptron (MLP), Convolutional Neural Networks (CNN), Recurrent Neural Networks (RNN), Long Short-Term Memory (LSTM) and autoencoders. The study compares the selected methods with other machine learning methods: support vector machine (SVM), k-nearest neighbours algorithm (CNN) and Bayesian probabilistic classifier (Bayes). The data used are Lithuanian language texts - 147 parliamentary speeches with a total number of more than 110,000. The n-gram model was chosen for the metrics. The highest accuracy obtained in the study was 74%. Based on the results, conclusions and recommendations are presented. The paper consists of: introduction, text authorship identification, analysis of artificial intelligence methods for text authorship identification, results of the experimental study, conclusions, recommendations and reference list. Thesis consists of 46 p. text without appendixes, 12 pictures, 5 tables, 37 bibliographical entries. Appendixes are included separately.eng
dc.formatPDF
dc.format.extent52 p.
dc.format.mediumtekstas / txt
dc.language.isolit
dc.rightsLaisvai prieinamas internete
dc.source.urihttps://talpykla.elaba.lt/elaba-fedora/objects/elaba:133434703/datastreams/MAIN/content
dc.titleTeksto autorystės modeliavimas ir identifikavimas
dc.title.alternativeText authorship modeling and identification
dc.typeMagistro darbas / Master thesis
dcterms.references0
dc.type.pubtypeETD_MGR - Magistro darbas / Master thesis
dc.contributor.institutionVilniaus Gedimino technikos universitetas
dc.subject.researchfieldT 007 - Informatikos inžinerija / Informatics engineering
dc.subject.studydirectionB01 - Informatika / Informatics
dc.subject.ltautorystės identifikavimas
dc.subject.ltdirbtinio intelekto metodai
dc.subject.ltn-gramos
dc.subject.ltanalitinė tyrimų apžvalga
dc.subject.ltlietuvių kalbos tekstai.
dc.subject.enAuthorship identification
dc.subject.enartificial intelligence methods
dc.subject.enn-grams
dc.subject.enanalytical research review
dc.subject.enLithuanian texts.
dc.identifier.elaba133434703


Files in this item

Thumbnail

This item appears in the following Collection(s)

Show simple item record