Teksto autorystės modeliavimas ir identifikavimas

Tinteris, Daumantas

dc.contributor.author	Tinteris, Daumantas
dc.date.accessioned	2023-09-18T08:47:20Z
dc.date.available	2023-09-18T08:47:20Z
dc.date.issued	2022
dc.identifier.uri	https://etalpykla.vilniustech.lt/handle/123456789/107191
dc.description.abstract	Baigiamajame magistro darbe nagrinėjama kalbos tekstų autorystės nustatymo tema. Tekstų lietuvių kalba autorystei nustatyti pasirinkti giliojo mokymosi tinklai: daugiasluoksnis perceptronas (MLP), konvoliuciniai neuronų tinklai (CNN), rekurentiniai neuronų tinklai (RNN), ilgos trumpalaikės atminties metodas (LSTM) ir autoenkoderiai. Tyrimo metu pasirinktieji metodai palyginti su kitais mašininio mokymosi metodais: atraminių vektorių klasifikatoriumi (SVM), k-artimiausių kaimynų algoritmu (KNN) ir Bajeso tikimybiniu klasifikatoriumi (Bayes). Kaip duomenys panaudojami lietuvių kalbos tekstai – 147 parlamentarų pasisakymai, kurių bendras skaičius siekė daugiau nei 110 tūkst. Metrikoms buvo pasirinktos n-gramos modelis. Tyrimo metu didžiausias gautasis lietuvių kalbos teksto autorystės nustatymo tikslumas siekė 74 %. Remiantis gautaisiais rezultatais, pateikiamos išvados ir rekomendacijos. Darbą sudaro: įvadas, tekstų autorystės identifikavimas, dirbtinio intelekto metodų analizė teksto autorystei identifikuoti, eksperimentinio tyrimo rezultatai, išvados, rekomendacijos ir literatūros sąrašas. Darbo apimtis – 46 p. teksto be priedų, 12 paveikslų, 5 lentelės, 37 bibliografiniai šaltiniai.	lit
dc.description.abstract	The final master's thesis deals with the topic of authorship of language texts. The deep learning networks chosen for the authorship of English language texts are the Multilayer Perceptron (MLP), Convolutional Neural Networks (CNN), Recurrent Neural Networks (RNN), Long Short-Term Memory (LSTM) and autoencoders. The study compares the selected methods with other machine learning methods: support vector machine (SVM), k-nearest neighbours algorithm (CNN) and Bayesian probabilistic classifier (Bayes). The data used are Lithuanian language texts - 147 parliamentary speeches with a total number of more than 110,000. The n-gram model was chosen for the metrics. The highest accuracy obtained in the study was 74%. Based on the results, conclusions and recommendations are presented. The paper consists of: introduction, text authorship identification, analysis of artificial intelligence methods for text authorship identification, results of the experimental study, conclusions, recommendations and reference list. Thesis consists of 46 p. text without appendixes, 12 pictures, 5 tables, 37 bibliographical entries. Appendixes are included separately.	eng
dc.format	PDF
dc.format.extent	52 p.
dc.format.medium	tekstas / txt
dc.language.iso	lit
dc.rights	Laisvai prieinamas internete
dc.source.uri	https://talpykla.elaba.lt/elaba-fedora/objects/elaba:133434703/datastreams/MAIN/content
dc.title	Teksto autorystės modeliavimas ir identifikavimas
dc.title.alternative	Text authorship modeling and identification
dc.type	Magistro darbas / Master thesis
dcterms.references	0
dc.type.pubtype	ETD_MGR - Magistro darbas / Master thesis
dc.contributor.institution	Vilniaus Gedimino technikos universitetas
dc.subject.researchfield	T 007 - Informatikos inžinerija / Informatics engineering
dc.subject.studydirection	B01 - Informatika / Informatics
dc.subject.lt	autorystės identifikavimas
dc.subject.lt	dirbtinio intelekto metodai
dc.subject.lt	n-gramos
dc.subject.lt	analitinė tyrimų apžvalga
dc.subject.lt	lietuvių kalbos tekstai.
dc.subject.en	Authorship identification
dc.subject.en	artificial intelligence methods
dc.subject.en	n-grams
dc.subject.en	analytical research review
dc.subject.en	Lithuanian texts.
dc.identifier.elaba	133434703

Files in this item

Name:: Daumantas_Tinteris.pdf
Size:: 1.646Mb
Format:: PDF

View/Open

This item appears in the following Collection(s)

Magistrų darbai / Master theses [2734]

Show simple item record