Trumpo teksto klasifikacija naudojant neuroninius tinklus

Dzisevič, Robert

dc.contributor.author	Dzisevič, Robert
dc.date.accessioned	2023-09-18T09:09:06Z
dc.date.available	2023-09-18T09:09:06Z
dc.identifier.uri	https://etalpykla.vilniustech.lt/handle/123456789/110619
dc.description.abstract	Šiame darbe yra nagrinėjamas dirbtinio neuroninio tinklo modelio pritaikymas klasifikuojant mažos apimties tekstinius duomenis. Trumpo teksto klasifikacija yra viena iš natūralios kalbos apdorojimo užduočių. Šios užduoties tikslas – tekstą, pagal jo turinį, priskirti vienai iš kelių iš anksto žinomų kategorijų. Užduotį sudaro dvi dalys: tinkamų tekstinių duomenų požymių parinkimas ir klasifikavimo modelio parinkimas. Pirmai problemai išspręsti buvo išnagrinėti trys skirtingi tekstinių duomenų išskyrimo metodai (TF-IDF, TF-IDF LSA, TF-IDF LDA), kurių veiksmingumas buvo patikrintas atliekant lyginąmajį tyrimą naudojant tą patį neuroninio tinklo klasifikatorių. Tyrimo rezultatai parodė, kad TF-IDF metodu išgautos savybės geriausiai apibūdina tekstinius duomenis. Antrai problemai išspręsti buvo išnagrinėtas neuroninio tinklo modelio tikslumas, palyginus su kitais klasifikavimo modeliais. Visi klasifikavimo modeliai tarpusavyje buvo palyginti atliekant lyginąmąjį tyrimą esant įvairioms sąlygoms: kintant apdorojamų duomenų apimčiai, kintant galimų klasių skaičiui, kintant mokymo ir testavimo duomenų apimties santykiui, apdorojant skirtingų kalbų duomenis. Tyrimo rezultatai parodė, kad neuroninio tinklo klasifikatorius daugumoje atvejų pateikia geriausius rezultatus. Darbą sudaro 8 dalys: įvadas, klasifikacijos problema sistemų mokyme, klasifikavimo modeliai, požymių išskyrimas, požymių išskyrimo metodų palyginimas, klasifikavimo modelių palyginimas, rezultatai ir išvados, literatūros sąrašas. Darbo apimtis – 50 p. teksto be priedų, 19 ilustr., 5 lentelės, 56 bibliografiniai šaltiniai. Atskirai pridedami darbo priedai.	lit
dc.description.abstract	This thesis analyses the application of an artificial neural network model in classification of short text. Classification of short text is one of many natural language processing tasks. The goal of this task is to assign the text to one of predefined categories based on its content. The task consists of two parts: text feature selection and classification model selection. For the first problem, three different text feature extraction methods were analysed (TF-IDF, TF-IDF LSA, TF-IDF LDA). The mentioned feature extraction methods were compared by measuring their performance using the same neural network classifier. The results show, that the TF-IDF feature extraction method holds the best results in capturing features which can best describe text data. For the second problem, the accuracy of a neural network model was analysed by comparing it with other classification models. During this research, different conditions were applied: when the amount of processing data changes, when the number of possible classes changes, when the amount of training and testing data changes, when text data of different languages is processed. The results show, that the neural network classifier in most cases outperforms other classifiers. Structure: introduction, classification problem in machine learning, classification models, feature extraction, comparison of different feature extraction methods, comparison of different classification models, conclusions and suggestions, references. Thesis consist of: 50 p. text without appendixes, 19 pictures, 5 tables, 56 bibliographic entries. Appendixes included.	eng
dc.format	PDF
dc.format.extent	50 p.
dc.format.medium	tekstas / txt
dc.language.iso	lit
dc.rights	Prieinamas tik institucijos intranete
dc.source.uri	https://talpykla.elaba.lt/elaba-fedora/objects/elaba:37895789/datastreams/MAIN/content
dc.source.uri	https://talpykla.elaba.lt/elaba-fedora/objects/elaba:37895789/datastreams/ATTACHMENT_37897288/content
dc.title	Trumpo teksto klasifikacija naudojant neuroninius tinklus
dc.title.alternative	Classification of short text using neural networks
dc.type	Magistro darbas / Master thesis
dcterms.references	0
dc.type.pubtype	ETD_MGR - Magistro darbas / Master thesis
dc.contributor.institution	Vilniaus Gedimino technikos universitetas
dc.subject.researchfield	T 007 - Informatikos inžinerija / Informatics engineering
dc.subject.studydirection	B04 - Informatikos inžinerija / Informatics engineering
dc.subject.lt	Teksto klasifikacija
dc.subject.lt	natūralios kalbos apdorojimas
dc.subject.lt	sistemų mokymas
dc.subject.lt	neuroniniai tinklai
dc.subject.lt	tekstinių požymių išskyrimas
dc.subject.en	Text classification
dc.subject.en	natural language processing
dc.subject.en	machine learning
dc.subject.en	neural networks
dc.subject.en	text feature extraction
dc.identifier.elaba	37895789

Files in this item

Name:: Robert_Dzisevic.pdf
Size:: 1.583Mb
Format:: PDF

View/Open

Name:: Robert_Dzisevic_Priedai.pdf
Size:: 365.9Kb
Format:: PDF

View/Open

This item appears in the following Collection(s)

Magistrų darbai / Master theses [2734]

Show simple item record