Show simple item record

dc.contributor.authorDzisevič, Robert
dc.date.accessioned2023-09-18T09:09:06Z
dc.date.available2023-09-18T09:09:06Z
dc.identifier.urihttps://etalpykla.vilniustech.lt/handle/123456789/110619
dc.description.abstractŠiame darbe yra nagrinėjamas dirbtinio neuroninio tinklo modelio pritaikymas klasifikuojant mažos apimties tekstinius duomenis. Trumpo teksto klasifikacija yra viena iš natūralios kalbos apdorojimo užduočių. Šios užduoties tikslas – tekstą, pagal jo turinį, priskirti vienai iš kelių iš anksto žinomų kategorijų. Užduotį sudaro dvi dalys: tinkamų tekstinių duomenų požymių parinkimas ir klasifikavimo modelio parinkimas. Pirmai problemai išspręsti buvo išnagrinėti trys skirtingi tekstinių duomenų išskyrimo metodai (TF-IDF, TF-IDF LSA, TF-IDF LDA), kurių veiksmingumas buvo patikrintas atliekant lyginąmajį tyrimą naudojant tą patį neuroninio tinklo klasifikatorių. Tyrimo rezultatai parodė, kad TF-IDF metodu išgautos savybės geriausiai apibūdina tekstinius duomenis. Antrai problemai išspręsti buvo išnagrinėtas neuroninio tinklo modelio tikslumas, palyginus su kitais klasifikavimo modeliais. Visi klasifikavimo modeliai tarpusavyje buvo palyginti atliekant lyginąmąjį tyrimą esant įvairioms sąlygoms: kintant apdorojamų duomenų apimčiai, kintant galimų klasių skaičiui, kintant mokymo ir testavimo duomenų apimties santykiui, apdorojant skirtingų kalbų duomenis. Tyrimo rezultatai parodė, kad neuroninio tinklo klasifikatorius daugumoje atvejų pateikia geriausius rezultatus. Darbą sudaro 8 dalys: įvadas, klasifikacijos problema sistemų mokyme, klasifikavimo modeliai, požymių išskyrimas, požymių išskyrimo metodų palyginimas, klasifikavimo modelių palyginimas, rezultatai ir išvados, literatūros sąrašas. Darbo apimtis – 50 p. teksto be priedų, 19 ilustr., 5 lentelės, 56 bibliografiniai šaltiniai. Atskirai pridedami darbo priedai.lit
dc.description.abstractThis thesis analyses the application of an artificial neural network model in classification of short text. Classification of short text is one of many natural language processing tasks. The goal of this task is to assign the text to one of predefined categories based on its content. The task consists of two parts: text feature selection and classification model selection. For the first problem, three different text feature extraction methods were analysed (TF-IDF, TF-IDF LSA, TF-IDF LDA). The mentioned feature extraction methods were compared by measuring their performance using the same neural network classifier. The results show, that the TF-IDF feature extraction method holds the best results in capturing features which can best describe text data. For the second problem, the accuracy of a neural network model was analysed by comparing it with other classification models. During this research, different conditions were applied: when the amount of processing data changes, when the number of possible classes changes, when the amount of training and testing data changes, when text data of different languages is processed. The results show, that the neural network classifier in most cases outperforms other classifiers. Structure: introduction, classification problem in machine learning, classification models, feature extraction, comparison of different feature extraction methods, comparison of different classification models, conclusions and suggestions, references. Thesis consist of: 50 p. text without appendixes, 19 pictures, 5 tables, 56 bibliographic entries. Appendixes included.eng
dc.formatPDF
dc.format.extent50 p.
dc.format.mediumtekstas / txt
dc.language.isolit
dc.rightsPrieinamas tik institucijos intranete
dc.source.urihttps://talpykla.elaba.lt/elaba-fedora/objects/elaba:37895789/datastreams/MAIN/content
dc.source.urihttps://talpykla.elaba.lt/elaba-fedora/objects/elaba:37895789/datastreams/ATTACHMENT_37897288/content
dc.titleTrumpo teksto klasifikacija naudojant neuroninius tinklus
dc.title.alternativeClassification of short text using neural networks
dc.typeMagistro darbas / Master thesis
dcterms.references0
dc.type.pubtypeETD_MGR - Magistro darbas / Master thesis
dc.contributor.institutionVilniaus Gedimino technikos universitetas
dc.subject.researchfieldT 007 - Informatikos inžinerija / Informatics engineering
dc.subject.studydirectionB04 - Informatikos inžinerija / Informatics engineering
dc.subject.ltTeksto klasifikacija
dc.subject.ltnatūralios kalbos apdorojimas
dc.subject.ltsistemų mokymas
dc.subject.ltneuroniniai tinklai
dc.subject.lttekstinių požymių išskyrimas
dc.subject.enText classification
dc.subject.ennatural language processing
dc.subject.enmachine learning
dc.subject.enneural networks
dc.subject.entext feature extraction
dc.identifier.elaba37895789


Files in this item

Thumbnail
Thumbnail

This item appears in the following Collection(s)

Show simple item record