Show simple item record

dc.contributor.authorBružaitė, Neringa
dc.date.accessioned2023-09-18T09:07:23Z
dc.date.available2023-09-18T09:07:23Z
dc.identifier.urihttps://etalpykla.vilniustech.lt/handle/123456789/110355
dc.description.abstractBaigiamajame magistro darbe nagrinėjamas „Skip-gram“ metodas, skirtas atvaizduoti žodžius į vektorius, turint didelį kiekį nestruktūrizuotų duomenų. Turimi duomenys – „Delfi“ portalo straipsniai. Gauti žodžių vektoriai atvaizduojami į dvimatę plokštumą, naudojant pagrindinių komponenčių (PCA) ir stochastinio kaimynų įterpimo (t-SNE) metodus. Gautiems žodžių vektoriams pritaikytos paprastos aritmetinės operacijos, kuriomis ieškoma ar žodžių vektoriams teisingos tokios analogijos, kaip „vyras:jis“ lygiai taip pat kaip „moteris:ji“. Taip pat darbe nagrinėjami „Delfi“ straipsniai koduojami išlaikant sakinių tvarką, paliekami tik daiktavardžiai, veiksmažodžiai, o visos kitos kalbos dalys pakeičiamos vienu simboliu. Gautiems sakinių struktūrų kodams pritaikytas „Skip-gram“ metodas. Sakinių kodų dažnių pasiskirstymams tekste aprašyti taikomas Zipfo dėsnis. Darbo apimtis – 52 p. teksto be priedų, 21 iliustr., 17 lent., 24 bibliografiniai šaltiniai.lit
dc.description.abstractThe final master thesis examines the Skip-gram method for computing continuous vector representations of words from large amount of unstructured data. Analyzed data – articles of “Delfi”. Obtained word vectors are mapped into two-dimensional space using the Principal Components (PCA) and t-distributed Stochastic Neighbor Embedding (t-SNE) methods. Simple arithmetic operations are adapted to evaluate the quality of the word vectors. Also, articles of “Delfi” are coded while maintaining the order of sentences, leaving only nouns and verbs, all other parts of the language are replaced by one character. For obtained codes of sentences Skip- Gram method is applied. Zipf’s law is applied for describing the frequency distribution of sentence structures in the articles. Thesis consist of: 52 p. text without appendixes, 21 pictures, 17 tables, 24 bibliographical entries.eng
dc.formatPDF
dc.format.extent55 p.
dc.format.mediumtekstas / txt
dc.language.isolit
dc.rightsNeprieinamas
dc.source.urihttps://talpykla.elaba.lt/elaba-fedora/objects/elaba:28983481/datastreams/MAIN/content
dc.titleĮvairių žanrų lietuvių kalbos tekstų struktūros analizė
dc.title.alternativeThe structure analysis of different genres lithuanian language texts
dc.typeMagistro darbas / Master thesis
dcterms.references0
dc.type.pubtypeETD_MGR - Magistro darbas / Master thesis
dc.contributor.institutionVilniaus Gedimino technikos universitetas
dc.subject.researchfieldN 001 - Matematika / Mathematics
dc.subject.studydirectionA03 - Statistika / Statistics
dc.subject.ltSkip-gram
dc.subject.ltPCA
dc.subject.ltt-SNE
dc.subject.ltžodžių atvaizdžiai
dc.subject.ltZipfo dėsnis
dc.subject.enSkip-gram
dc.subject.enPCA
dc.subject.ent-SNE
dc.subject.enword representation
dc.subject.enZipf‘s law
dc.identifier.elaba28983481


Files in this item

Thumbnail

This item appears in the following Collection(s)

Show simple item record