Įvairių žanrų lietuvių kalbos tekstų struktūros analizė
Abstract
Baigiamajame magistro darbe nagrinėjamas „Skip-gram“ metodas, skirtas atvaizduoti žodžius į vektorius, turint didelį kiekį nestruktūrizuotų duomenų. Turimi duomenys – „Delfi“ portalo straipsniai. Gauti žodžių vektoriai atvaizduojami į dvimatę plokštumą, naudojant pagrindinių komponenčių (PCA) ir stochastinio kaimynų įterpimo (t-SNE) metodus. Gautiems žodžių vektoriams pritaikytos paprastos aritmetinės operacijos, kuriomis ieškoma ar žodžių vektoriams teisingos tokios analogijos, kaip „vyras:jis“ lygiai taip pat kaip „moteris:ji“. Taip pat darbe nagrinėjami „Delfi“ straipsniai koduojami išlaikant sakinių tvarką, paliekami tik daiktavardžiai, veiksmažodžiai, o visos kitos kalbos dalys pakeičiamos vienu simboliu. Gautiems sakinių struktūrų kodams pritaikytas „Skip-gram“ metodas. Sakinių kodų dažnių pasiskirstymams tekste aprašyti taikomas Zipfo dėsnis. Darbo apimtis – 52 p. teksto be priedų, 21 iliustr., 17 lent., 24 bibliografiniai šaltiniai. The final master thesis examines the Skip-gram method for computing continuous vector representations of words from large amount of unstructured data. Analyzed data – articles of “Delfi”. Obtained word vectors are mapped into two-dimensional space using the Principal Components (PCA) and t-distributed Stochastic Neighbor Embedding (t-SNE) methods. Simple arithmetic operations are adapted to evaluate the quality of the word vectors. Also, articles of “Delfi” are coded while maintaining the order of sentences, leaving only nouns and verbs, all other parts of the language are replaced by one character. For obtained codes of sentences Skip- Gram method is applied. Zipf’s law is applied for describing the frequency distribution of sentence structures in the articles. Thesis consist of: 52 p. text without appendixes, 21 pictures, 17 tables, 24 bibliographical entries.