• Lietuvių
    • English
  • English 
    • Lietuvių
    • English
  • Login
View Item 
  •   DSpace Home
  • Baigiamieji darbai (ETD) / Graduation works (ETD)
  • Magistrų darbai / Master theses
  • View Item
  •   DSpace Home
  • Baigiamieji darbai (ETD) / Graduation works (ETD)
  • Magistrų darbai / Master theses
  • View Item
JavaScript is disabled for your browser. Some features of this site may not work without it.

Įvairių žanrų lietuvių kalbos tekstų struktūros analizė

View/Open
Bruzaite_mag.pdf (1.658Mb)
Author
Bružaitė, Neringa
Metadata
Show full item record
Abstract
Baigiamajame magistro darbe nagrinėjamas „Skip-gram“ metodas, skirtas atvaizduoti žodžius į vektorius, turint didelį kiekį nestruktūrizuotų duomenų. Turimi duomenys – „Delfi“ portalo straipsniai. Gauti žodžių vektoriai atvaizduojami į dvimatę plokštumą, naudojant pagrindinių komponenčių (PCA) ir stochastinio kaimynų įterpimo (t-SNE) metodus. Gautiems žodžių vektoriams pritaikytos paprastos aritmetinės operacijos, kuriomis ieškoma ar žodžių vektoriams teisingos tokios analogijos, kaip „vyras:jis“ lygiai taip pat kaip „moteris:ji“. Taip pat darbe nagrinėjami „Delfi“ straipsniai koduojami išlaikant sakinių tvarką, paliekami tik daiktavardžiai, veiksmažodžiai, o visos kitos kalbos dalys pakeičiamos vienu simboliu. Gautiems sakinių struktūrų kodams pritaikytas „Skip-gram“ metodas. Sakinių kodų dažnių pasiskirstymams tekste aprašyti taikomas Zipfo dėsnis. Darbo apimtis – 52 p. teksto be priedų, 21 iliustr., 17 lent., 24 bibliografiniai šaltiniai.
 
The final master thesis examines the Skip-gram method for computing continuous vector representations of words from large amount of unstructured data. Analyzed data – articles of “Delfi”. Obtained word vectors are mapped into two-dimensional space using the Principal Components (PCA) and t-distributed Stochastic Neighbor Embedding (t-SNE) methods. Simple arithmetic operations are adapted to evaluate the quality of the word vectors. Also, articles of “Delfi” are coded while maintaining the order of sentences, leaving only nouns and verbs, all other parts of the language are replaced by one character. For obtained codes of sentences Skip- Gram method is applied. Zipf’s law is applied for describing the frequency distribution of sentence structures in the articles. Thesis consist of: 52 p. text without appendixes, 21 pictures, 17 tables, 24 bibliographical entries.
 
URI
https://etalpykla.vilniustech.lt/handle/123456789/110355
Collections
  • Magistrų darbai / Master theses [2734]

 

 

Browse

All of DSpaceCommunities & CollectionsBy Issue DateAuthorsTitlesSubjects / KeywordsInstitutionFacultyDepartment / InstituteTypeSourcePublisherType (PDB/ETD)Research fieldStudy directionVILNIUS TECH research priorities and topicsLithuanian intelligent specializationThis CollectionBy Issue DateAuthorsTitlesSubjects / KeywordsInstitutionFacultyDepartment / InstituteTypeSourcePublisherType (PDB/ETD)Research fieldStudy directionVILNIUS TECH research priorities and topicsLithuanian intelligent specialization

My Account

LoginRegister