dc.contributor.author | Bružaitė, Neringa | |
dc.contributor.author | Rekašius, Tomas | |
dc.date.accessioned | 2023-09-18T16:52:40Z | |
dc.date.available | 2023-09-18T16:52:40Z | |
dc.date.issued | 2016 | |
dc.identifier.issn | 1392-642X | |
dc.identifier.other | (BIS)VGT02-000033420 | |
dc.identifier.uri | https://etalpykla.vilniustech.lt/handle/123456789/117455 | |
dc.description.abstract | Darbe nagrinejami skirtingų autorių ir skirtingų žanrų tekstai, parašyti lietuvių kalba. Pagrindines mus dominančios tekstų savybes – žodžių skaičius, teksto žodyną sudarančių skirtingų žodžių skaičius ir žodžių dažniai. Žodžių dažnių pasiskirstymui tekste aprašyti taikomas struktūrinis skirstinys ir Zipfo dėsnis. Akivaizdu, kad bet kokio teksto leksinė įvairovė nusako jame vartojamų žodžių žodynas. Pademonstruota, kad redukuotame žodyne esančios informacijos užtenka darbe nagrinėtiems tekstams suskirstyti į grupes pagal žanrus ir autorius naudojant hierarchinio klasterizavimo metodą. Šiuo atveju atstumai tarp klasterių matuojami naudojant Jaccardo atstumo matą, o klasteriai apjungiami naudojant Wardo metodą. | lit |
dc.description.abstract | The paper examines Lithuanian texts of different authors and genres. The main points of interest – the number of words, the number of different words and word frequencies. Structural type distribution and Zipf’s law are applied for describing the frequency distribution of words in the text. It is obvious that the lexical diversity of any text can be defined by different words that are used in the text, also called vocabulary. It is shown that the information contained in a reduced vocabulary is enough for dividing the texts analyzed in this article into groups by genre and author using a hierarchical clustering method. In this case, distances between clusters are measured using the Jaccard distance measure, and clusters are aggregated using the Ward method. | eng |
dc.format | PDF | |
dc.format.extent | p. 61-69 | |
dc.format.medium | tekstas / txt | |
dc.language.iso | lit | |
dc.relation.isreferencedby | DOAJ | |
dc.relation.isreferencedby | Index Copernicus | |
dc.relation.isreferencedby | Business Source Complete | |
dc.source.uri | https://doi.org/10.15388/LJS.2016.13868 | |
dc.subject | FM03 - Fizinių, technologinių ir ekonominių procesų matematiniai modeliai ir metodai / Mathematical models and methods of physical, technological and economic processes | |
dc.title | Žodžių dažnių pasiskirstymo analizė skirtingų žanrų lietuvių kalbos tekstuose | |
dc.type | Straipsnis kitoje DB / Article in other DB | |
dcterms.license | Creative Commons – Attribution – 4.0 International | |
dcterms.references | 11 | |
dc.type.pubtype | S3 - Straipsnis kitoje DB / Article in other DB | |
dc.contributor.institution | Vilniaus Gedimino technikos universitetas | |
dc.contributor.faculty | Fundamentinių mokslų fakultetas / Faculty of Fundamental Sciences | |
dc.subject.researchfield | N 001 - Matematika / Mathematics | |
dc.subject.researchfield | H 004 - Filologija / Philology | |
dc.subject.ltspecializations | L104 - Nauji gamybos procesai, medžiagos ir technologijos / New production processes, materials and technologies | |
dc.subject.lt | Žodžių dažniai | |
dc.subject.lt | Struktūrinis skirstinys | |
dc.subject.lt | Zipfo dėsnis | |
dc.subject.lt | Hierarchinis klasterizavimas | |
dc.subject.lt | Jaccardo atstumas | |
dc.subject.lt | Wardo metodas | |
dc.subject.en | Word frequencies | |
dc.subject.en | Structural distribution | |
dc.subject.en | Zipf’s law | |
dc.subject.en | Hierarchical clustering | |
dc.subject.en | Jaccard distance | |
dc.subject.en | Ward method | |
dcterms.sourcetitle | Lithuanian Journal of Statistics = Lietuvos statistikos darbai | |
dc.description.issue | no. 1 | |
dc.description.volume | Vol. 55 | |
dc.publisher.name | Lietuvos statistikų sąjunga; Lietuvos Statistikos departamentas | |
dc.publisher.city | Vilnius | |
dc.identifier.doi | 10.15388/LJS.2016.13868 | |
dc.identifier.elaba | 20278898 | |