Show simple item record

dc.contributor.authorBružaitė, Neringa
dc.contributor.authorRekašius, Tomas
dc.date.accessioned2023-09-18T16:52:40Z
dc.date.available2023-09-18T16:52:40Z
dc.date.issued2016
dc.identifier.issn1392-642X
dc.identifier.other(BIS)VGT02-000033420
dc.identifier.urihttps://etalpykla.vilniustech.lt/handle/123456789/117455
dc.description.abstractDarbe nagrinejami skirtingų autorių ir skirtingų žanrų tekstai, parašyti lietuvių kalba. Pagrindines mus dominančios tekstų savybes – žodžių skaičius, teksto žodyną sudarančių skirtingų žodžių skaičius ir žodžių dažniai. Žodžių dažnių pasiskirstymui tekste aprašyti taikomas struktūrinis skirstinys ir Zipfo dėsnis. Akivaizdu, kad bet kokio teksto leksinė įvairovė nusako jame vartojamų žodžių žodynas. Pademonstruota, kad redukuotame žodyne esančios informacijos užtenka darbe nagrinėtiems tekstams suskirstyti į grupes pagal žanrus ir autorius naudojant hierarchinio klasterizavimo metodą. Šiuo atveju atstumai tarp klasterių matuojami naudojant Jaccardo atstumo matą, o klasteriai apjungiami naudojant Wardo metodą.lit
dc.description.abstractThe paper examines Lithuanian texts of different authors and genres. The main points of interest – the number of words, the number of different words and word frequencies. Structural type distribution and Zipf’s law are applied for describing the frequency distribution of words in the text. It is obvious that the lexical diversity of any text can be defined by different words that are used in the text, also called vocabulary. It is shown that the information contained in a reduced vocabulary is enough for dividing the texts analyzed in this article into groups by genre and author using a hierarchical clustering method. In this case, distances between clusters are measured using the Jaccard distance measure, and clusters are aggregated using the Ward method.eng
dc.formatPDF
dc.format.extentp. 61-69
dc.format.mediumtekstas / txt
dc.language.isolit
dc.relation.isreferencedbyDOAJ
dc.relation.isreferencedbyIndex Copernicus
dc.relation.isreferencedbyBusiness Source Complete
dc.source.urihttps://doi.org/10.15388/LJS.2016.13868
dc.subjectFM03 - Fizinių, technologinių ir ekonominių procesų matematiniai modeliai ir metodai / Mathematical models and methods of physical, technological and economic processes
dc.titleŽodžių dažnių pasiskirstymo analizė skirtingų žanrų lietuvių kalbos tekstuose
dc.typeStraipsnis kitoje DB / Article in other DB
dcterms.licenseCreative Commons – Attribution – 4.0 International
dcterms.references11
dc.type.pubtypeS3 - Straipsnis kitoje DB / Article in other DB
dc.contributor.institutionVilniaus Gedimino technikos universitetas
dc.contributor.facultyFundamentinių mokslų fakultetas / Faculty of Fundamental Sciences
dc.subject.researchfieldN 001 - Matematika / Mathematics
dc.subject.researchfieldH 004 - Filologija / Philology
dc.subject.ltspecializationsL104 - Nauji gamybos procesai, medžiagos ir technologijos / New production processes, materials and technologies
dc.subject.ltŽodžių dažniai
dc.subject.ltStruktūrinis skirstinys
dc.subject.ltZipfo dėsnis
dc.subject.ltHierarchinis klasterizavimas
dc.subject.ltJaccardo atstumas
dc.subject.ltWardo metodas
dc.subject.enWord frequencies
dc.subject.enStructural distribution
dc.subject.enZipf’s law
dc.subject.enHierarchical clustering
dc.subject.enJaccard distance
dc.subject.enWard method
dcterms.sourcetitleLithuanian Journal of Statistics = Lietuvos statistikos darbai
dc.description.issueno. 1
dc.description.volumeVol. 55
dc.publisher.nameLietuvos statistikų sąjunga; Lietuvos Statistikos departamentas
dc.publisher.cityVilnius
dc.identifier.doi10.15388/LJS.2016.13868
dc.identifier.elaba20278898


Files in this item

FilesSizeFormatView

There are no files associated with this item.

This item appears in the following Collection(s)

Show simple item record