Kalbos dalių pasiskirstymo lietuviškuose tekstuose analizė ir prognozė

Lapėnaitė-Gedvilė, Monika

Peržiūrėti/Atidaryti

Kalbos dalių pasiskirstymo lietuviškuose tekstuose analizė ir prognozė2.pdf (1.483Mb)

Data

2014

Autorius

Lapėnaitė-Gedvilė, Monika

Metaduomenys

Rodyti detalų aprašą

Santrauka

Baigiamajame magistro darbe yra nagrinėjami tokie klausimai: ar naudojantis statistine informacija apie dažnas žodžio formas galima prognozuoti žodžio formų su tam tikromis savybėmis pasitaikymo (lietuviškame) tekste dažnius, kokiu tikslumu, kaip tai priklauso nuo teksto autoriaus? Darbe apžvelgti ankstesnių mokslinių tyrimų rezultatai. Siekiant išsiaiškinti atrinktų žymeklių tinkamumą linksniuojamų kalbos dalių prognozavimui bei jų ryšį su autoriais, atlikta pirminė statistinė ir koreliacinė analizė bei remtasi apibendrintų tiesinių modelių teorija. Sudaryti logistinės ir Puasono regresijų modeliai ir įvertintas jų tinkamumas trims reprezentatyviausioms kalbos dalių grupėms. Išnagrinėjus teorinius ir praktinius baigiamojo darbo aspektus, pateikiamos išvados ir rekomendacijos. Tyrime naudojami mokykloms skirti suskaitmeninti lietuvių grožinės literatūros kūriniai. Skaičiavimai atlikti su paketu R. Darbą sudaro 6 dalys: įvadas, ankstesnių mokslinių tyrimų apžvalga, analitinė – metodinė dalis, eksperimentinė – tiriamoji dalis, išvados ir rekomendacijos, literatūros sąrašas. Darbo apimtis – 71 p. teksto be priedų, 9 pav., 33 lent., 27 bibliografiniai šaltiniai. Atskirai pridedami darbo priedai.

In the master thesis the following problems are considered: if it is possible to predict the frequency of occurrences of word forms with specific properties in Lithuanian texts using statistical information about frequent word forms, to what accuracy and how it depends on authors? Results of previous studies are outlined. In order to ascertain the suitability of the selected markers for prediction of inflective parts of speech and relations of the markers with authors, primary statistical analysis and correlation analysis have been performed and generalized linear models have been applied. Logistic and Poisson regressions models are composed for three the most representative groups of parts of speech and suitability of these models are assessed. After the examination of the practical and theoretical aspects, the conclusions and recommendations have been presented. Lithuanian digitized literary works for schools are used in the study. Calculations are performed with R. Thesis consists of 6 parts: introduction, review of previous studies, analytical - methodical part, experimental - research part, conclusions and suggestions, references. Thesis consists of: 71 p. text without appendixes, 9 pictures, 33 tables, 27 bibliographical entries. Appendixes included.

Paskelbimo data (metai)

2014

URI

https://etalpykla.vilniustech.lt/handle/123456789/109546

Kolekcijos

Magistrų darbai / Master theses [2734]