dc.contributor.author | Vykertaitė, Augustė | |
dc.date.accessioned | 2023-09-18T09:10:20Z | |
dc.date.available | 2023-09-18T09:10:20Z | |
dc.identifier.uri | https://etalpykla.vilniustech.lt/handle/123456789/110780 | |
dc.description.abstract | In this master’s thesis scientific articles of Web of Science category “Statistics & Probability”, published in 1990-2019, are collected and observed. Applying latent Dirichlet allocation model latent (hidden) topics of the articles are inferred. Using titles and abstracts from the articles, text data pre-processing applying different methodologies is performed and from relevant keywords vocabulary for the model is formed. Also, model implementation methodologies are reviewed and options defining hyperparamters for the model are discussed. Modeling and data applicability concerns are reviewed and a practical approach revealing good quality topics is proposed. Using the proposed approach more topics describing scientific articles than using regular procedure are inferred. To evaluate popularity of the topic, for each topic Mann-Kendall trend test is applied and Sen’s slope is evaluated. Structure: introduction, theoretical framework, execution, results, conclusions, references. Thesis consists of 57 p. text without appendices, 19 figures, 13 tables, 47 bibliographical entries. Appendices are provided at end of the thesis. | eng |
dc.description.abstract | Baigiamajame magistro darbe surenkami ir nagrinėjami Web of Science kategorijos „Statistics & Probability“ moksliniai straipsniai, publikuoti 1990-ais - 2019-ais metais. Taikant latentinį Dirichlė paskirstymo modelį atskleidžiamos mokslinių straipsnių latentinės (paslėptos) temos. Pasinaudojant straipsnių pavadinimais ir santraukomis, taikant įvairias metodologijas atliekamas tekstinių duomenų paruošimas ir iš gautų raktinių žodžių suformuojamas modeliui naudojamas žodynas. Taip pat apžvelgiami modelio taikymo metodai, aptariami modelio parametrų pasirinkimo variantai. Apžvelgiami klausimai, susiję su modeliavimu ir su duomenų modeliui pritaikomumu, pasiūlomas praktinis metodas kokybiškų temų atskleidimui. Taikant šį praktinį metodą atskleidžiama daugiau, negu taikant reguliarų metodą, mokslinius straipsnius nusakančių temų. Temos populiarumui vertinti, kiekvienai temai taikomas Mann-Kendall trendo testas ir įvertinamas Seno paramteras. Darbą sudaro 6 dalys: įvadas, teorinė dalis, praktinė dalis, rezultatai, išvados, literatūros sąrašas. Darbo apimtis: 57 p. teksto be priedų, 19 paveikslų, 13 lentelių, 47 šaltiniai. Priedai pateikti darbo pabaigoje. | lit |
dc.format | PDF | |
dc.format.extent | 130 p. | |
dc.format.medium | tekstas / txt | |
dc.language.iso | eng | |
dc.rights | Laisvai prieinamas internete | |
dc.source.uri | https://talpykla.elaba.lt/elaba-fedora/objects/elaba:64160523/datastreams/MAIN/content | |
dc.title | Statistical Analysis of Scientometric Data | |
dc.title.alternative | Mokslometrinių duomenų statistinė analizė | |
dc.type | Magistro darbas / Master thesis | |
dcterms.references | 0 | |
dc.type.pubtype | ETD_MGR - Magistro darbas / Master thesis | |
dc.contributor.institution | Vilniaus Gedimino technikos universitetas | |
dc.subject.researchfield | N 001 - Matematika / Mathematics | |
dc.subject.studydirection | A03 - Statistika / Statistics | |
dc.subject.lt | latentinis Dirichlė paskirstymo modelis | |
dc.subject.lt | temų modeliavimas | |
dc.subject.lt | mokslometriniai duomenys | |
dc.subject.en | latent Dirichlet allocation model | |
dc.subject.en | topic modeling | |
dc.subject.en | scientometrics | |
dc.identifier.elaba | 64160523 | |