Bibliografinių duomenų statistinė analizė
Abstract
Bibliometrija yra daugiadalykė mokslo sritis, tirianti mokslo ir dokumentų bibliografines charakteristikas statistiniais ir matematiniais metodais. Baigiamojo magistro darbo tikslas – praplėsti bibliometrinės analizės tyrimų sritį, pasiūlant metodiką, kuri apima bibliografinių duomenų paruošimą, tekstinę duomenų analizę, grafų teoriją bei klasterizavimo modelio kūrimą. Teorinėje darbo dalyje apžvelgiama ir pristatoma nagrinėta literatūra, susijusi su bibliografine analize. Šioje dalyje taip pat nagrinėjamos pagrindinės grafų teorijos sąvokos, tinklų analizė ir jų vizualizavimas, bendruomenių radimas taikant Girvan – Newman algoritmą, k-vidurkių klasterizavimo modelio kūrimo procesas ir tekstinė duomenų analizė. Praktinėje darbo dalyje pristatoma siūloma bibliometrinės analizės metodika ir pritaikoma tyrimo objektui: VILNIUS TECH bibliotekoje registruotiems mokslinių publikacijų bibliografiniams duomenims. Joje aprašomas bibliografinių duomenų paruošimo ir valymo procesas bei pritaikomas teksto palyginimo algoritmas. Sukuriami autorių bendradarbiavimo tinklai, analizuojami grafų teorijos rodikliai, išskiriamos bendruomenės ir pateikiamas klastrinės analizės rezultatų vertinimas. Darbą sudaro 7 dalys: įvadas, susijusių darbų analizė, bibliografinių duomenų analizės metodų apžvalga, tiriamoji dalis, išvados, literatūros sąrašas, priedai. Darbo apimtis: 76 p. teksto be priedų, 26 iliustracijos, 21 lentelė, 58 šaltiniai. Bibliometrics is a multidisciplinary field of science that researches the bibliographic characteristics of documents using statistical and mathematical methods. The aim of the final Master's thesis is to expand the field of bibliometric analysis research by offering a methodology that includes the preparation of bibliographic data, text data analysis, graph theory and the development of a clustering model. The theoretical part of the work is dedicated to the review and presentation of literature related to bibliographic data analysis. The basic concepts of graph theory, network analysis and their visualization, finding communities using the Girvan - Newman algorithm, the process of developing a k-means clustering model, and text data analysis are also presented in this section. In the practical part of the work, the proposed methodology of bibliometric analysis is presented and applied to the research object: bibliographic data of scientific publications registered in VILNIUS TECH library. The process of preparing and cleaning bibliographic data and application of text comparison algorithm are described as well as creation of author collaboration networks, analysis of indicators of graph theory, singled out communities and cluster analysis results are presented. The final Master's thesis consists of 7 parts: introduction, analysis of related works, overview of bibliographic data analysis methods, research part, conclusions, references and appendices. Scope of work: 76 pp. of text without appendices, 26 illustrations, 21 tables, 58 references.