Show simple item record

dc.contributor.authorGriazev, Kiril
dc.date.accessioned2024-05-10T10:49:30Z
dc.date.available2024-05-10T10:49:30Z
dc.date.issued2024
dc.identifier.citationGriazev, K. (2024). Internet Web page content block dataset and solutions for its data labelling simplification [doctoral dissertation]. Vilnius Gediminas Technical University.en_US
dc.identifier.urihttps://etalpykla.vilniustech.lt/handle/123456789/154202
dc.description.abstractThe dissertation explores the intricacies of identifying, extracting, and documenting content blocks in internet web pages. The research object is the methodologies for these processes to improve the computer perception of online web page data. The primary goal is to conduct an in-depth analysis of datasets containing web page content blocks to enhance their granularity and minimise the volume of blocks requiring manual labelling. The dissertation undertakes several essential tasks: (1) conducting a systematic analysis of the latest research in the field of data extraction from internet web pages; (2) developing a structured dataset for web pages that accommodates a variety of features for different content blocks and is compatible with various data extraction methods; (3) creating a solution for partly automated content block labelling in web pages, which establishes relationships between content blocks and groups them, thereby reducing the need for manual review; (4) evaluating the effectiveness of this developed dataset and labelling solution in identifying, grouping, and establishing relationships between web page content blocks. The dissertation comprises four parts: an introduction, four main chapters, conclusions, references, and appendices. The introduction presents the research problem, significance, objectives, methodology, novelty, practical implications, defended statements, lists of the author’s conference presentations and outlines the dissertation’s structure. The first chapter focuses on Web Mining and examines the challenges and evolution of data extraction and classification techniques. The second chapter explores methods to determine HTML block similarity, considering data and structure. The third chapter details creating a dataset for improved data extraction, highlighting the need for diverse information about block types, features, and structures. The fourth chapter presents advanced methods for identifying HTML content blocks and enhancing content extraction accuracy and efficiency. Several articles were published on the topic discussed in the dissertation: two in publications of the main list of Clarivate Analytics Web of Science and two in the publications of scientific conference proceedings. Research results were presented at three international conferences: 6th Workshop on Advances in Information, Electronic and Electrical Engineering (AIEEE), 2018, Vilnius, Lithuania; Open Conference of Electrical, Electronic and Information Sciences (eStream), 2018, Vilnius, Lithuania; International Conference on Science & Technology (STRA), 2023, Prague, Czech Republic.en_US
dc.description.abstractDisertacijoje nagrinėjami interneto svetainių turinio blokų identifikavimo, išgavimo ir dokumentavimo iššūkiai. Internetinių tinklalapių turinio blokai, jų išskyrimo, susiejimo ir dokumentavimo duomenų rinkinyje metodai. Pagrindinis tikslas yra atlikti išsamų duomenų rinkinių, kuriuose yra svetainių turinio blokai, analizę, siekiant padidinti jų detalumą ir sumažinti blokų, kuriems reikalingas rankinis žymėjimas, kiekį. Disertacijoje nagrinėjama keletas svarbių užduočių: 1) sisteminė naujausių tyrimų interneto svetainių duomenų išgavimo srityje analizė; 2) struktūrizuoto svetainėms skirto duomenų rinkinio, kuriam būdingos įvairios turinio blokų savybės ir suderinimas su įvairiais duomenų išgavimo metodais, sukūrimas; 3) iš dalies automatizuoto turinio blokų žymėjimo svetainėse sprendimo, kuris nustato ryšius tarp turinio blokų ir juos grupuoja, taip mažindamas rankinio peržiūrėjimo poreikį, sukūrimas; 4) sukurto duomenų rinkinio ir žymėjimo sprendimo efektyvumo vertinimas, identifikuojant, grupuojant ir nustatant ryšius tarp svetainės turinio blokų. Disertacija susideda iš keturių dalių: įvado, keturių skyrių, išvadų, šaltinių ir priedų. Įvade pristatoma tyrimo problema, jo svarba, tikslai, metodika, naujumas, praktinė nauda, ginamos tezės, autoriaus konferencijų pranešimai ir apžvelgiama disertacijos struktūra. Pirmajame skyriuje nagrinėjamas interneto duomenų gavybos (angl. Web Mining) klausimas, išryškinami duomenų išgavimo ir klasifikavimo technikų iššūkiai bei evoliucija. Antrajame skyriuje tyrinėjami HTML blokų panašumo nustatymo metodai, atsižvelgiant į duomenis ir struktūrą. Trečiajame skyriuje išsamiai aprašomas duomenų rinkinio sukūrimas, pritaikytas duomenų išgavimui, išryškinant įvairių blokų tipų, savybių ir struktūrų informacijos įvairovę. Ketvirtajame skyriuje pristatomi pažangūs metodai HTML turinio blokams identifikuoti ir turinio išgavimo tikslumui bei efektyvumui didinti. Publikuoti straipsniai disertacijos tema: du pagrindinio Clarivate Analytics Web of Science sąrašo leidiniuose ir du mokslinių konferencijų leidiniuose. Tyrimo rezultatai buvo pristatyti trijose tarptautinėse konferencijose: 6th workshop on Advances in Information, Electronic and Electrical Engineering (AIEEE), 2018 m., Vilnius, Lietuva; Open Conference of Electrical, Electronic and Information Sciences (eStream), 2018 m., Vilnius, Lietuva; International Conference on Science & Technology, STRA, 2023 m., Praha, Čekija.en_US
dc.formatpdfen_US
dc.format.extent152 p.en_US
dc.format.mediumTekstasen_US
dc.language.isoenen_US
dc.titleInternet Web page content block dataset and solutions for its data labelling simplificationen_US
dc.title.alternativeInterneto tinklalapių turinio blokų duomenų rinkinys ir jo duomenų žymėjimą supaprastinantys sprendimaien_US
dc.typeBaigiamasis darbas / Graduation worken_US
dcterms.accessRightsLaisvai prieinamas / Openly availableen_US
dcterms.accrualMethodRankinis pateikimas / Manual submissionen_US
dcterms.educationLevelDaktaro laipsnis / Doctor degreeen_US
dcterms.issued2024-05-10
dc.description.versionTaip / Yesen_US
dc.type.pubtypeETD_DR - Daktaro disertacija / Doctoral dissertationen_US
dc.contributor.supervisorRamanauskaitė, Simona
dc.contributor.institutionVilniaus Gedimino technikos universitetasen_US
dc.subject.researchfieldT 007 - Informatikos inžinerija / Informatics Engineeringen_US
dc.publisher.nameVilniaus Gedimino technikos universitetasen_US
dc.publisher.countryLietuvaen_US
dc.publisher.cityVilniusen_US
dc.date.defended2024-06-12
dc.identifier.doihttps://doi.org/10.20334/2024-032-Men_US


Files in this item

Thumbnail

This item appears in the following Collection(s)

Show simple item record