Structured data extraction from template-generated web pages

Grigalis, Tomas

dc.contributor.author	Grigalis, Tomas
dc.date.accessioned	2023-09-18T09:06:01Z
dc.date.available	2023-09-18T09:06:01Z
dc.date.issued	2014
dc.identifier.uri	https://etalpykla.vilniustech.lt/handle/123456789/110180
dc.description.abstract	Most of structured data on the Web is found in database-backed web sites. Typically, upon a web page request in such a site, structured data is retrieved from an underlying database and embedded into a web page using some fixed template. Reverse engineering task – extracting structured data from template-generated web pages is studied in this dissertation. There are thousands of web pages on the Web that differ in visual style and underlying structure. Automatically extracting structured data from many structurally heterogonous template-generated web pages is a difficult and time consuming task, and it is regarded as a grand challenge. It is assumed, that solving the challenge would improve todays’ Web search and help companies to reduce costs. Thus the main goal of the dissertation is to propose a novel and more effective method for extracting structured data from template-generated web pages. The object of the research in this dissertation is structured data extraction from template-generated web pages.	eng
dc.description.abstract	Dauguma struktūrizuotų duomenų internete yra randami duomenų bazėmis paremtose interneto svetainėse. Paprastai, naršant tokio tipo svetainėse, kiekvienos užklausos metu yra kreipiamasi į duomenų bazę ir iš jos ištraukiami struktūrizuoti duomenys. Naudojant iš anksto paruoštus šablonus šie duomenys yra automatiškai integruojami į naršomą tinklalapį ir atvaizduojami vartotojui. Šioje disertacijoje yra tyrinėjama kaip šiuos duomenų išgauti iš minėtų tinklalapių. Internete gausu skirtingo dizaino ir struktūros internetinių svetainių, todėl siekis automatiškai atpažinti nežinomos struktūros tinklalapius ir išgauti juose esančius struktūrizuotus duomenis yra itin sudėtinga problema. Manoma, jog išsprendus šią problemą būtų galima pagerinti informacijos paieškos internete sistemas ir įgalinti organizacijas žymiai sumažinti internetinių duomenų rinkimo kaštus. Tad šios disertacijos tikslas yra pasiūlyti naują ir efektyvesnį metodą, skirtą išgauti struktūrizuotus duomenis iš tinklalapių sugeneruotų pagal šablonus. Disertacijos tyrimų objektas – struktūrizuotų duomenų išgavimas iš tinklalapių sugeneruotų pagal šablonus.	lit
dc.format	PDF
dc.format.extent	138 p.
dc.format.medium	tekstas / txt
dc.language.iso	eng
dc.rights	Prieinamas tik institucijos intranete
dc.source.uri	https://talpykla.elaba.lt/elaba-fedora/objects/elaba:2182272/datastreams/MAIN/content
dc.title	Structured data extraction from template-generated web pages
dc.title.alternative	Struktūrizuotų duomenų išgavimas iš tinklalapių sugeneruotų pagal šablonus
dc.type	Daktaro disertacija / Doctoral dissertation
dc.type.pubtype	ETD_DR - Daktaro disertacija / Doctoral dissertation
dc.contributor.institution	Vilniaus Gedimino technikos universitetas
dc.subject.researchfield	T 007 - Informatikos inžinerija / Informatics engineering
dc.subject.lt	duomenų išgavimas
dc.subject.lt	taisyklių generavimas
dc.subject.lt	struktūrizuoti duomenys
dc.subject.lt	gilusis internetas
dc.subject.en	data extraction
dc.subject.en	wrapper generation
dc.subject.en	structured data
dc.subject.en	deep web
dc.publisher.name	Lithuanian Academic Libraries Network (LABT)
dc.publisher.city	Kaunas
dc.identifier.elaba	2182272

Files in this item

Name:: TG-disertacija-ok-color.pdf
Size:: 3.386Mb
Format:: PDF

View/Open

This item appears in the following Collection(s)

Daktaro disertacijos ir jų santraukos / Doctoral dissertations and their summaries [1725]

Show simple item record