• Lietuvių
    • English
  • English 
    • Lietuvių
    • English
  • Login
View Item 
  •   DSpace Home
  • Baigiamieji darbai (ETD) / Graduation works (ETD)
  • Daktaro disertacijos ir jų santraukos / Doctoral dissertations and their summaries
  • View Item
  •   DSpace Home
  • Baigiamieji darbai (ETD) / Graduation works (ETD)
  • Daktaro disertacijos ir jų santraukos / Doctoral dissertations and their summaries
  • View Item
JavaScript is disabled for your browser. Some features of this site may not work without it.

Structured data extraction from template-generated web pages

Thumbnail
View/Open
TG-disertacija-ok-color.pdf (3.386Mb)
Date
2014
Author
Grigalis, Tomas
Metadata
Show full item record
Abstract
Most of structured data on the Web is found in database-backed web sites. Typically, upon a web page request in such a site, structured data is retrieved from an underlying database and embedded into a web page using some fixed template. Reverse engineering task – extracting structured data from template-generated web pages is studied in this dissertation. There are thousands of web pages on the Web that differ in visual style and underlying structure. Automatically extracting structured data from many structurally heterogonous template-generated web pages is a difficult and time consuming task, and it is regarded as a grand challenge. It is assumed, that solving the challenge would improve todays’ Web search and help companies to reduce costs. Thus the main goal of the dissertation is to propose a novel and more effective method for extracting structured data from template-generated web pages. The object of the research in this dissertation is structured data extraction from template-generated web pages.
 
Dauguma struktūrizuotų duomenų internete yra randami duomenų bazėmis paremtose interneto svetainėse. Paprastai, naršant tokio tipo svetainėse, kiekvienos užklausos metu yra kreipiamasi į duomenų bazę ir iš jos ištraukiami struktūrizuoti duomenys. Naudojant iš anksto paruoštus šablonus šie duomenys yra automatiškai integruojami į naršomą tinklalapį ir atvaizduojami vartotojui. Šioje disertacijoje yra tyrinėjama kaip šiuos duomenų išgauti iš minėtų tinklalapių. Internete gausu skirtingo dizaino ir struktūros internetinių svetainių, todėl siekis automatiškai atpažinti nežinomos struktūros tinklalapius ir išgauti juose esančius struktūrizuotus duomenis yra itin sudėtinga problema. Manoma, jog išsprendus šią problemą būtų galima pagerinti informacijos paieškos internete sistemas ir įgalinti organizacijas žymiai sumažinti internetinių duomenų rinkimo kaštus. Tad šios disertacijos tikslas yra pasiūlyti naują ir efektyvesnį metodą, skirtą išgauti struktūrizuotus duomenis iš tinklalapių sugeneruotų pagal šablonus. Disertacijos tyrimų objektas – struktūrizuotų duomenų išgavimas iš tinklalapių sugeneruotų pagal šablonus.
 
Issue date (year)
2014
URI
https://etalpykla.vilniustech.lt/handle/123456789/110180
Collections
  • Daktaro disertacijos ir jų santraukos / Doctoral dissertations and their summaries [1724]

 

 

Browse

All of DSpaceCommunities & CollectionsBy Issue DateAuthorsTitlesSubjects / KeywordsInstitutionFacultyDepartment / InstituteTypeSourcePublisherType (PDB/ETD)Research fieldStudy directionVILNIUS TECH research priorities and topicsLithuanian intelligent specializationThis CollectionBy Issue DateAuthorsTitlesSubjects / KeywordsInstitutionFacultyDepartment / InstituteTypeSourcePublisherType (PDB/ETD)Research fieldStudy directionVILNIUS TECH research priorities and topicsLithuanian intelligent specialization

My Account

LoginRegister