Rodyti trumpą aprašą

dc.contributor.authorGrigalis, Tomas
dc.date.accessioned2023-09-18T09:06:01Z
dc.date.available2023-09-18T09:06:01Z
dc.date.issued2014
dc.identifier.urihttps://etalpykla.vilniustech.lt/handle/123456789/110180
dc.description.abstractMost of structured data on the Web is found in database-backed web sites. Typically, upon a web page request in such a site, structured data is retrieved from an underlying database and embedded into a web page using some fixed template. Reverse engineering task – extracting structured data from template-generated web pages is studied in this dissertation. There are thousands of web pages on the Web that differ in visual style and underlying structure. Automatically extracting structured data from many structurally heterogonous template-generated web pages is a difficult and time consuming task, and it is regarded as a grand challenge. It is assumed, that solving the challenge would improve todays’ Web search and help companies to reduce costs. Thus the main goal of the dissertation is to propose a novel and more effective method for extracting structured data from template-generated web pages. The object of the research in this dissertation is structured data extraction from template-generated web pages.eng
dc.description.abstractDauguma struktūrizuotų duomenų internete yra randami duomenų bazėmis paremtose interneto svetainėse. Paprastai, naršant tokio tipo svetainėse, kiekvienos užklausos metu yra kreipiamasi į duomenų bazę ir iš jos ištraukiami struktūrizuoti duomenys. Naudojant iš anksto paruoštus šablonus šie duomenys yra automatiškai integruojami į naršomą tinklalapį ir atvaizduojami vartotojui. Šioje disertacijoje yra tyrinėjama kaip šiuos duomenų išgauti iš minėtų tinklalapių. Internete gausu skirtingo dizaino ir struktūros internetinių svetainių, todėl siekis automatiškai atpažinti nežinomos struktūros tinklalapius ir išgauti juose esančius struktūrizuotus duomenis yra itin sudėtinga problema. Manoma, jog išsprendus šią problemą būtų galima pagerinti informacijos paieškos internete sistemas ir įgalinti organizacijas žymiai sumažinti internetinių duomenų rinkimo kaštus. Tad šios disertacijos tikslas yra pasiūlyti naują ir efektyvesnį metodą, skirtą išgauti struktūrizuotus duomenis iš tinklalapių sugeneruotų pagal šablonus. Disertacijos tyrimų objektas – struktūrizuotų duomenų išgavimas iš tinklalapių sugeneruotų pagal šablonus.lit
dc.formatPDF
dc.format.extent138 p.
dc.format.mediumtekstas / txt
dc.language.isoeng
dc.rightsPrieinamas tik institucijos intranete
dc.source.urihttps://talpykla.elaba.lt/elaba-fedora/objects/elaba:2182272/datastreams/MAIN/content
dc.titleStructured data extraction from template-generated web pages
dc.title.alternativeStruktūrizuotų duomenų išgavimas iš tinklalapių sugeneruotų pagal šablonus
dc.typeDaktaro disertacija / Doctoral dissertation
dc.type.pubtypeETD_DR - Daktaro disertacija / Doctoral dissertation
dc.contributor.institutionVilniaus Gedimino technikos universitetas
dc.subject.researchfieldT 007 - Informatikos inžinerija / Informatics engineering
dc.subject.ltduomenų išgavimas
dc.subject.lttaisyklių generavimas
dc.subject.ltstruktūrizuoti duomenys
dc.subject.ltgilusis internetas
dc.subject.endata extraction
dc.subject.enwrapper generation
dc.subject.enstructured data
dc.subject.endeep web
dc.publisher.nameLithuanian Academic Libraries Network (LABT)
dc.publisher.cityKaunas
dc.identifier.elaba2182272


Šio įrašo failai

Thumbnail

Šis įrašas yra šioje (-se) kolekcijoje (-ose)

Rodyti trumpą aprašą