• Lietuvių
    • English
  • Lietuvių 
    • Lietuvių
    • English
  • Prisijungti
Peržiūrėti įrašą 
  •   DSpace pagrindinis
  • Mokslinės publikacijos (PDB) / Scientific publications (PDB)
  • Moksliniai ir apžvalginiai straipsniai / Research and Review Articles
  • Straipsniai Web of Science ir/ar Scopus referuojamuose leidiniuose / Articles in Web of Science and/or Scopus indexed sources
  • Peržiūrėti įrašą
  •   DSpace pagrindinis
  • Mokslinės publikacijos (PDB) / Scientific publications (PDB)
  • Moksliniai ir apžvalginiai straipsniai / Research and Review Articles
  • Straipsniai Web of Science ir/ar Scopus referuojamuose leidiniuose / Articles in Web of Science and/or Scopus indexed sources
  • Peržiūrėti įrašą
JavaScript is disabled for your browser. Some features of this site may not work without it.

Unsupervised structured data extraction from template-generated web pages

Thumbnail
Peržiūrėti/Atidaryti
j.ucs_Vol20_Iss2_169-192_grigaitis.pdf (411.3Kb)
Data
2014
Autorius
Grigalis, Tomas
Čenys, Antanas
Metaduomenys
Rodyti detalų aprašą
Santrauka
This paper studies structured data extraction from template-generated Web pages. Such pages contain most of structured data on the Web. Extracted structured data can be later integrated and reused in very big range of applications, such as price comparison portals, business intelligence tools, various mashups and etc. It encourages industry and academics to seek automatic solutions. To tackle the problem of automatic structured Web data extraction we present a new approach - structured data extraction based on clustering visually similar Web page elements. Our method called ClustVX combines visual and pure HTML features of Web page to cluster visually similar Web page elements and then extract structured Web data. ClustVX can extract structured data from Web pages where more than one data record is present. With extensive experimental evaluation on three benchmark datasets we demonstrate that ClustVX achieves better results than other state-of-the-art automatic structured Web data extraction methods.
Paskelbimo data (metai)
2014
URI
https://etalpykla.vilniustech.lt/handle/123456789/146446
Kolekcijos
  • Straipsniai Web of Science ir/ar Scopus referuojamuose leidiniuose / Articles in Web of Science and/or Scopus indexed sources [7946]

 

 

Naršyti

Visame DSpaceRinkiniai ir kolekcijosPagal išleidimo datąAutoriaiAntraštėsTemos / Reikšminiai žodžiai InstitucijaFakultetasKatedra / institutasTipasŠaltinisLeidėjasTipas (PDB/ETD)Mokslo sritisStudijų kryptisVILNIUS TECH mokslinių tyrimų prioritetinės kryptys ir tematikosLietuvos sumanios specializacijosŠi kolekcijaPagal išleidimo datąAutoriaiAntraštėsTemos / Reikšminiai žodžiai InstitucijaFakultetasKatedra / institutasTipasŠaltinisLeidėjasTipas (PDB/ETD)Mokslo sritisStudijų kryptisVILNIUS TECH mokslinių tyrimų prioritetinės kryptys ir tematikosLietuvos sumanios specializacijos

Asmeninė paskyra

PrisijungtiRegistruotis