• Lietuvių
    • English
  • Lietuvių 
    • Lietuvių
    • English
  • Prisijungti
Peržiūrėti įrašą 
  •   DSpace pagrindinis
  • Mokslinės publikacijos (PDB) / Scientific publications (PDB)
  • Moksliniai ir apžvalginiai straipsniai / Research and Review Articles
  • Straipsniai Web of Science ir/ar Scopus referuojamuose leidiniuose / Articles in Web of Science and/or Scopus indexed sources
  • Peržiūrėti įrašą
  •   DSpace pagrindinis
  • Mokslinės publikacijos (PDB) / Scientific publications (PDB)
  • Moksliniai ir apžvalginiai straipsniai / Research and Review Articles
  • Straipsniai Web of Science ir/ar Scopus referuojamuose leidiniuose / Articles in Web of Science and/or Scopus indexed sources
  • Peržiūrėti įrašą
JavaScript is disabled for your browser. Some features of this site may not work without it.

Multi-purpose dataset of webpages and Its content blocks: Design and structure validation

Thumbnail
Peržiūrėti/Atidaryti
applsci-11-03319-v2.pdf (1.638Mb)
Data
2021
Autorius
Griazev, Kiril
Ramanauskaitė, Simona
Metaduomenys
Rodyti detalų aprašą
Santrauka
The need for automated data extraction is continuously growing due to the constant addition of information to the worldwide web. Researchers are developing new data extraction methods to achieve increased performance compared to existing methods. Comparing algorithms to evaluate their performance is vital when developing new solutions. Different algorithms require different datasets to test their performance due to the various data extraction approaches. Currently, most datasets tend to focus on a specific data extraction approach. Thus, they generally lack the data that may be useful for other extraction methods. That leads to difficulties when comparing the performance of algorithms that are vastly different in their approach. We propose a dataset of web page content blocks that includes various data points to counter this. We also validate its design and structure by performing block labeling experiments. Web developers of varying experience levels labeled multiple websites presented to them. Their labeling results were stored in the newly proposed dataset structure. The experiment proved the need for proposed data points and validated dataset structure suitability for multi-purpose dataset design.
Paskelbimo data (metai)
2021
URI
https://etalpykla.vilniustech.lt/handle/123456789/152033
Kolekcijos
  • Straipsniai Web of Science ir/ar Scopus referuojamuose leidiniuose / Articles in Web of Science and/or Scopus indexed sources [7946]

 

 

Naršyti

Visame DSpaceRinkiniai ir kolekcijosPagal išleidimo datąAutoriaiAntraštėsTemos / Reikšminiai žodžiai InstitucijaFakultetasKatedra / institutasTipasŠaltinisLeidėjasTipas (PDB/ETD)Mokslo sritisStudijų kryptisVILNIUS TECH mokslinių tyrimų prioritetinės kryptys ir tematikosLietuvos sumanios specializacijosŠi kolekcijaPagal išleidimo datąAutoriaiAntraštėsTemos / Reikšminiai žodžiai InstitucijaFakultetasKatedra / institutasTipasŠaltinisLeidėjasTipas (PDB/ETD)Mokslo sritisStudijų kryptisVILNIUS TECH mokslinių tyrimų prioritetinės kryptys ir tematikosLietuvos sumanios specializacijos

Asmeninė paskyra

PrisijungtiRegistruotis