• Lietuvių
    • English
  • English 
    • Lietuvių
    • English
  • Login
View Item 
  •   DSpace Home
  • Mokslinės publikacijos (PDB) / Scientific publications (PDB)
  • Moksliniai ir apžvalginiai straipsniai / Research and Review Articles
  • Straipsniai kituose recenzuojamuose leidiniuose / Articles in other peer-reviewed sources
  • View Item
  •   DSpace Home
  • Mokslinės publikacijos (PDB) / Scientific publications (PDB)
  • Moksliniai ir apžvalginiai straipsniai / Research and Review Articles
  • Straipsniai kituose recenzuojamuose leidiniuose / Articles in other peer-reviewed sources
  • View Item
JavaScript is disabled for your browser. Some features of this site may not work without it.

Similarity estimation for HTML code blocks

Thumbnail
Date
2018
Author
Ramanauskaitė, Simona
Griazev, Kiril
Metadata
Show full item record
Abstract
Data mining from web pages becomes more frequently adapted in business areas. However on the one hand while analyzing the current situation, we observe that solutions for mining structured data from web pages exists. On the other hand we see that a scientific dataset for unstructured data that would allow create and test new data selection methods does not exist. This limits the development and research of unstructured web data therefore we propose a method for HTML code block similarity estimation. The method combines both data and structure comparison and allows quantitative similarity presentation of two HTML code blocks.
 
Duomenų gavyba iš interneto tinklalapių vis dažniau naudojama organizacijų darbinėje veikloje. Tačiau analizuojant šiuo metu esamą situaciją pastebima, kad egzistuoja metodų ir įrankių pasiūla, kurie gali duomenis atrinkti iš struktūrizuotų puslapių, tuo tarpu nestruktūrizuotiems net nėra mokslinio duomenų rinkinio, kuriuo vadovaujantis būtų galima kurti ir testuoti naujus duomenų atrankos metodus. Šiame darbe siekiama pakeisti šią situaciją, kaip pirmą žingsnį link restruktūrizuotų duomenų rinkinio sukūrimo, pateikiant metodą, skirtą HTML kodo blokų panašumui įvertinti. Šis metodas apima duomenų ir struktūros panašumo vertinimą ir leis kiekybiškai įvertinti dviejų HTML kodo blokų panašumo lygį.
 
Issue date (year)
2018
URI
https://etalpykla.vilniustech.lt/handle/123456789/152493
Collections
  • Straipsniai kituose recenzuojamuose leidiniuose / Articles in other peer-reviewed sources [8559]

 

 

Browse

All of DSpaceCommunities & CollectionsBy Issue DateAuthorsTitlesSubjects / KeywordsInstitutionFacultyDepartment / InstituteTypeSourcePublisherType (PDB/ETD)Research fieldStudy directionVILNIUS TECH research priorities and topicsLithuanian intelligent specializationThis CollectionBy Issue DateAuthorsTitlesSubjects / KeywordsInstitutionFacultyDepartment / InstituteTypeSourcePublisherType (PDB/ETD)Research fieldStudy directionVILNIUS TECH research priorities and topicsLithuanian intelligent specialization

My Account

LoginRegister