dc.contributor.author | Ramanauskaitė, Simona | |
dc.contributor.author | Griazev, Kiril | |
dc.date.accessioned | 2023-09-18T20:46:22Z | |
dc.date.available | 2023-09-18T20:46:22Z | |
dc.date.issued | 2018 | |
dc.identifier.issn | 1648-8776 | |
dc.identifier.uri | https://etalpykla.vilniustech.lt/handle/123456789/152493 | |
dc.description.abstract | Data mining from web pages becomes more frequently adapted in business areas. However on the one hand while analyzing the current situation, we observe that solutions for mining structured data from web pages exists. On the other hand we see that a scientific dataset for unstructured data that would allow create and test new data selection methods does not exist. This limits the development and research of unstructured web data therefore we propose a method for HTML code block similarity estimation. The method combines both data and structure comparison and allows quantitative similarity presentation of two HTML code blocks. | eng |
dc.description.abstract | Duomenų gavyba iš interneto tinklalapių vis dažniau naudojama organizacijų darbinėje veikloje. Tačiau analizuojant šiuo metu esamą situaciją pastebima, kad egzistuoja metodų ir įrankių pasiūla, kurie gali duomenis atrinkti iš struktūrizuotų puslapių, tuo tarpu nestruktūrizuotiems net nėra mokslinio duomenų rinkinio, kuriuo vadovaujantis būtų galima kurti ir testuoti naujus duomenų atrankos metodus. Šiame darbe siekiama pakeisti šią situaciją, kaip pirmą žingsnį link restruktūrizuotų duomenų rinkinio sukūrimo, pateikiant metodą, skirtą HTML kodo blokų panašumui įvertinti. Šis metodas apima duomenų ir struktūros panašumo vertinimą ir leis kiekybiškai įvertinti dviejų HTML kodo blokų panašumo lygį. | lit |
dc.format | PDF | |
dc.format.extent | p. 30-36 | |
dc.format.medium | tekstas / txt | |
dc.language.iso | eng | |
dc.relation.isreferencedby | CEEOL – Central and Eastern European Online Library | |
dc.relation.isreferencedby | Index Copernicus | |
dc.title | Similarity estimation for HTML code blocks | |
dc.title.alternative | HTML kodo blokų panašumo vertinimas | |
dc.type | Straipsnis kitoje DB / Article in other DB | |
dcterms.references | 11 | |
dc.type.pubtype | S3 - Straipsnis kitoje DB / Article in other DB | |
dc.contributor.institution | Vilniaus Gedimino technikos universitetas | |
dc.contributor.faculty | Fundamentinių mokslų fakultetas / Faculty of Fundamental Sciences | |
dc.subject.researchfield | T 007 - Informatikos inžinerija / Informatics engineering | |
dc.subject.vgtuprioritizedfields | IK0303 - Dirbtinio intelekto ir sprendimų priėmimo sistemos / Artificial intelligence and decision support systems | |
dc.subject.ltspecializations | L106 - Transportas, logistika ir informacinės ir ryšių technologijos (IRT) / Transport, logistic and information and communication technologies | |
dc.subject.lt | HTML | |
dc.subject.lt | duomenų panašumas | |
dc.subject.lt | panašumo vertinimas | |
dc.subject.en | HTML | |
dc.subject.en | data similarity | |
dc.subject.en | similarity estimation | |
dcterms.sourcetitle | Jaunųjų mokslininkų darbai = Journal of young scientists | |
dc.description.issue | Nr. 48 (1) | |
dc.publisher.name | Šiaulių universiteto leidykla | |
dc.publisher.city | Šiauliai | |
dc.identifier.elaba | 30453004 | |