Rodyti trumpą aprašą

dc.contributor.authorGrenda, Mindaugas
dc.date.accessioned2023-09-18T08:54:05Z
dc.date.available2023-09-18T08:54:05Z
dc.date.issued2013
dc.identifier.urihttps://etalpykla.vilniustech.lt/handle/123456789/108433
dc.description.abstractDarbe pasiūlyti keturi nauji bendrų kelių metodo pagerinimai, skirti hipertekstinių dokumentų, sugeneruotų iš šablonų, klasterizavimui: atstumų skaičiavimas, remiantis XPATH, prieš tai pašalinus gretimų DOM medžio elementų indeksus iš XPATH; XPATH rinkinio dalies pašalinimas prieš skaičiuojant atstumus; XPATH kelių pradžios nukirtimas iki tam tikro gylio prieš skaičiuojant atstumus; XPATH, kurie yra bendri visiems klasterizuojamiems dokumentams, pašalinimas. Eksperimentų metu patikrinta, kad visi pasiūlyti metodai pranoksta bazinį metodą, kuriame atstumai skaičiuojami naudojant elementų XPATH. Labiausiai klasterizavimo kokybę pagerina elementų indeksų pašalinimas iš XPATH. Taip pat pasiūlytas metodas, kaip identifikuoti reikiamą kiekį klasterių, iš klasterizavimo metu gautos hierarchinės klasterių struktūros. Šis metodas klasterius identifikuoja geriau nei plačiai žinomi metodai: klasterių parinkimo pagal ribinę reikšmę ir klasterių parinkimo pagal medžio viršūnės gylį.lit
dc.description.abstractThere are four new improvements of common paths method proposed for clustering of templates based hypertext documents by structural similarity in the thesis. The methods include: measuring the distance using XPATH with removed sibling indexes; removing the part of the set of XPATH before measuring the distances; cutting of the beginnings of the paths to a certain depth before measuring the distances; and removing XPATHs that are common to all clustered documents. During the experiments there has been found that all proposed methods surpass the effectiveness of basic method that measures the distances by using simple XPATH. The method that increases the quality of clustering of documents the most is the removal of sibling indexes XPATH. Moreover, there is a method proposed for the identification of the required amount of clusters from the hierarchical structure obtained from clustering process. Proposed method identifies clusters more accurate than well-known methods like selection of clusters by the threshold value or selecting the clusters by the depth of the clusters in the tree.eng
dc.formatPDF
dc.format.extent59 p.
dc.format.mediumtekstas / txt
dc.language.isolit
dc.rightsPrieinamas tik institucijos intranete
dc.source.urihttps://talpykla.elaba.lt/elaba-fedora/objects/elaba:1772404/datastreams/MAIN/content
dc.titleIš šablonų sugeneruotų hipertekstinių dokumentų klasterizavimas pagal struktūrinį panašumą
dc.title.alternativeClustering of templates based hypertext documents by structural similarity
dc.typeMagistro darbas / Master thesis
dc.type.pubtypeETD_MGR - Magistro darbas / Master thesis
dc.contributor.institutionVilniaus Gedimino technikos universitetas
dc.subject.researchfieldT 007 - Informatikos inžinerija / Informatics engineering
dc.subject.ltklasterizavimas
dc.subject.lthtml
dc.subject.ltxpath
dc.subject.ltstruktūrinis panašumas
dc.subject.enclustering
dc.subject.enhtml
dc.subject.enxpath
dc.subject.enstructural similarity
dc.publisher.nameLithuanian Academic Libraries Network (LABT)
dc.publisher.cityKaunas
dc.identifier.elaba1772404


Šio įrašo failai

Thumbnail

Šis įrašas yra šioje (-se) kolekcijoje (-ose)

Rodyti trumpą aprašą