Show simple item record

dc.contributor.authorŠliachina, Margarita
dc.date.accessioned2023-09-18T09:30:10Z
dc.date.available2023-09-18T09:30:10Z
dc.date.issued2023
dc.identifier.urihttps://etalpykla.vilniustech.lt/handle/123456789/111264
dc.description.abstractThis thesis explores techniques and tools for detecting trackers and advertisements on the web. The research tasks include conducting a comprehensive literature review, investigating data collection techniques, reviewing model evaluation methods, training machine learning models, evaluating their effectiveness, investigating the impact of different features, and performing a rolling forecast test. The literature review identified three approaches: URL analysis, URL and HTTP data analysis, and AdGraph. Data collection involved using proxies, crawlers, and Adblock Plus lists and constructing graphs from HTML pages for AdGraph. The model evaluation utilized traditional metrics like confusion matrix, learning curves, and ROC curves, with the addition of the rolling forecast test for long-term reliability. Results indicated that the model trained with the most optimal features exhibited superior performance, outperforming other models in accuracy and other metrics. This finding underscores the significance of identifying and utilizing the most relevant features for effective tracker and ad detection. The structure of this document: introduction, review of online trackers and advertisements, review of already implemented solutions, methods and materials, experiment and results, model improvements, and conclusions. This document consists of 50 pages of text, 22 figures, 7 tables, and 16 sources.eng
dc.description.abstractŠiame darbe nagrinėjami metodai skirti reklamos ir sekiklių aptikimui internetiniuose puslapiuose. Tyrimo uždaviniai apėmė literatūros apžvalgą, duomenų rinkimo metodų analizę, modelių apmokymo ir vertinimo metodų analizę. Darbe modeliams apmokyti taikomi trys skirtingi metodai: URL analizė, URL ir HTTP analizė bei AdGraph metodas. Duomenų rinkimui naudoti tokie įrankiai kaip: tarpinis serveris, žiniatinklio tikrinimo programa ir Adblock Plus sąrašai. Modelių efektyvumui vertinti naudotos klasifikavimo uždavinio tikslumo metrikos , tokios kaip: klasifikavimo matrica, mokymosi ir ROC kreivės. Taip pat atlikta slenkančios prognozės analizė, skirta įvertinti modelių efektyvumą ilgalaikėje perspektyvoje. Be to, ištirta kiekvieno modelio požymio įtaka jo efektyvumui ir nustatyti reikšmingiausi. Rezultatai parodė, kad modelis, apmokytas su reikšmingiausiais požymiais, pasiekė geriausių rezultatų 98,7 % testavimo tikslumo. Baigiamąjį darbą sudaro: įvadas, sekiklių ir reklamos apžvalga, esamų sprendimų apžvalga, tyrimo metodai, eksperimentas ir rezultatai, modelio gerinimas bei išvados. Darbo apimtis 50 puslapių, 22 paveikslai, 7 lentelės ir 16 literatūros šaltinių.lit
dc.formatPDF
dc.format.extent52 p.
dc.format.mediumtekstas / txt
dc.language.isoeng
dc.rightsLaisvai prieinamas internete
dc.source.urihttps://talpykla.elaba.lt/elaba-fedora/objects/elaba:168773764/datastreams/MAIN/content
dc.titleInvestigation of methods for tracker and ad detection on web pages
dc.title.alternativeReklamos ir sekiklių internetiniuose puslapiuose aptikimo metodų tyrimas
dc.typeMagistro darbas / Master thesis
dcterms.references0
dc.type.pubtypeETD_MGR - Magistro darbas / Master thesis
dc.contributor.institutionVilniaus Gedimino technikos universitetas
dc.subject.researchfieldN 001 - Matematika / Mathematics
dc.subject.researchfieldN 009 - Informatika / Computer science
dc.subject.studydirectionA03 - Statistika / Statistics
dc.subject.ltsekiklis
dc.subject.ltmašininis mokymasis
dc.subject.ltAdGraph
dc.subject.ltAdblock Plus
dc.subject.ltkibernetinė sauga
dc.subject.enweb tracking
dc.subject.enmachine learning
dc.subject.encybersecurity
dc.subject.enAdGraph
dc.subject.enAdblockPlus
dc.identifier.elaba168773764


Files in this item

Thumbnail

This item appears in the following Collection(s)

Show simple item record