Investigation of methods for tracker and ad detection on web pages
Abstract
This thesis explores techniques and tools for detecting trackers and advertisements on the web. The research tasks include conducting a comprehensive literature review, investigating data collection techniques, reviewing model evaluation methods, training machine learning models, evaluating their effectiveness, investigating the impact of different features, and performing a rolling forecast test. The literature review identified three approaches: URL analysis, URL and HTTP data analysis, and AdGraph. Data collection involved using proxies, crawlers, and Adblock Plus lists and constructing graphs from HTML pages for AdGraph. The model evaluation utilized traditional metrics like confusion matrix, learning curves, and ROC curves, with the addition of the rolling forecast test for long-term reliability. Results indicated that the model trained with the most optimal features exhibited superior performance, outperforming other models in accuracy and other metrics. This finding underscores the significance of identifying and utilizing the most relevant features for effective tracker and ad detection. The structure of this document: introduction, review of online trackers and advertisements, review of already implemented solutions, methods and materials, experiment and results, model improvements, and conclusions. This document consists of 50 pages of text, 22 figures, 7 tables, and 16 sources. Šiame darbe nagrinėjami metodai skirti reklamos ir sekiklių aptikimui internetiniuose puslapiuose. Tyrimo uždaviniai apėmė literatūros apžvalgą, duomenų rinkimo metodų analizę, modelių apmokymo ir vertinimo metodų analizę. Darbe modeliams apmokyti taikomi trys skirtingi metodai: URL analizė, URL ir HTTP analizė bei AdGraph metodas. Duomenų rinkimui naudoti tokie įrankiai kaip: tarpinis serveris, žiniatinklio tikrinimo programa ir Adblock Plus sąrašai. Modelių efektyvumui vertinti naudotos klasifikavimo uždavinio tikslumo metrikos , tokios kaip: klasifikavimo matrica, mokymosi ir ROC kreivės. Taip pat atlikta slenkančios prognozės analizė, skirta įvertinti modelių efektyvumą ilgalaikėje perspektyvoje. Be to, ištirta kiekvieno modelio požymio įtaka jo efektyvumui ir nustatyti reikšmingiausi. Rezultatai parodė, kad modelis, apmokytas su reikšmingiausiais požymiais, pasiekė geriausių rezultatų 98,7 % testavimo tikslumo. Baigiamąjį darbą sudaro: įvadas, sekiklių ir reklamos apžvalga, esamų sprendimų apžvalga, tyrimo metodai, eksperimentas ir rezultatai, modelio gerinimas bei išvados. Darbo apimtis 50 puslapių, 22 paveikslai, 7 lentelės ir 16 literatūros šaltinių.