Suklastotų žiniatinklio svetainių identifikavimas taikant mašininio mokymo metodus
Abstract
Suklastotų žiniatinklio svetainių atpažinimas yra viena iš aktualių interneto saugumo problemų. Tyrimų rezultatais nustatyta, kad apie 1% internete veikiančių žiniatinklio svetainių yra suklastotos. Suklastota žiniatinklio svetainę galima apibūdinti kaip kenkėjišką svetainę, imituojančią realiai veikiančią svetainę, kurios kūrėjų tikslas išgauti vartotojo konfidencialią informaciją. Šiai problemai spręsti dažniausiai naudojami juodieji ir baltieji svetainių sąrašai, tačiau tokie taisyklėmis pagrįsti metodai nesugeba atpažinti į sąrašus neįtruktų svetainių, todėl darbe siūloma naudoti mašininio mokymo metodais pagrįstus sprendimus. Šiame darbe tiriama suklastotų žiniatinklio svetainių atpažinimo problema taikant dirbtinio neuroninio tinklo, sprendimų medžio, atraminių vektorių mašinos ir k-artimiausių kaimynų metodus. Analizei atlikti pasirinktas viešai prieinamas duomenų rinkinys. Atlikti eksperimentai su testiniu duomenų rinkiniu leido identifikuoti skirtingų klasifikatorių tikslumą bei juos palyginti. Identifying phishing websites is highly relevant Internet security issue. Research has shown that about 1% of websites on the Internet are harmful. A phishing website can be described as a malicious website that mimics a real website with the task to obtain user’s confidential information. Filtering connection by using black and white lists of websites are most often method used to solve this problem. But rules-based methods fail to recognize the websites not included in the lists, therefore the machine learning methods are used. This paper investigates the problem of identifying phishing websites by applying artificial neural network, decision tree, support vector machine and k-nearest neighbors methods. Public available dataset is used for analysis. The performed experiments with the test dataset allowed to identify the accuracy of different methods and to compare them.