Show simple item record

dc.contributor.authorČeponis, Dainius
dc.date.accessioned2023-09-18T09:11:49Z
dc.date.available2023-09-18T09:11:49Z
dc.date.issued2021
dc.identifier.urihttps://etalpykla.vilniustech.lt/handle/123456789/111012
dc.description.abstractThe growing number of intrusions on the information systems (in the con-text of this thesis, information system is understood as a host i.e. end system such as a personal computer, server, etc. but not the network equipment or traffic) level requires more sophisticated methods to combat cyber-attacks. A significant loss for companies is expected if those actions are not recognised and averted. The intrusion detection systems (IDS) and antivirus applications (AV) are the main approaches to combat host-level cyber-attacks. The problem is that most popular solutions are utilising signature-based methods which are incapable of detecting new and emerging attacks. Anomaly-based IDS are designed to detect zero-day attacks with much higher accuracy than signature-based. Typically, these systems utilise statistical or machine learning methods to perform the task. Unfortunately, an enormous amount of data is required to train and validate anomaly-based systems. Currently, host-based intrusion detection systems (HIDS) lack such data in comparison with network-based systems (NIDS) and a new extensive dataset would contribute to host-based intrusion detection research. This dissertation consists of an introduction, four main chapters and general conclusions. The first chapter introduces existing intrusion and malware detection methods as well as approaches to data collection techniques. Existing datasets, machine learning (ML) and deep learning (DL) methods, currently used in HIDS, are reviewed at the end of chapter one. The second chapter proposes a robust method of dataset generation of malicious activity for anomaly-based HIDS training as well as introduces the generated Attack-Caused Windows System Calls Traces Dataset (AWSCTD) and its characteristics. The third chapter investigates ML methods applicability in intrusion and malware detection with the newly presented host-level dataset. Chapter four discusses the application of vanilla and advanced DL methods trained with the newly generated dataset: the new DL models are proposed and compared with already recognised state-of-the-art models. The experiments and analysis performed have demonstrated that the utilisation of virtualisation technologies allows the effective automation of dataset generation in cases where data-generating systems should be securely isolated. Simple ML methods are not sufficient for the host-level and malware detection task compared to DL methods due to comparatively low (90–92%) accuracy. Furthermore, the proposed static single-flow DL model outperformed already recognised state-of-the-art models in the intrusion detection task. Lastly, the sequence of 600 first system calls from Windows applications allows achieving more than 95% detection accuracy that is enough to perform the majority of anomaly-based intrusion and malware detection tasks adequately.eng
dc.description.abstractAugantis kompiuterio lygmens įsibrovimų kiekis reikalauja vis sudėtingesnių metodų panaudojimo prieš kibernetines atakas. Jei metodai nėra atnaujinami – įmonės patiria didelius nuostolius. Kompiuterio lygmens kibernetinių atakų aptikimui naudojamos įsibrovimo aptikimo sistemos ir antivirusinės programos. Parašais paremtų metodų naudojimas populiariausiuose produktuose lemia tai, kad neaptinkamos naujos ir populiarėjančios atakos. Anomalijomis paremtos įsibrovimo aptikimo sistemos yra suprojektuotos aptikti nulinės dienos atakas didesniu tikslumu, nei parašais paremti metodai. Standartiškai, savo darbui atlikti, šios sistemos naudoja statistinius arba ML (angl. Machine Learning) paremtus metodus, tačiau šių sistemų apmokymui ir validacijai reikalingi dideli duomenų kiekiai. Naujas išsamus duomenų rinkinys padėtų kompiuterio lygmens įsibrovimų aptikimo tyrimams, nes šiuo metu kompiuterio lygmens įsibrovimo aptikimo sistemos turi nepakankamą kiekį duomenų palyginus su tinklo lygmens sistemomis Disertaciją sudaro įvadas, keturi pagrindiniai skyriai ir bendrosios išvados. Pirmame skyriuje pristatomi įsibrovimų ir kenksmingo programinio kodo aptikimo metodai informacinėse sistemose bei aptariami egzistuojantys kompiuterio lygmens duomenų rinkiniai, skirti anomalijomis paremtų sistemų apmokymui. Pirmo skyriaus pabaigoje aprašomi ML ir DL (angl. Deep Learning) metodai naudojami kompiuterio lygmens įsibrovimų aptikimui. Antrame skyriuje pristatomas patikimas būdas anomalijomis paremtų įsibrovimo sistemų apmokymui skirto duomenų rinkinio kūrimas, bei aprašomas surinktas AWSCTD (angl. Attack-Caused Windows System Calls Traces Dataset) duomenų rinkinys ir jo parametrai. Trečiame skyriuje įvertinamas klasikinių ML metodų pritaikomumas įsibrovimo ir kenksmingo programinio kodo aptikimui panaudojant AWSCTD. Ketvirtame skyriuje aptariamas paprastų ir sudėtingų DL metodų panaudojimas apmokant juos su AWSCTD. Atlikti eksperimentai ir jų analizė parodė, kad virtualizacijos technologijų panaudojimas leidžia efektyviai automatizuoti duomenų rinkinio kūrimą, kai naudojamos sistemos turi būti saugiai izoliuotos. Dėl žemo tikslumo (90–92 %) paprasti ML metodai yra neperspektyvūs atlikti kompiuterio lygmens įsibrovimo ir kenksmingo programinio kodo aptikimo užduotims, palyginus su DL metodais. Be to, įsibrovimo užduotyje pasiūlytas statinis vieno srauto DL modelis pademonstravo geresnius rezultatus, nei jau pripažinti modeliai. Galiausiai, pirmųjų 600 sisteminių funkcijų sekos iškviestos Windows operacinėje sistemoje, leidžia pasiekti didesnį nei 95% aptikimo tikslumą, kuris yra daugiau nei pakankamas tinkamam didžiosios dalies anomalijomis paremto įsibrovimo ir kenksmingo programinio kodo aptikimo užduoties atlikimui.lit
dc.formatPDF
dc.format.extent194 p.
dc.format.mediumtekstas / txt
dc.language.isoeng
dc.rightsLaisvai prieinamas internete
dc.source.urihttps://dspace.vgtu.lt/handle/1/4256
dc.source.urihttps://talpykla.elaba.lt/elaba-fedora/objects/elaba:95049399/datastreams/MAIN/content
dc.source.urihttps://talpykla.elaba.lt/elaba-fedora/objects/elaba:95049399/datastreams/ATTACHMENT_95051382/content
dc.source.urihttps://talpykla.elaba.lt/elaba-fedora/objects/elaba:95049399/datastreams/COVER/content
dc.titleResearch of machine and deep learning methods application for host-level intrusion detection and classification
dc.title.alternativeMašininio ir gilaus apmokymo metodų taikymo įsilaužimų kompiuterio lygmenyje aptikimui ir klasifikavimui tyrimas
dc.typeDaktaro disertacija / Doctoral dissertation
dcterms.references0
dc.type.pubtypeETD_DR - Daktaro disertacija / Doctoral dissertation
dc.contributor.institutionVilniaus Gedimino technikos universitetas
dc.contributor.facultyFundamentinių mokslų fakultetas / Faculty of Fundamental Sciences
dc.subject.researchfieldT 007 - Informatikos inžinerija / Informatics engineering
dc.subject.vgtuprioritizedfieldsIK0101 - Informacijos ir informacinių technologijų sauga / Information and Information Technologies Security
dc.subject.ltmašininis mokymasis
dc.subject.ltgilusis mokymasis
dc.subject.ltsisteminės funkcijos
dc.subject.ltkompiuterio lygmens įsibrovimo aptikimas
dc.subject.ltkenkskmingas programinis kodas
dc.subject.enmachine learning
dc.subject.endeep learning
dc.subject.ensystem calls
dc.subject.enhost-based intrusion detection
dc.subject.enmalware
dc.publisher.nameVilniaus Gedimino technikos universitetas
dc.publisher.cityVilnius
dc.identifier.doi10.20334/2021-008-M
dc.identifier.elaba95049399


Files in this item

Thumbnail
Thumbnail

This item appears in the following Collection(s)

Show simple item record