Bachelor's Thesis

Anomaly Detection by IDS Systems

Final Thesis 2.28 MB

Author of thesis: Bc. Johann Adam Gawron

Acad. year: 2022/2023

Supervisor: Mgr. Ing. Pavel Očenášek, Ph.D.

Reviewer: doc. Ing. Ivan Homoliak, Ph.D.

Abstract:

The goal of this thesis is to familiarize myself, and the reader, with the issues surrounding
anomaly detection in network traffic using artificial inteligence. To propose and subsequently
implement a methodology for creating an anomaly classifier for network communication
profiles. The classification method should be able to efficiently and accurately identify
anomalies in network traffic to avoid generating false outputs. During the research of the
issue, IDS systems, various types of attacks, and approaches to anomaly detection and
classification were examined. In evaluating the effectiveness, several standard methods were
examined and used to express the quality of classifiers.

Keywords:

Machine, Learning, ML, Classificator, Ćlassification, Method, Anomalies, Anomaly, Network,
Intrusion, Detection, IDS, System, Communication, Traffic, XGBoost.

Date of defence

14.06.2023

Result of the defence

Defended (thesis was successfully defended)

znamkaBznamka

Grading

B

Process of defence

Student nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta a na další otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm B.

Topics for thesis defence

  1.  porovnajte dosiahnuté výsledky s výsledkami odbornej literatúry, napr. aj spomenutej hore. Zamerajte sana xgboost klasifikátor a jeho použitie na CIC-IDS 2018 datasete. 
  2.  Ako by sa dala aplikovať leave-one-our X-validácia tak aby otestovala robustnosť Vášho multi-classklasifikátora?
  3.  Ako sa dá otestovať preučenie u vysoko neparametrických modelov ako ensembles? 
  4.  Co bylo v práci nejtěžší? 
  5.  Jak jste vytvářel trénovací soubor dat? 

Language of thesis

Slovak

Faculty

Department

Study programme

Information Technology (IT-BC-3)

Field of study

Information Technology (BIT)

Composition of Committee

doc. Dr. Ing. Petr Hanáček (předseda)
doc. Ing. Ondřej Ryšavý, Ph.D. (člen)
doc. Mgr. Kamil Malinka, Ph.D. (člen)
Ing. Tomáš Milet, Ph.D. (člen)
Ing. Josef Strnadel, Ph.D. (člen)

Vzhledem k nadprůměrnému přístupu studenta a realizaci prakticky využitelného projektu navrhuji hodnocení stupněm B.

Evaluation criteria Verbal classification
Informace k zadání

Zadání bylo středně náročné a zahrnovalo implementaci systému pro analýzu provozu v systémech IDS/IPS. Zadání bylo splněno.

Práce s literaturou

Student si literaturu vyhledával především samostatně, při práci s literaturou byl aktivní.

Aktivita během řešení, konzultace, komunikace

Student byl při řešení přůměrně aktivní, konzultace byly relativně pravidelné. Na konzultacích byl student aktivní a vždy dobře připraven. 

Aktivita při dokončování

Student dokončil praktickou část práce v dostatečném předstihu a  do textové části práce zapracoval všechny připomínky.

Publikační činnost, ocenění

Práce je koncipována jako open-source řešení, které je prakticky využitelné.

Points proposed by supervisor: 85

Grade proposed by supervisor: B

Reviewer’s report
doc. Ing. Ivan Homoliak, Ph.D.

Práca je obtiažnejšieho zadania. Zadanie bolo splnené vo všetkých bodoch. Rozsah práce splňuje obvyklé požiadavky. Študent volil vhodnú literatúru obsahujúcu aj odborné a recenzované zdroje. Práca poskytuje realizačný výstup, ktorý je čiastočne využiteľný v praxi.


Zadanie hodnotím stupňom A za predpokladu, že študent uspokojivo zodpovie otázky k obajobe.


 


Otázky k obhajobe:


1) porovnajte dosiahnuté výsledky s výsledkami odbornej literatúry, napr. aj spomenutej hore. Zamerajte sa na xgboost klasifikátor a jeho použitie na CIC-IDS 2018 datasete.


2) Ako by sa dala aplikovať leave-one-our X-validácia tak aby otestovala robustnosť Vášho multi-class klasifikátora?


3) Ako sa dá otestovať preučenie u vysoko neparametrických modelov ako ensembles?

Evaluation criteria Verbal classification Points
Náročnost zadání

Evaluation level: obtížnější zadání

Zadanie bolo mierne obtiažnejšie vzhľadom na bakalársky študijný program, keďže pracuje so state-of-the-art metódami umelej inteligencie.

Rozsah splnění požadavků zadání

Evaluation level: zadání splněno

Zadanie bolo splnené. Jediná vec, ktorú by som poznamenal je kvantitatívna analýza výkonnosti riešenia v zmysle množstva spracovaných tokov za jednotku času, čo však nebolo explicitnou súčasťou zadania.

Rozsah technické zprávy

Evaluation level: je v obvyklém rozmezí

Podľa nástroja https://app.fit.vut.cz/normostrany má práca 65 normostrán vrátane obrázkov.

Prezentační úroveň technické zprávy

Práca je pre čitateľa pochopiteľná, jednotlivé kapitoly na seba logicky nadväzujú. Rozsahy a prehľadnosť väčšiny kapitol sú prípustné.

Mám niekoľko ďalších poznámok. V úvode chýbajú odkazy na jednotlivé kapitoly. Kapitoly 2 a 3, ktoré sa zaoberajú existujúcimi metódami obsahuje len veľmi málo citácií. Termín trénovanie s dozorom sa nepoužíva - namiesto toho sa používa s učiteľom.

90
Formální úprava technické zprávy

Práca je typograficky na nadpriemernej úrovni. Práca obsahuje len malé gramatické chyby. Práca je napísaná v trpnom rode.

Niektoré obrázky a tabuľky nie sú typograficky správne zarovnané. - napr. Obr. 2.1, 2.3, 5.1 alebo tabuľka 5.1. Chýbajú bodky v popiskoch mnohých obrázkov a tabuliek. Poznámky pod čiarou sú typograficky nesprávne. Niektoré citácie sú použité bez medzery (napr. strana 2, 11, 12). V literatúre preteká jeden link stranu.

85
Práce s literaturou

Práca obsahuje 29  referencií, z ktorých značná časť sú recenzované publikácie, čo hodnotím pozitívne. Zvolené študijné pramene sú relevantné a sú aj odlíšené od vlastných výsledkov. Rozsah práce s literatúrou je adekvátny bakalárskemu dielu. 

90
Realizační výstup

Práca má pekný realizačný výstup. Študent spravil nadštandardnú evaluáciu experimentami. Použil správne metriky kvality klasifikácie a dosiahnuté výsledky komentoval.  Študent tiež diskutuje možnosti ďalšieho rozvoja. Jedinú výhradu mám k použitie viacerých datasetov, ako napr. ASNM datasety.

90
Využitelnost výsledků

Práca sa snaží zlepšiť dosiahnuté výsledky v literatúre pomocou optimalizácií vysoko neparametrických ensemblových modelov strojového učenia s učiteľom. Konkrétna aplikácia týchto modelov na CIC IDS-2018 nebola nikde v práci diskutovaná. Aj keď na prvý pohľad existujú práce, ktoré to robia. Napr. https://journalofbigdata.springeropen.com/articles/10.1186/s40537-020-00382-x (referencia [19]) alebo  Leevy, Joffrey L., and Taghi M. Khoshgoftaar. "A survey and analysis of intrusion detection models based on cse-cic-ids2018 big data." Journal of Big Data 7.1 (2020): 1-19.

Points proposed by reviewer: 90

Grade proposed by reviewer: A

Responsibility: Mgr. et Mgr. Hana Odstrčilová