Přístupnostní navigace
E-application
Search Search Close
Master's Thesis
Author of thesis: Ing. Eva Moresová
Acad. year: 2023/2024
Supervisor: doc. Ing. Petr Matoušek, Ph.D., M.A.
Reviewer: Ing. Ivana Burgetová, Ph.D.
Log anomaly detection is an important process that can help prevent or detect system failures, intrusion attempts and other malicious behavior. However, modern systems produce amounts of log data far beyond what is possible to analyze manually. That is why a variety of automated methods were developed for this purpose, ranging from rule based techniques to approaches using deep learning. The aim of this thesis is to compare several log anomaly detection methods to determine which one is the best suited for application on large real-world log files, represented by a collection of logs from production AAA (authentication, authorization, accounting) servers provided by AT&T. Apart from AT&T logs, the methods were applied to and evaluated on two other labeled datasets, one of which was enriched by synthetically generated anomalies. This thesis adopts three unsupervised anomaly detection methods: Local Outlier Factor, DBSCAN clustering and an OPTICS-based framework. The former two examine the logs on a sample-level, while the latter analyzes entire log sequences. All methods achieved results comparable to works with similar approaches.
log anomaly detection, unsupervised learning, Local Outlier Factor, DBSCAN, OPTICS
Date of defence
19.06.2024
Result of the defence
Defended (thesis was successfully defended)
Grading
C
Process of defence
Studentka nejprve prezentovala výsledky, kterých dosáhla v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Studentka následně odpověděla na otázky oponenta a na další otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studentky na položené otázky rozhodla práci hodnotit stupněm C.
Topics for thesis defence
Language of thesis
English
Faculty
Fakulta informačních technologií
Department
Department of Information Systems
Study programme
Information Technology and Artificial Intelligence (MITAI)
Specialization
Software Engineering (NSEN)
Composition of Committee
doc. Ing. Ondřej Ryšavý, Ph.D. (předseda) doc. RNDr. Jitka Kreslíková, CSc. (člen) doc. Ing. Vladimír Janoušek, Ph.D. (člen) Ing. Vladimír Bartík, Ph.D. (člen) Ing. Šárka Květoňová, Ph.D. (člen) Ing. Radek Hranický, Ph.D. (člen)
Supervisor’s reportdoc. Ing. Petr Matoušek, Ph.D., M.A.
Práce splňuje základní parametry kladené na diplomové práce, tj. návrh a použití metody, zpracování dat a zhodnocení výsledků. Vybrané metody na daných datesetech nedosahují dobrých výsledků a je otázkou, proč tomu tak je. Nicméně celkové úsilí diplomantky na tématu považuji za dostačující a hodnotím práci stupně E, 55 bodů.
Součástí DP bylo navrhnout a implementovat systém pro detekci anomálií v logovacích souborech pomocí strojového učení. Jednalo se externí zadání pro firmu AT&T. Protože dataset od AT&T nebyl anotovaný, pracovala studentka i z dalšími datasety HDFS a LANL. Pro detekci použila metody Local Outlier Factor, DBSCAN a OPTICS. Vzhledem k problémům s přípravou dat, použitím vybraných metod a vyhodnocením výsledků bylo dokončení práce posunuto. Výsledná verze implementujte výše uvedené metody, nicméně výsledky detekce nejsou přesvědčivé. Protože nezbyl čas na důkladnější analýzu, je otázkou, zda příčinou špatné detekce je nevhodně vybraná metoda, zvolený způsob předzpracování dat či nastavení parametrů metody.
Práce byla odevzdána až po termínu a její obsah jsem neměl možnost konzultovat.
Práce nebyla publikována.
Studentka využívala doporučenou literaturu.
Studentka byla v začátku řešení aktivní, nicméně v druhé části semestru práce se ukázalo, že použité metody k-means a XGBoost nedávají dobré výsledky a práce příliš nepostupovala. Následně studentka vybrala jiné metody pro detekci. Jejich příprava a použití trvaly dlouho, takže se nepodařilo řešení dotáhnout do použitelného výsledku.
Grade proposed by supervisor: E
Reviewer’s reportIng. Ivana Burgetová, Ph.D.
Zadání diplomové práce studentka podle mého názoru splnila průměrným způsobem. Navrhla a implementovala řešení, které je schopné detekovat některé typy anomálií, a přestože není ideální, tak je funkční. Proto navrhuji hodnocení stupněm C.
Evaluation level: zadání splněno
Evaluation level: je v obvyklém rozmezí
Logická struktura technické zprávy je povětšinou dobrá a jednotlivé části na sebe dobře navazují. Výjimku představuje kapitola 2, kde uspořádání jednotlivých částí je poněkud chaotické. V práci bych také uvítala podrobnější zhodnocení dosažených výsledků a podrobnější popis toho, co vlastně v rámci implementační části práce vzniklo.
Po jazykové stránce se jedná o kvalitní práci s pouze malým počtem chyb a překlepů. Po typografické stránce je práce v pořádku.
Práci s literaturou hodnotím velmi kladně, studentka využila velké množství dostupných a kvalitních zdrojů. Převzaté prvky jsou řádně odlišeny od vlastních výsledků a úvah.
V rámci realizačního výstupu studentka implementovala sadu skriptů, které umožní předzpracování logů a následnou detekci anomálií v předzpracovaných datech pomocí tří různých metod. Vytvořené skripty jsou funkční a jsou schopné detekovat některé druhy anomálií. Lepšímu hodnocení brání to, že dvě ze tří použitých metody (LOF a DBSCAN) jsou vhodné spíše na statická data. Pro detekci anomálií v logovacích systémech by bylo vhodné vyzkoušet jejich varianty určené pro proudy dat.
V rámci diplomové práce studentka ověřila použitelnost metod LOF, DBSCAN a OPTICS pro detekci anomálií v souborech logů. Z výsledků je zřejmé, že všechny tyto metody jsou schopné detekovat nějaký typ anomálií. Pro praxi by mohla být přímo použitelná pravděpodobně pouze metoda OPTICS. Pro metody LOF a DBSCAN by patrně bylo nutné přejít k jejich verzím určených pro proudy dat. Nicméně výsledky práce ukazují, že tyto metody mohou být pro detekci anomálií užitečné.
Evaluation level: obtížnější zadání
Zadání považuji za mírně obtížnější, protože systémové logy představují netriviální data pro dolování znalostí. Zároveň detekce anomálií představuje problém, který je obvykle komplikován mnoha faktory (shluky anomálií, anomálie příliš podobné běžným vzorkům apod.).
Grade proposed by reviewer: C
Responsibility: Mgr. et Mgr. Hana Odstrčilová