Master's Thesis

Anomaly Detection in System Log Files Using Machine Learning

Final Thesis 2.42 MB

Author of thesis: Ing. Eva Moresová

Acad. year: 2023/2024

Supervisor: doc. Ing. Petr Matoušek, Ph.D., M.A.

Reviewer: Ing. Ivana Burgetová, Ph.D.

Abstract:

Log anomaly detection is an important process that can help prevent or detect system failures, intrusion attempts and other malicious behavior. However, modern systems produce amounts of log data far beyond what is possible to analyze manually. That is why a variety of automated methods were developed for this purpose, ranging from rule based techniques to approaches using deep learning. The aim of this thesis is to compare several log anomaly detection methods to determine which one is the best suited for application on large real-world log files, represented by a collection of logs from production AAA (authentication, authorization, accounting) servers provided by AT&T. Apart from AT&T logs, the methods were applied to and evaluated on two other labeled datasets, one of which was enriched by synthetically generated anomalies. This thesis adopts three unsupervised anomaly detection methods: Local Outlier Factor, DBSCAN clustering and an OPTICS-based framework. The former two examine the logs on a sample-level, while the latter analyzes entire log sequences. All methods achieved results comparable to works with similar approaches.

Keywords:

log anomaly detection, unsupervised learning, Local Outlier Factor, DBSCAN, OPTICS

Date of defence

19.06.2024

Result of the defence

Defended (thesis was successfully defended)

znamkaCznamka

Grading

C

Process of defence

Studentka nejprve prezentovala výsledky, kterých dosáhla v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Studentka následně odpověděla na otázky oponenta a na další otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studentky na položené otázky rozhodla práci hodnotit stupněm C.

Topics for thesis defence

  1. Kterou z implementovaných metod (případně s jakými parametry) byste doporučila pro detekci anomálií, kdybyste chtěla metodu, která nemusí nutně nalézt co největší počet anomálií, ale bude produkovat minimální množství falešně pozitivních hodnot?
  2. Jaké příznaky jste použila a kolik jich bylo?
  3. K jakému účelu byl použití XGBoost?
  4. Jaký byl rozdíl v počtu vzorků mezi třídami?

Language of thesis

English

Faculty

Department

Study programme

Information Technology and Artificial Intelligence (MITAI)

Specialization

Software Engineering (NSEN)

Composition of Committee

doc. Ing. Ondřej Ryšavý, Ph.D. (předseda)
doc. RNDr. Jitka Kreslíková, CSc. (člen)
doc. Ing. Vladimír Janoušek, Ph.D. (člen)
Ing. Vladimír Bartík, Ph.D. (člen)
Ing. Šárka Květoňová, Ph.D. (člen)
Ing. Radek Hranický, Ph.D. (člen)

Práce splňuje základní parametry kladené na diplomové práce, tj. návrh a použití metody, zpracování dat a zhodnocení výsledků. Vybrané metody na daných datesetech nedosahují dobrých výsledků a je otázkou, proč tomu tak je. Nicméně celkové úsilí diplomantky na tématu považuji za dostačující a hodnotím práci stupně E, 55 bodů.

Evaluation criteria Verbal classification
Informace k zadání

Součástí DP bylo navrhnout a implementovat systém pro detekci anomálií v logovacích souborech pomocí strojového učení. Jednalo se externí zadání pro firmu AT&T. Protože dataset od AT&T nebyl anotovaný, pracovala studentka i z dalšími datasety HDFS a LANL. Pro detekci použila metody Local Outlier Factor, DBSCAN a OPTICS. Vzhledem k problémům s přípravou dat, použitím vybraných metod a vyhodnocením výsledků bylo dokončení práce posunuto. Výsledná verze implementujte výše uvedené metody, nicméně výsledky detekce nejsou přesvědčivé. Protože nezbyl čas na důkladnější analýzu, je otázkou, zda příčinou špatné detekce je nevhodně vybraná metoda, zvolený způsob předzpracování dat či nastavení parametrů metody.

Aktivita při dokončování

Práce byla odevzdána až po termínu a její obsah jsem neměl možnost konzultovat.

Publikační činnost, ocenění

Práce nebyla publikována.

Práce s literaturou

Studentka využívala doporučenou literaturu.

Aktivita během řešení, konzultace, komunikace

Studentka byla v začátku řešení aktivní, nicméně v druhé části semestru práce se ukázalo, že použité metody k-means a XGBoost nedávají dobré výsledky a práce příliš nepostupovala. Následně studentka vybrala jiné metody pro detekci. Jejich příprava a použití trvaly dlouho, takže se nepodařilo řešení dotáhnout do použitelného výsledku.

Points proposed by supervisor: 55

Grade proposed by supervisor: E

Reviewer’s report
Ing. Ivana Burgetová, Ph.D.

Zadání diplomové práce studentka podle mého názoru splnila průměrným způsobem. Navrhla a implementovala řešení, které je schopné detekovat některé typy anomálií, a přestože není ideální, tak je funkční. Proto navrhuji hodnocení stupněm C.

Evaluation criteria Verbal classification Points
Rozsah splnění požadavků zadání

Evaluation level: zadání splněno

Rozsah technické zprávy

Evaluation level: je v obvyklém rozmezí

Prezentační úroveň technické zprávy

Logická struktura technické zprávy je povětšinou dobrá a jednotlivé části na sebe dobře navazují. Výjimku představuje kapitola 2, kde uspořádání jednotlivých částí je poněkud chaotické. V práci bych také uvítala podrobnější zhodnocení dosažených výsledků a podrobnější popis toho, co vlastně v rámci implementační části práce vzniklo.

70
Formální úprava technické zprávy

Po jazykové stránce se jedná o kvalitní práci s pouze malým počtem chyb a překlepů. Po typografické stránce je práce v pořádku.

84
Práce s literaturou

Práci s literaturou hodnotím velmi kladně, studentka využila velké množství dostupných a kvalitních zdrojů. Převzaté prvky jsou řádně odlišeny od vlastních výsledků a úvah.

88
Realizační výstup

V rámci realizačního výstupu studentka implementovala sadu skriptů, které umožní předzpracování logů a následnou detekci anomálií v předzpracovaných datech pomocí tří různých metod. Vytvořené skripty jsou funkční a jsou schopné detekovat některé druhy anomálií. Lepšímu hodnocení brání to, že dvě ze tří použitých metody (LOF a DBSCAN) jsou vhodné spíše na statická data. Pro detekci anomálií v logovacích systémech by bylo vhodné vyzkoušet jejich varianty určené pro proudy dat.

67
Využitelnost výsledků

V rámci diplomové práce studentka ověřila použitelnost metod LOF, DBSCAN a OPTICS pro detekci anomálií v souborech logů. Z výsledků je zřejmé, že všechny tyto metody jsou schopné detekovat nějaký typ anomálií. Pro praxi by mohla být přímo použitelná pravděpodobně pouze metoda OPTICS. Pro metody LOF a DBSCAN by patrně bylo nutné přejít k jejich verzím určených pro proudy dat. Nicméně výsledky práce ukazují, že tyto metody mohou být pro detekci anomálií užitečné.

Náročnost zadání

Evaluation level: obtížnější zadání

Zadání považuji za mírně obtížnější, protože systémové logy představují netriviální data pro dolování znalostí. Zároveň detekce anomálií představuje problém, který je obvykle komplikován mnoha faktory (shluky anomálií, anomálie příliš podobné běžným vzorkům apod.).

Topics for thesis defence:
  1. Kterou z implementovaných metod (případně s jakými parametry) byste doporučila pro detekci anomálií, kdybyste chtěla metodu, která nemusí nutně nalézt co největší počet anomálií, ale bude produkovat minimální množství falešně pozitivních hodnot?
Points proposed by reviewer: 72

Grade proposed by reviewer: C

Responsibility: Mgr. et Mgr. Hana Odstrčilová