Bachelor's Thesis

Simulation of Cyber Attacks and Dataset Creation for Training Neural Networks in Anomaly Detection in Log Records

Final Thesis 8.09 MB Appendix 202.61 kB

Author of thesis: Bc. Ján Dulák

Acad. year: 2024/2025

Supervisor: Ing. Yehor Safonov

Reviewer: Ing. Petr Ilgner

Abstract:

Security monitoring is one of the key components of modern information systems. One of its most important aspects is the generation, collection, and analysis of log records. This thesis focuses on the processing of log datasets with the aim of creating training datasets for models designed to recognize metakeys in log records.
Publicly available sources of log data were analyzed, with emphasis placed on their quality and variability. The work also includes methods for generating log records of simulated attacks using the tool Caldera in an isolated environment, thereby enriching the dataset with logs of known attacks. The data was subsequently preprocessed through filtering and deduplication operations to reduce its volume while preserving its variability. The scope of this thesis was extended by including reverse engineering of log parsers, which helped efficiently expand real data with templates of log records. The resulting dataset is intended for training neural networks focused on the identification of metakeys, contributing to more effective anomaly detection in log data.

Keywords:

attack simulation, dataset creation, log deduplication, LSH MinHash algorithm, metakey recognition, machine learning, security monitoring

Date of defence

17.06.2025

Result of the defence

Defended (thesis was successfully defended)

znamkaAznamka

Grading

A

Process of defence

Student prezentoval výsledky své práce a komise byla seznámena s posudky. Otázky oponenta: Uveďte jak byl stanoven metaklíčů (kap. 4.1.3). Jaký by mohl být jiný přístup k normalizaci záznamů, který by umožnil zpracování v reálném čase? Může samostatné strojové učení překonat praktické výzvy bezpečnostního monitoringu? Jaké jsou potenciální limity a rizika spojená se spoléháním na AI pro detekci hrozeb? Student obhájil bakalářskou práci a odpověděl na otázky členů komise a oponenta.

Language of thesis

Slovak

Faculty

Department

Study programme

Information Security (BPC-IBE)

Composition of Committee

doc. Ing. Jan Jeřábek, Ph.D. (předseda)
JUDr. Ing. František Kasl, Ph.D. (místopředseda)
Ing. Eva Holasová (člen)
Ing. Michal Skořepa, Ph.D. (člen)
Ing. Adrián Tomašov, Ph.D. (člen)
RNDr. Ing. Pavel Šeda, Ph.D. (člen)

Supervisor’s report
Ing. Yehor Safonov

Student úspěšně splnil cíle bakalářské práce, provedl důkladnou rešerši a zpracoval identifikované datové sady vhodné pro optimalizaci procesu zpracování a detekci anomálií záznamů bezpečnostních událostí. Praktická část byla zaměřena na tři hlavní přístupy k získávání dat: zpracování veřejně dostupných datových sad, generování vlastní anomální datové sady v experimentálním prostředí a vytvoření třetí sady na základě reverzního inženýrství parserů vybraného SIEM řešení. V teoretické části student popsal klíčové komponenty a výzvy spojené s realizací bezpečnostního monitoringu a podrobně analyzoval formáty a kategorie logových záznamů. Dále se věnoval problematice strojového učení (viz kapitola 2.2) a přístupům k detekci anomálií. V rámci rešerše identifikoval více než 50 relevantních veřejných datových sad, které přehledně shrnul v kapitole 3.1.3. Zaměřil se také na kvalitativní hodnocení dat, přítomnost anomálií, jejich strukturu a formát. Daný přistup umožnil efektivně odstranit chybná data a redukovat šum. Během semestru student pravidelně konzultoval a prezentoval dosažené výsledky. Prokázal schopnost práce s odbornou literaturou a v práci uvedl celkem 93 použitých zdrojů. Práce je logicky a správně strukturovaná, s řádným citováním všech použitých materiálů. Za jednu z nejzdařilejších částí práce považuji filtraci duplicitních záznamů pomocí algoritmu LSH MinHash, vlastní návrh procesu verzování datových souborů pomocí nástroje DVC a inverzní zpracování SIEM dekodérů, které přesahuje původní zadání práce. Výsledkem bylo získání 52 733 unikátních logových záznamů s pokrytím 333 unikátních zdrojů logů. Pozitivně hodnotím porovnání nástrojů pro simulaci útoků (PurpleSharp, Caldera, Atomic Red Team) s ohledem na jejich pokrytí podle MITRE ATT&CK (viz str. 36). Student použil nástroj Caldera ve spojení s nástrojem Vagrant pro správu virtuálního prostředí a technologii Wazuh pro pokročilou detekci anomálií. V závěrečné části se student věnoval normalizaci dat a trénování modelů pro úlohu rozpoznávání logových entit (NER). Slabší stránkou práce jsou místy přítomné gramatické a typografické chyby (např. na str. 63 a 64) a poměrně stručný technický popis vlastní datové sady s vygenerovanými útoky. Z důvodu rozsáhlé a velmi zdařilé praktické části, zpracování velkého množství datových zdrojů a inovativního přístupu k filtraci a verzování dat navrhuji finální hodnocení A (97 bodů). Points proposed by supervisor: 97

Grade proposed by supervisor: A

Reviewer’s report
Ing. Petr Ilgner

Předložená bakalářská práce se zabývá simulací kybernetických útoků a vytvořením datových sad určených pro trénování neuronových sítí k detekci anomálií v logových záznamech. Toto zadání je obtížnější, avšak lze konstatovat, že bylo studentem splněno velmi zdařile.

V praktické části se autor zaměřil na analýzu veřejných datových sad a doplnil je také vlastními záznamy získanými při simulaci útoků. Byla navržena a solidně popsána komplexní metodika jejich zpracování. Uvítal bych více informací o použitém modelu GPT (nesprávně je uvedeno "ChatGPT API"), bylo by vhodné diskutovat budoucí stálost výsledků či propustnost API. Pro účely vytvoření modelu však považuji zvolený přístup za dostatečný.

Po formální stránce je práce na velmi dobré úrovni, je dobře a logicky členěna. Práce s literaturou je v pořádku, autor vychází z 50 převážně odborných zdrojů a dokumentace. Bohužel se v práci překlepy a jiné gramatické chyby, po typografické stránce je pak na dobré úrovni.

Celkově považuji práci za velmi dobrou a navrhuji hodnocení A/96 b. Topics for thesis defence:
  1. Uveďte jak byl stanoven metaklíčů (kap. 4.1.3). Jaký by mohl být jiný přístup k normalizaci záznamů, který by umožnil zpracování v reálném čase?
  2. Může samostatné strojové učení překonat praktické výzvy bezpečnostního monitoringu? Jaké jsou potenciální limity a rizika spojená se spoléháním na AI pro detekci hrozeb?
Points proposed by reviewer: 96

Grade proposed by reviewer: A

Responsibility: Mgr. et Mgr. Hana Odstrčilová