Bachelor's Thesis

Optimization of network data reduction

Final Thesis 2.27 MB

Author of thesis: Matúš Mihaljevič

Acad. year: 2025/2026

Supervisor: Ing. Martin Žádník, Ph.D.

Reviewer: Ing. Radek Hranický, Ph.D.

Abstract:

This thesis optimizes data reduction techniques used to construct compact datasets of legitimate network traffic for training machine learning DDoS mitigation modules. The proposed changes use principles of information theory, genetic algorithms, and clustering to determine which reduction strategies preserve important traffic properties under strong data reduction. The quality of the resulting subsets is evaluated through statistical preservation metrics and the practical classification performance of the inferred mitigation rules. The results do not identify one best algorithm for all cases. They show practical tradeoffs between structural preservation, False Positive rate, and attack coverage. In selected configurations, the evaluated changes improve statistical preservation by up to 46 % and the effectiveness of the inferred rules by up to 14 %.

Keywords:

data reduction, data variability, dataset quality, sampling, clustering, DDoS mitigation, network traffic, reduction algorithm, reduction techniques, machine learning

Date of defence

17.06.2026

Result of the defence

Defended (thesis was successfully defended)

znamkaAznamka

Grading

A

Process of defence

Student nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta a na další otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm A.

Topics for thesis defence

  1. Proč podle vás zachování statistické struktury dat nevede vždy k lepší klasifikační účinnosti?
  2. Podle čeho doporučujete v praxi volit mezi technikami Uniform, Service, Subnet, Cluster, EGA apod.?
  3. Dokázali byste z prezentace vysvětlit obrázek chromozomu, konkrétně n a seed?
  4. V čem byla vaše práce tak rozsáhlá?

Language of thesis

English

Faculty

Department

Study programme

Information Technology (BIT)

Composition of Committee

doc. Ing. František Zbořil, Ph.D. (předseda)
doc. Ing. Vojtěch Mrázek, Ph.D. (místopředseda)
Ing. Petr Veigend, Ph.D. (člen)
Ing. David Bařina, Ph.D. (člen)
Ing. Miloš Musil, Ph.D. (člen)

Supervisor’s report
Ing. Martin Žádník, Ph.D.

Student byl v průběhu celého řešení aktivní a přicházel s vlastními nápady na zlepšení výsledků. Rozsah prací, které student provedl, se odráží ve velmi kvalitní a informačně bohaté zprávě.

Evaluation criteria Verbal classification
Informace k zadání

Zadání práce bylo obtížnější. Práce splnila zadání nad očekávání. Student navrhl inovativní přístupy k redukci datových sad, vyhodnotil je a provedl pečlivou analýzu výsledků.

Práce s literaturou

Student dohledával relevatní literaturu a správně ji používal a citoval ve své práci.

Aktivita během řešení, konzultace, komunikace

Student byl na konzultace vždy velmi dobře připraven, například výstupy experimentů byly připraveny do přehledných grafů.

Aktivita při dokončování

Práce byla dokončena v předstihu a dostatečně konzultována.

Publikační činnost, ocenění
Points proposed by supervisor: 100

Grade proposed by supervisor: A

Reviewer’s report
Ing. Radek Hranický, Ph.D.

Bakalářská práce pana Mihaljeviče řeší reálný problém kolem systému DDoS Protector - čistička provozu (CESNET) a přímo navazuje na předchozí DP Veroniky Krobotové. Hlavním přínosem jsou nové praktické poznatky v oblasti redukce legitimních síťových dat pro potřeby DDoS mitigace. Autor nejen optimalizuje existující algoritmy, ale přidává nové redukční techniky, paralelizaci a další vylepšení. Diskutuje také praktické kompromisy mezi zachováním statistické struktury a úpěšností klasifikace.


S ohledem na rozsah provedené práce, náročnost zadání a vysokou kvalitu zpracování, doporučuji hodnocení stupněm "A" (výborně).

Evaluation criteria Verbal classification Points
Náročnost zadání

Evaluation level: obtížnější zadání

Na poměry bakalářské práce se jedná o obtížnější zadání. Student musel porozumět oblasti mitigace DDoS útoků, práci s velkými síťovými daty, existujícímu systému DDoS Protector a redukčním algoritmům. Výsledky navíc nelze jednoduše vyhodnotit jednou metrikou. Student tak musel interpretovat kompromisy mezi zachováním statistické struktury, omezením falešně pozitivních výsledků a úspěšným záchytem útoků.

Prezentační úroveň technické zprávy

Prezentační úroveň je velmi zdařilá, práce má logickou strukturu a jednotlivé kapitoly na sebe přirozeně navazují. Obsah je pro čtenáře srozumitelný, přičemž autor vhodně propojuje rešeršní, návrhovou, implementační a experimentální část. Zvláště pozitivně hodnotím kapitolu s experimenty, která je přehledně členěna podle jednotlivých přístupů. Autor u každého experimentu formuluje konkrétní hypotézy, které následně ověřuje. Oceňuji také, že autor výsledky vždy vhodně interpretuje a neomezuje se jen na prezentaci dat a grafů.

V sekci 4.1 autor zmiňuje pokročilé váhování jako jeden z hlavních cílů návrhu. Je proto škoda, že váhování podle podobnosti je pouze zmíněno a odloženo do budoucí práce.

Dysbalanci tříd autor řeší technikou SMOTE, přičemž správně přiznává, že syntetické pakety nemusí mít realistické hodnoty hlaviček. Ocenil bych však malé srovnávací měření, které by ukázalo, jak moc tento přístup ovlivňuje výsledky.

93
Formální úprava technické zprávy

Formální stránka práce je na vysoké úrovni. Autor vhodně odlišuje písmo u proměnných a klíčových pojmů. Formátování schémat a grafů je přehledné, všechny jsou korektně odkázány z textu a v něm vysvětleny. Oceňuji také seznam obrázků.

Jazyk je srozumitelný a většina textu je psána dobrou technickou angličtinou. Mírně rušivým dojmem působí nekonzistence jako "multiobjective" vs. "multi-objective", nebo chybějící spojovník v souslovích jako "density based", "self adaptation", či "multi gigabyte". Sekce 2.2.1 začíná slovy "Volumetric attacks, also known as volumetric attacks...".

97
Realizační výstup

Realizační výstup představuje vylepšený nástroj pro redukci provozu. Úpravy jsou rozsáhlejší. Celkově čítají přes 10 tisíc řádů kódu v jazyce Python. Kód je přehledný a dobře komentovaný. Pro orchestraci řešení student využil prostředí Python Poetry. Dále vytvořil užitečný skript, který spustí celou "pipeline", jejíž chování lze přizpůsobit v konfiguračním souboru.

Řešení je plně funkční a student mi jej osobně demonstroval.

100
Využitelnost výsledků

Práce přináší řadu nových, užitečných poznatků v oblasti redukce síťových dat pro účely DDoS mitigace. Očekávám, že její výsledky budou využity při dalším vývoji redukční části systému DDoS Protector.

Rozsah splnění požadavků zadání

Evaluation level: zadání splněno a práce obsahuje podstatná rozšíření

Zadání považuji za splněné v celém rozsahu. Student se neomezil pouze na úpravu stávajících redukčních metod, ale implementoval a experimentálně ověřil také evoluční přístupy EGA a NSGA-II. Dále přidal podporu paralelního zpracování.

Za rozšíření nad rámec zadání považuji analýzu vlivu zachování odlehlých toků a vyzkoušení alternativního přístupu Marginal Utility. Dalším rozšířením je orchestrační skript pro snadné spouštění na základě předem stanovené konfigurace.

Rozsah technické zprávy

Evaluation level: přesahuje obvyklé rozmezí

Práce je dosti rozsáhlá. Dle https://app.fit.vut.cz/theses-checker čítá 97.99 normostran. Obsah je však relevantní tématu a práce neobsahuje zbytečnou "vatu".

Práce s literaturou

Výběr literatury je na bakalářskou práci velmi široký - zahrnuje celkem 51 pramenů, které pokrývají DDoS mitigaci, vzorkování, deduplikaci a další relevantní témata. Všechna převzatá tvrzení jsou vhodně odcitována. Převzaté obrázky jsou v práci vždy korektně označeny jako "Taken from", "Adapted from" nebo "Remade from" s přílušným zdrojem. Jedinou drobnou výhradu mám k některým zjevně nekompletním referencím. Např. Zdroj č. 28 obsahuje podezřelé "In:. July 2025".

95
Topics for thesis defence:
  1. Podle čeho doporučujete v praxi volit mezi technikami Uniform, Service, Subnet, Cluster, EGA apod.?
  2. Proč podle vás zachování statistické struktury dat nevede vždy k lepší klasifikační účinnosti?
Points proposed by reviewer: 96

Grade proposed by reviewer: A

Responsibility: Mgr. et Mgr. Hana Odstrčilová