Přístupnostní navigace
E-přihláška
Vyhledávání Vyhledat Zavřít
diplomová práce
Autor práce: Ing. Eva Moresová
Ak. rok: 2023/2024
Vedoucí: doc. Ing. Petr Matoušek, Ph.D., M.A.
Oponent: Ing. Ivana Burgetová, Ph.D.
Detekcia anomálií v logoch je dôležitý proces, ktorý pomáha detekovať poruchy systému, pokusy o prienik do systému a ďalšie škodlivé správanie, prípadne týmto udalostiam umožňu\-je predchádzať. Moderné systémy však produkujú logy v množstvách, ktoré nie je možné analyzovať ručne. Preto sa na tento účel používa množstvo automatizovaných metód, od techník založených na pravidlách, až po prístupy používajúce hlboké učenie. Cieľom tejto diplomovej práce je porovnať niekoľko metód detekcie anomálií v logoch a určiť, ktorá z nich je najviac vhodná pre použitie na veľkých log súboroch z praxe. Reprezentantom takýchto dát je zbierka logov z produkčného AAA servera, ktoré boli poskytnuté firmou AT&T. Okrem AT&T logov boli metódy aplikované a vyhodnotené na dvoch ďalších anotovaných datasetoch, z ktorých jeden bol obohatený o synteticky generované anomálie. Táto práca využíva tri metódy detekcie anomálií: lokálny odľahlý faktor, zhlukovací algoritmus DBSCAN a OPTICS framework. Prvé dve metódy skúmajú logy na úrovni jednotlivých záznamov, zatiaľ čo posledná analyzuje celé sekvencie logov. Všetky metódy dosiahli výsledky porovnateľné s prácami, ktoré realizujú podobné prístupy.
detekcia anomálií v logoch, učenie bez učiteľa, lokálny faktor odľahlosti, DBSCAN, OPTICS
Termín obhajoby
19.06.2024
Výsledek obhajoby
obhájeno (práce byla úspěšně obhájena)
Klasifikace
C
Průběh obhajoby
Studentka nejprve prezentovala výsledky, kterých dosáhla v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Studentka následně odpověděla na otázky oponenta a na další otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studentky na položené otázky rozhodla práci hodnotit stupněm C.
Otázky k obhajobě
Jazyk práce
angličtina
Fakulta
Fakulta informačních technologií
Ústav
Ústav informačních systémů
Studijní program
Informační technologie a umělá inteligence (MITAI)
Specializace
Softwarové inženýrství (NSEN)
Složení komise
doc. Ing. Ondřej Ryšavý, Ph.D. (předseda) doc. RNDr. Jitka Kreslíková, CSc. (člen) doc. Ing. Vladimír Janoušek, Ph.D. (člen) Ing. Vladimír Bartík, Ph.D. (člen) Ing. Šárka Květoňová, Ph.D. (člen) Ing. Radek Hranický, Ph.D. (člen)
Posudek vedoucíhodoc. Ing. Petr Matoušek, Ph.D., M.A.
Práce splňuje základní parametry kladené na diplomové práce, tj. návrh a použití metody, zpracování dat a zhodnocení výsledků. Vybrané metody na daných datesetech nedosahují dobrých výsledků a je otázkou, proč tomu tak je. Nicméně celkové úsilí diplomantky na tématu považuji za dostačující a hodnotím práci stupně E, 55 bodů.
Součástí DP bylo navrhnout a implementovat systém pro detekci anomálií v logovacích souborech pomocí strojového učení. Jednalo se externí zadání pro firmu AT&T. Protože dataset od AT&T nebyl anotovaný, pracovala studentka i z dalšími datasety HDFS a LANL. Pro detekci použila metody Local Outlier Factor, DBSCAN a OPTICS. Vzhledem k problémům s přípravou dat, použitím vybraných metod a vyhodnocením výsledků bylo dokončení práce posunuto. Výsledná verze implementujte výše uvedené metody, nicméně výsledky detekce nejsou přesvědčivé. Protože nezbyl čas na důkladnější analýzu, je otázkou, zda příčinou špatné detekce je nevhodně vybraná metoda, zvolený způsob předzpracování dat či nastavení parametrů metody.
Práce byla odevzdána až po termínu a její obsah jsem neměl možnost konzultovat.
Práce nebyla publikována.
Studentka využívala doporučenou literaturu.
Studentka byla v začátku řešení aktivní, nicméně v druhé části semestru práce se ukázalo, že použité metody k-means a XGBoost nedávají dobré výsledky a práce příliš nepostupovala. Následně studentka vybrala jiné metody pro detekci. Jejich příprava a použití trvaly dlouho, takže se nepodařilo řešení dotáhnout do použitelného výsledku.
Známka navržená vedoucím: E
Posudek oponentaIng. Ivana Burgetová, Ph.D.
Zadání diplomové práce studentka podle mého názoru splnila průměrným způsobem. Navrhla a implementovala řešení, které je schopné detekovat některé typy anomálií, a přestože není ideální, tak je funkční. Proto navrhuji hodnocení stupněm C.
Stupeň hodnocení: zadání splněno
Stupeň hodnocení: je v obvyklém rozmezí
Logická struktura technické zprávy je povětšinou dobrá a jednotlivé části na sebe dobře navazují. Výjimku představuje kapitola 2, kde uspořádání jednotlivých částí je poněkud chaotické. V práci bych také uvítala podrobnější zhodnocení dosažených výsledků a podrobnější popis toho, co vlastně v rámci implementační části práce vzniklo.
Po jazykové stránce se jedná o kvalitní práci s pouze malým počtem chyb a překlepů. Po typografické stránce je práce v pořádku.
Práci s literaturou hodnotím velmi kladně, studentka využila velké množství dostupných a kvalitních zdrojů. Převzaté prvky jsou řádně odlišeny od vlastních výsledků a úvah.
V rámci realizačního výstupu studentka implementovala sadu skriptů, které umožní předzpracování logů a následnou detekci anomálií v předzpracovaných datech pomocí tří různých metod. Vytvořené skripty jsou funkční a jsou schopné detekovat některé druhy anomálií. Lepšímu hodnocení brání to, že dvě ze tří použitých metody (LOF a DBSCAN) jsou vhodné spíše na statická data. Pro detekci anomálií v logovacích systémech by bylo vhodné vyzkoušet jejich varianty určené pro proudy dat.
V rámci diplomové práce studentka ověřila použitelnost metod LOF, DBSCAN a OPTICS pro detekci anomálií v souborech logů. Z výsledků je zřejmé, že všechny tyto metody jsou schopné detekovat nějaký typ anomálií. Pro praxi by mohla být přímo použitelná pravděpodobně pouze metoda OPTICS. Pro metody LOF a DBSCAN by patrně bylo nutné přejít k jejich verzím určených pro proudy dat. Nicméně výsledky práce ukazují, že tyto metody mohou být pro detekci anomálií užitečné.
Stupeň hodnocení: obtížnější zadání
Zadání považuji za mírně obtížnější, protože systémové logy představují netriviální data pro dolování znalostí. Zároveň detekce anomálií představuje problém, který je obvykle komplikován mnoha faktory (shluky anomálií, anomálie příliš podobné běžným vzorkům apod.).
Známka navržená oponentem: C
Odpovědnost: Mgr. et Mgr. Hana Odstrčilová