diplomová práce

Detekce anomálií v záznamech systémových událostí pomocí strojového učení

Text práce 2.42 MB

Autor práce: Ing. Eva Moresová

Ak. rok: 2023/2024

Vedoucí: doc. Ing. Petr Matoušek, Ph.D., M.A.

Oponent: Ing. Ivana Burgetová, Ph.D.

Abstrakt:

Detekcia anomálií v logoch je dôležitý proces, ktorý pomáha detekovať poruchy systému, pokusy o prienik do systému a ďalšie škodlivé správanie, prípadne týmto udalostiam umožňu\-je predchádzať. Moderné systémy však produkujú logy v množstvách, ktoré nie je možné analyzovať ručne. Preto sa na tento účel používa množstvo automatizovaných metód, od techník založených na pravidlách, až po prístupy používajúce hlboké učenie. Cieľom tejto diplomovej práce je porovnať niekoľko metód detekcie anomálií v logoch a určiť, ktorá z nich je najviac vhodná pre použitie na veľkých log súboroch z praxe. Reprezentantom takýchto dát je zbierka logov z produkčného AAA servera, ktoré boli poskytnuté firmou AT&T. Okrem AT&T logov boli metódy aplikované a vyhodnotené na dvoch ďalších anotovaných datasetoch, z ktorých jeden bol obohatený o synteticky generované anomálie. Táto práca využíva tri metódy detekcie anomálií: lokálny odľahlý faktor, zhlukovací algoritmus DBSCAN a  OPTICS framework. Prvé dve metódy skúmajú logy na úrovni jednotlivých záznamov, zatiaľ čo posledná analyzuje celé sekvencie logov. Všetky metódy dosiahli výsledky porovnateľné s prácami, ktoré realizujú podobné prístupy.

Klíčová slova:

detekcia anomálií v logoch, učenie bez učiteľa, lokálny faktor odľahlosti, DBSCAN, OPTICS

Termín obhajoby

19.06.2024

Výsledek obhajoby

obhájeno (práce byla úspěšně obhájena)

znamkaCznamka

Klasifikace

C

Průběh obhajoby

Studentka nejprve prezentovala výsledky, kterých dosáhla v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Studentka následně odpověděla na otázky oponenta a na další otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studentky na položené otázky rozhodla práci hodnotit stupněm C.

Otázky k obhajobě

  1. Kterou z implementovaných metod (případně s jakými parametry) byste doporučila pro detekci anomálií, kdybyste chtěla metodu, která nemusí nutně nalézt co největší počet anomálií, ale bude produkovat minimální množství falešně pozitivních hodnot?
  2. Jaké příznaky jste použila a kolik jich bylo?
  3. K jakému účelu byl použití XGBoost?
  4. Jaký byl rozdíl v počtu vzorků mezi třídami?

Jazyk práce

angličtina

Fakulta

Ústav

Studijní program

Informační technologie a umělá inteligence (MITAI)

Specializace

Softwarové inženýrství (NSEN)

Složení komise

doc. Ing. Ondřej Ryšavý, Ph.D. (předseda)
doc. RNDr. Jitka Kreslíková, CSc. (člen)
doc. Ing. Vladimír Janoušek, Ph.D. (člen)
Ing. Vladimír Bartík, Ph.D. (člen)
Ing. Šárka Květoňová, Ph.D. (člen)
Ing. Radek Hranický, Ph.D. (člen)

Práce splňuje základní parametry kladené na diplomové práce, tj. návrh a použití metody, zpracování dat a zhodnocení výsledků. Vybrané metody na daných datesetech nedosahují dobrých výsledků a je otázkou, proč tomu tak je. Nicméně celkové úsilí diplomantky na tématu považuji za dostačující a hodnotím práci stupně E, 55 bodů.

Kritérium hodnocení Slovní hodnocení
Informace k zadání

Součástí DP bylo navrhnout a implementovat systém pro detekci anomálií v logovacích souborech pomocí strojového učení. Jednalo se externí zadání pro firmu AT&T. Protože dataset od AT&T nebyl anotovaný, pracovala studentka i z dalšími datasety HDFS a LANL. Pro detekci použila metody Local Outlier Factor, DBSCAN a OPTICS. Vzhledem k problémům s přípravou dat, použitím vybraných metod a vyhodnocením výsledků bylo dokončení práce posunuto. Výsledná verze implementujte výše uvedené metody, nicméně výsledky detekce nejsou přesvědčivé. Protože nezbyl čas na důkladnější analýzu, je otázkou, zda příčinou špatné detekce je nevhodně vybraná metoda, zvolený způsob předzpracování dat či nastavení parametrů metody.

Aktivita při dokončování

Práce byla odevzdána až po termínu a její obsah jsem neměl možnost konzultovat.

Publikační činnost, ocenění

Práce nebyla publikována.

Práce s literaturou

Studentka využívala doporučenou literaturu.

Aktivita během řešení, konzultace, komunikace

Studentka byla v začátku řešení aktivní, nicméně v druhé části semestru práce se ukázalo, že použité metody k-means a XGBoost nedávají dobré výsledky a práce příliš nepostupovala. Následně studentka vybrala jiné metody pro detekci. Jejich příprava a použití trvaly dlouho, takže se nepodařilo řešení dotáhnout do použitelného výsledku.

Výsledný počet bodů navržený vedoucím: 55

Známka navržená vedoucím: E

Zadání diplomové práce studentka podle mého názoru splnila průměrným způsobem. Navrhla a implementovala řešení, které je schopné detekovat některé typy anomálií, a přestože není ideální, tak je funkční. Proto navrhuji hodnocení stupněm C.

Kritérium hodnocení Slovní hodnocení Body
Rozsah splnění požadavků zadání

Stupeň hodnocení: zadání splněno

Rozsah technické zprávy

Stupeň hodnocení: je v obvyklém rozmezí

Prezentační úroveň technické zprávy

Logická struktura technické zprávy je povětšinou dobrá a jednotlivé části na sebe dobře navazují. Výjimku představuje kapitola 2, kde uspořádání jednotlivých částí je poněkud chaotické. V práci bych také uvítala podrobnější zhodnocení dosažených výsledků a podrobnější popis toho, co vlastně v rámci implementační části práce vzniklo.

70
Formální úprava technické zprávy

Po jazykové stránce se jedná o kvalitní práci s pouze malým počtem chyb a překlepů. Po typografické stránce je práce v pořádku.

84
Práce s literaturou

Práci s literaturou hodnotím velmi kladně, studentka využila velké množství dostupných a kvalitních zdrojů. Převzaté prvky jsou řádně odlišeny od vlastních výsledků a úvah.

88
Realizační výstup

V rámci realizačního výstupu studentka implementovala sadu skriptů, které umožní předzpracování logů a následnou detekci anomálií v předzpracovaných datech pomocí tří různých metod. Vytvořené skripty jsou funkční a jsou schopné detekovat některé druhy anomálií. Lepšímu hodnocení brání to, že dvě ze tří použitých metody (LOF a DBSCAN) jsou vhodné spíše na statická data. Pro detekci anomálií v logovacích systémech by bylo vhodné vyzkoušet jejich varianty určené pro proudy dat.

67
Využitelnost výsledků

V rámci diplomové práce studentka ověřila použitelnost metod LOF, DBSCAN a OPTICS pro detekci anomálií v souborech logů. Z výsledků je zřejmé, že všechny tyto metody jsou schopné detekovat nějaký typ anomálií. Pro praxi by mohla být přímo použitelná pravděpodobně pouze metoda OPTICS. Pro metody LOF a DBSCAN by patrně bylo nutné přejít k jejich verzím určených pro proudy dat. Nicméně výsledky práce ukazují, že tyto metody mohou být pro detekci anomálií užitečné.

Náročnost zadání

Stupeň hodnocení: obtížnější zadání

Zadání považuji za mírně obtížnější, protože systémové logy představují netriviální data pro dolování znalostí. Zároveň detekce anomálií představuje problém, který je obvykle komplikován mnoha faktory (shluky anomálií, anomálie příliš podobné běžným vzorkům apod.).

Otázky k obhajobě:
  1. Kterou z implementovaných metod (případně s jakými parametry) byste doporučila pro detekci anomálií, kdybyste chtěla metodu, která nemusí nutně nalézt co největší počet anomálií, ale bude produkovat minimální množství falešně pozitivních hodnot?
Výsledný počet bodů navržený oponentem: 72

Známka navržená oponentem: C

Odpovědnost: Mgr. et Mgr. Hana Odstrčilová