diplomová práce

Využití strojového učení pro predikci časových řad u počítačové komunikace

Text práce 1.92 MB

Autor práce: Ing. Aleš Kašpárek

Ak. rok: 2023/2024

Vedoucí: doc. Ing. Petr Matoušek, Ph.D., M.A.

Oponent: Ing. Ivana Burgetová, Ph.D.

Abstrakt:

Tato diplomová práce zkoumá komplexní svět síťových komunikačních systémů, které
vyžadují pokročilé metody předpovědi, aby fungovaly efektivně, spolehlivě a bezpečně. Se sítěmi stále složitější, přesné předvídání podmínek sítě a jejího provozu je rozhodující pro plánování, řízení zdrojů, detekci anomálií a zlepšování systémů.

Práce začíná představením konceptu časových řad dat, který pokládá základ pro pochopení dynamiky v síťových systémech. Pokračuje tím, že představuje řadu analytických nástrojů a technik pro rozbor tohoto druhu dat, se zvláštním zaměřením na tradiční statistické metody. Mezi nimi je modelům Moving Average (MA), Auto Regressive (AR) a Auto Regresive Integrated Moving Average (ARIMA) věnována zvláštní pozornost pro své schopnosti v předpovídání budoucích stavů.

Posun od tradičního předpovídání k používání strojového učení (ML) je ústředním bodem této práce. Práce zkoumá několik přístupů strojového učení (ML), jako jsou sítě Long Short-Term Memory (LSTM), konvoluční neuronové sítě (CNN), aby ukázala, jak mohou tyto metody identifikovat složité vzorce v síťovém provozu.

Klíčová slova:

časové řady, strojové učení, předpovědi, koncoluční neuronové sítě, Long Short-Term Memory, ARIMA

Termín obhajoby

18.06.2024

Výsledek obhajoby

obhájeno (práce byla úspěšně obhájena)

znamkaBznamka

Klasifikace

B

Průběh obhajoby

Student nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta a na další otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm B.

Otázky k obhajobě

  1. Při volbě parametrů MA modelu používáte hodnotu 52 až z konce ploché části křivky (obrázek 5.1). Nestačila by pro dosažení podobné přesnosti nižší hodnota, která by byla blíže místu zploštění křivky?
  2. Očekáváte v časových řadách periodicitu některých trendů?
  3. Jak přesně je rozdělen dataset na trénovací a testovací data?
  4. Máte představu, jak se zhoršuje přesnost předpovědi vzhledem ke zvětšujícímu se časovému intervalu do budoucna?

Jazyk práce

angličtina

Fakulta

Ústav

Studijní program

Informační technologie a umělá inteligence (MITAI)

Specializace

Strojové učení (NMAL)

Složení komise

prof. Dr. Ing. Jan Černocký (předseda)
doc. Ing. Lukáš Burget, Ph.D. (člen)
doc. Mgr. Lukáš Holík, Ph.D. (člen)
Ing. Michal Hradiš, Ph.D. (člen)
Ing. František Grézl, Ph.D. (člen)
prof. Ing. Lukáš Sekanina, Ph.D. (člen)

Práce přináší zajímavé a podrobné výsledky z testování různých predikčních metod aplikovaných na reálná data. Vzhledem k úrovni práce i dosaženým výsledkům navrhuji hodnocení A, 95 bodů.

Kritérium hodnocení Slovní hodnocení
Informace k zadání

Jednalo se o firemní zadání od firmy AT&T, kde tématem práce bylo  zkoumání modelů strojového učení pro predikci časových řad. Cílem práce bylo ověřit, které modely jsou vhodné pro detekci anomálií při monitorování stavu síťových zařízení, kdy monitorovaná data mají charakter časových řad. Student  se zaměřil na klasické metody pro modelování časových řad (Moving Average, Autoregrese, model ARIMA) a dále zkoumal použití konvolučních a rekurentních neuronových sítí (CNN, GRU, LSTM). U neuronových sítí student také zkoumal vliv parametrů modelů na přesnost výsledků.

Zadání bylo splněna a rozšířeno o metody neuronových sítí, které nebyly v původním zadání.

Aktivita při dokončování

Práce byla dokončena včas a výsledná podoba konzultována s vedoucím.

Publikační činnost, ocenění

Práce nebyla publikována.

Práce s literaturou

Student využíval při řešení doporučenou literaturu i vlastní zdroje.

Aktivita během řešení, konzultace, komunikace

Student byl během řešení aktivní, pravidelně docházel na konzultace, kde diskutoval navržené řešení.

Výsledný počet bodů navržený vedoucím: 95

Známka navržená vedoucím: A

Předloženou diplomovou práci hodnotím mírně nadprůměrně (stupněm B) díky neobvykle přesným výsledkům predikce, kterých student dosáhl.

Kritérium hodnocení Slovní hodnocení Body
Rozsah splnění požadavků zadání

Stupeň hodnocení: zadání splněno

Rozsah technické zprávy

Stupeň hodnocení: je v obvyklém rozmezí

Prezentační úroveň technické zprávy

Předložená technická zpráva je psána velmi stručným způsobem a místy zde chybí podstatné informace. Nejdůležitější chybějící informací je způsob rozdělení dat na trénovací a testovací (případně i validační) část. Z textu není jasné, na jak velkém časovém úseku byly použité metody trénovány a testovány. Podrobnější  informace k tomu, jak byly laděny parametry jednotlivých modelů, bych také uvítala.

70
Formální úprava technické zprávy

Po jazykové stránce se jedná o průměrnou práci. K typografické stránce mám dvě připomínky: nečitelné popisky grafu 5.1 a často se vyskytují dva nadpisy bezprostředně pod sebou, případně obrázek přímo pod nadpisem.

74
Práce s literaturou

Práci s literaturou hodnotím jako nejslabší část této diplomové práce. U diplomové práce bych čekala větší využití odborných článků z oblasti predikce časových řad. Převzaté prvky jsou řádně odlišeny od vlastních výsledků a úvah.

69
Realizační výstup

V rámci této diplomové student implementoval několik jupyter notebooků, které slouží k trénování a testování různých modelů pro predikci vývoje zvolené časové řady. Notebooky obsahují také části (včetně grafů) nezbytné pro volbu vhodných parametrů použitých modelů. I když realizační výstup této práce není příliš rozsáhlý, navrhuji nadstandardní hodnocení díky neobvykle dobré přesnosti natrénovaných modelů.

90
Využitelnost výsledků

Modely pro predikci řad typicky nelze přímo (včetně parametrů) použít pro různé časové řady. Nicméně postup volby parametrů, který student využil, se jeví jako velmi dobrý, protože při predikci bylo dosaženo velmi dobrých výsledků.

Náročnost zadání

Stupeň hodnocení: průměrně obtížné zadání

Otázky k obhajobě:
  1. Při volbě parametrů MA modelu používáte hodnotu 52 až z konce ploché části křivky (obrázek 5.1). Nestačila by pro dosažení podobné přesnosti nižší hodnota, která by byla blíže místu zploštění křivky?
Výsledný počet bodů navržený oponentem: 82

Známka navržená oponentem: B

Odpovědnost: Mgr. et Mgr. Hana Odstrčilová