Master's Thesis

Automatické generování vzorů regulárních výrazů

Final Thesis 4.24 MB

Author of thesis: Ing. Adam Hos

Acad. year: 2025/2026

Supervisor: Ing. Aleš Smrčka, Ph.D.

Reviewer: doc. Mgr. Lukáš Holík, Ph.D.

Abstract:

This thesis focuses on the automatic generation of patterns describing log events, specifically on the use of grok patterns within the concepts of state-of-the-art log parsers, where grok patterns have not yet been utilized. The foundation of the work is an analysis of representative log parsers, with emphasis on their differing approaches and on the mutual evaluation of their metrics on real-world datasets. On this basis, a tool using grok patterns for the same purpose has been developed. The work also includes automated evaluation of functional and non-functional requirements.

Keywords:

Rregular expressions, logs, grok patterns, regular expression generation, log parsing, event definition, event extraction, unstructured text processing, event template

Date of defence

24.06.2026

Result of the defence

Defended (thesis was successfully defended)

znamkaBznamka

Grading

B

Process of defence

Student nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta a na další otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm B.

Topics for thesis defence

  1. V posudku uvádím řadu konkrétních kritických bodů, vyjádřete se prosím k těm, kde to považujete za smysluplné.
  2. Pomohlo by škálovatelnosti zapojení rychlejšího pattern matcheru, jako RE2, Hyperscan?
  3. Kolikrát musíte procházet vstupní log?
  4. Uvažoval jste o možnosti agregace vstupních hodnot?

Language of thesis

Czech

Faculty

Department

Study programme

Information Technology and Artificial Intelligence (MITAI)

Specialization

Software Engineering (NSEN)

Composition of Committee

doc. Ing. Petr Matoušek, Ph.D., M.A. (předseda)
doc. RNDr. Jitka Kreslíková, CSc. (místopředseda)
doc. Ing. Vladimír Janoušek, Ph.D. (člen)
Ing. Libor Polčák, Ph.D. (člen)
Ing. Jan Pluskal, Ph.D. (člen)
Ing. Matěj Grégr, Ph.D. (člen)

Supervisor’s report
Ing. Aleš Smrčka, Ph.D.

Adam Hos byl velmi zodpovědným diplomantem, který se tématu věnoval systematicky a s nadprůměrným nasazením. Při řešení jednoznačně prokázal inženýrské schopnosti: dokázal nastudovat aktuální stav podle doporučených zdrojů i vlastní rešerše, navrhnout nový algoritmus, experimentálně jej ověřit a samostatně vyhodnotit dosažené výsledky. Oceňuji také jeho důslednost a samostatnost.

Evaluation criteria Verbal classification
Informace k zadání

Téma diplomové práce navazuje na výzkum v oblasti verifikace systémů za běhu na základě logů. Cílem diplomové práce bylo navrhnout a implementovat metodu automatického výběru sady regulárních výrazů pro správnou identifikaci logovací zprávy. Řešení tohoto problému je spíše výzkumného charakteru a vyžaduje důkladné studium a podrobnou analýzu. Výsledek, kterého student dosáhl, splňuje všechna má očekávání.

Aktivita při dokončování

Diplomovou práci student dokončil v dostatečném předstihu. Prototypovou implementaci měl hotovou s dlouhým předstihem a na kontrolu finální zprávy byl dostatek času.

Publikační činnost, ocenění
Práce s literaturou

Základní studijní prameny byly studentovi doporučeny, zbytek literatury si našel sám. Proti jeho výběru nemám námitky.

Aktivita během řešení, konzultace, komunikace

Student byl velmi aktivní. Na pravidelné konzultace chodil připravený a vždy se znatelným pokrokem. Aktivita byla po celou dobu stabilní.

Points proposed by supervisor: 95

Grade proposed by supervisor: A

Kvalitní práce se zajímavými výsledky, s občasnými hrubými hranami. 

Evaluation criteria Verbal classification Points
Rozsah splnění požadavků zadání

Evaluation level: zadání splněno

Student přišel s pragmatickým a poměrně a zajímavým řešením, které poměrně pečlivě vyhodnotil, implementoval, zdokonalil řadou heuristik a nalezením vhodných parametrů. Řešení má praktický potenciál, text je kvalitní. 

Rozsah technické zprávy

Evaluation level: je v obvyklém rozmezí

Prezentační úroveň technické zprávy

Text je celkově poměrně kvalitní
Mé výhrady:
Česky (škoda).
Některé klíčové pojmy by měly být zavedeny formálně, zejména Grok vzory. 
Srozumitelný přehled a hlavní sdělení prezentace je někdy třeba rekonstruovat z technických detailů, např. v experimentální části. 



82
Formální úprava technické zprávy

Bez výhrad.

85
Práce s literaturou

Poměrně náročné a chaotické state of the art nastudováno a citováno adekvátně.

90
Realizační výstup

Práce je rozsáhlá a technicky netriviální.
Student navrhl a implementoval reálný nástroj/knihovnu AGOREG a pečlivě jej vyhodnotil na benchmarcích typu Loghub, přišel s řadou optimalizací.
Několik výhrad:
Některé velmi specifické požadavky na produkt u takto otevřeného zadání působí uměle a nejsou dobře zdůvodněné (GA ≥ 70 %, jedna šablona na záznam).
Vyloučení AI není dobře zdůvodněné, LLMs by mohly být velmi zajímavým nástrojem pro odvození pojmenovaných podvýrazů regulárních výrazů (není třeba dát LLM na vstup celý log).
Ve srovnání s ostatními nástroji figuruje úprava formátu šablon, která nabyla použita pro všechny srovnané nástroje.
Škálovalenost je slabina nástroje.

Využitelnost výsledků

Nástroj má potenciál být použitelný, nalezená řešení jsou zajímavá.

Náročnost zadání

Evaluation level: obtížnější zadání

Zadaný problém má výraznou výzkumnou složku, řešení není zdaleka zjevné. Zorientovat se ve state of the art a zvolit správný přístup není jednoduché, existuje řada netriviálních technik.

Topics for thesis defence:
  1. V posudku uvádím řadu konkrétních kritických bodů, vyjádřete se prosím k těm, kde to považujete za smysluplné.
  2. Pomohlo by škálovatelnosti zapojení rychlejšího pattern matcheru, jako RE2, Hyperscan?
Points proposed by reviewer: 85

Grade proposed by reviewer: B

Responsibility: Mgr. et Mgr. Hana Odstrčilová