Přístupnostní navigace
E-application
Search Search Close
Master's Thesis
Author of thesis: Ing. Kryštof Andrýsek
Acad. year: 2025/2026
Supervisor: Ing. Michal Hradiš, Ph.D.
Reviewer: doc. Ing. Vítězslav Beran, Ph.D.
This thesis addresses the design, implementation, and critical evaluation of an adaptive Retrieval-Augmented Generation (RAG) system within the semANT application for processing Czech historical sources. The primary technical contribution is the development of an advanced architecture based on LangGraph technology, which integrates Multi-Query retrieval, Step-Back prompting, and an automatic web search fallback mechanism. The solution incorporates an innovative language router to ensure semantic and linguistic consistency in Czech responses, alongside a unique interactive explanation feature for highlighted text segments, thereby increasing system credibility. A central part of this work is a systematic analysis of the reliability of Large Language Models as automated judges (LLM-as-a-judge). As part of the experimental phase, five model classes were validated against expert human consensus across datasets of varying complexity. The results demonstrate a statistically significant 12 % increase in answer relevance according to automated metrics and a 21 % increase based on human judgment on a complex query dataset, while maintaining high faithfulness. Furthermore, this work quantifies the sensitivity threshold of LLM judges in the Czech language and provides a methodological guide for predicting evaluation uncertainty based on dataset parameters and the chosen evaluator.
RAG, Retrieval-Augmented Generation, LLM, semantic search, semANT, RAG evaluation, synthetic dataset, vector database, Weaviate, LangChain, Ragas, DeepEval
Date of defence
24.06.2026
Result of the defence
Defended (thesis was successfully defended)
Grading
A
Process of defence
Student nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta a na další otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm A.
Topics for thesis defence
Language of thesis
Czech
Faculty
Fakulta informačních technologií
Department
Department of Computer Graphics and Multimedia
Study programme
Information Technology and Artificial Intelligence (MITAI)
Specialization
Machine Learning (NMAL)
Composition of Committee
prof. Dr. Ing. Jan Černocký (předseda) doc. Ing. Vítězslav Beran, Ph.D. (místopředseda) doc. Ing. Ondřej Lengál, Ph.D. (člen) doc. Ing. František Zbořil, Ph.D. (člen) Ing. Michal Hradiš, Ph.D. (člen) Ing. Martin Fajčík, Ph.D. (člen)
Supervisor’s reportIng. Michal Hradiš, Ph.D.
Cílem studenta jednoznačně bylo vytvořit kvalitní práci. Zapojil se do společného projektu a výrazně k němu přispěl. Ochotně se zaměřil i problematičtější stránky řešeného problému a dobře se v tématu zorientoval. Vytvořil jak kvalitní technické řešení, tak výsledky jeho experimentů poskytují zájímavé informace.
Téma je přímo inspirované projektem semANT a student se podílel na tvorbě aplikace, která je plánovaným výsledkem projektu. Výsledek této práce je nyní součástí dané aplikace. Oproti původnímu plánu se student výrazně zaměřil i na metodiku vyhodnocování RAG systémů.
Student práci dokončil s předstihem, konečnou podobu textu dobře konzultoval.
Student připravil příspěvek na Excel@FIT 2026, ale kvůli technickému nedorozumnění, příspěvek nepřihlásil.
Student si aktivně vyhledal potřebné zdroje, dobře se zorientoval v řešené oblasti a získané znalosti v práci dobře využil.
Student byl aktivní, pracoval soustavně a zapojil se do společného projektu.
Grade proposed by supervisor: A
Reviewer’s reportdoc. Ing. Vítězslav Beran, Ph.D.
Pan Kryštof Andrýsek zpracoval náročnější zadání velmi pečlivě a kvalitně. Nastudoval relevantní znalosti, navrhl metodický postup řešení a vytvořil vlastní relevantní datovou sadu včetně nové metody vyhodnocení RAG systémů. Experimenty prokázaly použitelnost metrik i funkčnost vlastního adaptivního RAG systému v kontextu domény historických dokumentů. Určitý prostor pro zlepšení představuje prezentační úroveň textu, zejména zvolená logická struktura. Celkově se však jedná o metodicky, teoreticky i prakticky velmi kvalitní komplexní práci.
Evaluation level: zadání splněno a práce obsahuje podstatná rozšíření
Zadání bylo splněno. Ačkoliv to zadání explicitně nevyžaduje, autor mohl provést pilotní experiment s reálnými uživateli v rámci bodu 6, a získat tak některé užitečné zkušenosti dříve a reflektovat je v řešení, například v podobě reformulace otázky, jak je uvedeno v kapitole 9. Nad rámec zadání ale autor realizoval funkční modul pro vysvětlení části odpovědi a navrhl vlastní doplňující metriku pro hodnocení vlastností RAG systému, což lze hodnotit jako podstatné rozšíření práce.
Evaluation level: je v obvyklém rozmezí
Text je psán srozumitelně a odborně. Některé informace jsou ale spíše obecné a méně informačně přínosné. To někdy vede k nejasným rozdílům u porovnávaných technologií a nástrojů (např. podkap. 3.2), jindy až ke značně nepřesným či diskutabilním informacím. Z textu také není zcela zřejmé, jak vlastní návrh a realizace využívají poznatky z kapitoly 4. Vzhledem k tomu, že adaptivní a agentní RAG systémy tvoří samotnou podstatu řešení (oproti např. základům NLP), zasloužily by si být výrazně lépe prostudovány a prezentovány – a to zejména z hlediska silných a slabých stránek již existujících řešení. Některé postupy a zjištění autora totiž vzbuzují otázku, zda již tato problematika nebyla zkoumána a zda nebylo možné na tyto znalosti navázat, místo jejich opětovného objevování.
Logické členění celého textu by mohlo být zvoleno vhodněji. Autor kombinuje teoretické poznatky s vlastním návrhem i implementačními postupy, což někdy vede k tomu, že jedno téma je prezentováno na různých místech textu. Pochopitelnost autorova návrhu a jeho vlastního přínosu je tak místy obtížnější. Jako méně vhodné se jeví také zařazení popisu iterativního vývoje; z této podkapitoly je značně obtížné si vzít ucelené ponaučení a pochopení, což umocňuje i nejasná informace o intenzivním ladění parametrů architektury, kdy není dobře zřejmé, o jaké parametry se vlastně jedná.
V práci se dále vyskytují menší prohřešky, jako je občasná absence vysvětlení některých termínů, zkratek nebo metrik (např. v tabulce 3.1 metrika nDCG, benchmarky MIRACL a MTEB v podkapitole 3.3, CRAG v podkapitole 6.3.2, definice Cohenova D v podkapitole 7.3 či DuckDuckGo). U obrázku 4.1 není zřejmý jeho původ a navíc je v něm naznačen tok informací pouze jedním směrem. V neposlední řadě pak autor porovnává svůj adaptivní RAG se svým základním RAG systémem, tento základní model však není řádně popsán, takže nelze dobře pochopit, jak je vlastně navržen.
Formální úprava práce je na dobré a kvalitní úrovni a po typografické i jazykové stránce je vše v pořádku. Text ale obsahuje systematickou chybu, kdy autor velkou řadu odstavců uvádí klíčovým termínem zakončeným tečkou, což je z hlediska interpunkce špatně. Dále pak výpisy promptů místy obsahují nesprávné dělení slov.
Výběr studijních pramenů je rozsáhlý a kvalitní; autor čerpá z velkého množství relevantních zdrojů. V textu dobře odděluje vlastní postup od převzatých znalostí a nástroje, návody či dokumentaci vhodně uvádí do poznámek pod čarou. Určitý prostor pro zlepšení se však nachází u obrázků, které prezentují převzaté znalosti – ty je potřeba odkazovat přímo u daného obrázku, nikoliv pouze v textu (např. obr. 2.4, 6.1, 6.2 apod.). Vzhledem k tomu, že autor navrhuje vlastní metriku pro měření dostatečnosti kontextu, bylo by také vhodné vysvětlit, zda a z jakého důvodu tuto metriku již nepoužívají jiní vědci.
Výsledkem práce je vlastní adaptivní RAG systém adaptovaný na dotazování v doméně historických dokumentů v českém, německém i dalších jazycích. Toto funkční řešení využívá a integruje vhodně vybrané existující vyhledávací a klasifikační nástroje, LLM a další technologie. Řešení obsahuje i podstatné prvky pokročilých RAG systémů, jako jsou Multi-query, Step-back prompting či automatický fallback na vyhledávání v internetové síti. Dostupné nástroje autor doplňuje o vlastní dílčí prvky a funkční moduly, jako je například modul pro vysvětlení části odpovědi. Své řešení integroval do existujícího projektu semANT a ke svému systému vytvořil i základní, ale plně funkční a klíčové prvky obsahující GUI. Programové řešení obsahuje primárně Python skripty pro automatickou tvorbu datasetu a experimenty, které jsou dobře komentovány a je v nich uvedeno autorství. Vlastní adaptivní RAG systém, který je integrován do projektu semANT, ale neobsahuje dostatečně pečlivý popis autorských částí a je velmi obtížné se v něm orientovat a určit, které části jsou autorské.
Klíčovou a velmi přínosnou částí práce je metodika pro vyhodnocování RAG systémů, která využívá LLM v roli soudce a porovnává různé existující LLM s lidským vyhodnocením. Při prezentaci výsledků porovnání LLM s lidským hodnotitelem je však potřeba mít na paměti, že lidé byli pouze dva. Metodika je tedy sice použitelná, ale výsledky je nutno brát s jistým omezením jejich vypovídající hodnoty. U vyhodnocení vlivu počtu potřebných otázek (podkapitola 7.2, obrázek 7.2) by pak bylo vhodné ještě lépe diskutovat samotný charakter otázek, jelikož nejde pouze o jejich počet, ale i o definovaný obsahový standard těchto otázek.
Výsledný vlastní adaptivní RAG systém je spíše kompilačního charakteru, přičemž je plně funkční, obsahuje aktuální moderní prvky zvyšující relevantnost a validitu jeho odpovědí, je dobře použitelný a veřejně dostupný pro praktické využití. Vlastní navržená metrika pro měření dostatečnosti kontextu přináší svým způsobem nové poznatky, avšak je potřeba hlubší diskuse s ohledem na již existující postupy a vědecké práce v dané oblasti.
Evaluation level: obtížnější zadání
Zadání práce lze označit za náročnější, jelikož pokrývá širokou škálu pokročilejších postupů v oblasti zpracování textu a velkých jazykových modelů. Určitý prostor pro zlepšení a větší výzvu zde představuje zejména tvorba relevantní datové sady, což s sebou nese také obtížnější vyhodnocování celého systému.
Grade proposed by reviewer: A
Responsibility: Mgr. et Mgr. Hana Odstrčilová