Master's Thesis

Advanced RAG Systems for Historical Documents

Author of thesis: Ing. Kryštof Andrýsek

Acad. year: 2025/2026

Reviewer: doc. Ing. Vítězslav Beran, Ph.D.

Abstract:

This thesis addresses the design, implementation, and critical evaluation of an adaptive Retrieval-Augmented Generation (RAG) system within the semANT application for processing Czech historical sources. The primary technical contribution is the development of an advanced architecture based on LangGraph technology, which integrates Multi-Query retrieval, Step-Back prompting, and an automatic web search fallback mechanism. The solution incorporates an innovative language router to ensure semantic and linguistic consistency in Czech responses, alongside a unique interactive explanation feature for highlighted text segments, thereby increasing system credibility. A central part of this work is a systematic analysis of the reliability of Large Language Models as automated judges (LLM-as-a-judge). As part of the experimental phase, five model classes were validated against expert human consensus across datasets of varying complexity. The results demonstrate a statistically significant 12 % increase in answer relevance according to automated metrics and a 21 % increase based on human judgment on a complex query dataset, while maintaining high faithfulness. Furthermore, this work quantifies the sensitivity threshold of LLM judges in the Czech language and provides a methodological guide for predicting evaluation uncertainty based on dataset parameters and the chosen evaluator.

Keywords:

RAG, Retrieval-Augmented Generation, LLM, semantic search, semANT, RAG evaluation, synthetic dataset, vector database, Weaviate, LangChain, Ragas, DeepEval

Date of defence

24.06.2026

Result of the defence

Defended (thesis was successfully defended)

znamkaAznamka

Grading

Process of defence

Student nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta a na další otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm A.

Topics for thesis defence

Píšete, že pro doménu historických dokumentů je výrazně vhodnější spoléhat na hybridní vyhledávání. U jakých domén je to jinak?
Provedl jste moderované testování s deseti uživateli. Přesto v hodnocení (podkap. 8.3.2) řadu informací prezentujete jako "možná". Jak moderované testování probíhalo, že to nevíte u těchto osob více jistě? Proč se to pouze domníváte?
V závěru píšete o "nadřazenosti navrženého řešení". Co tím konkrétně myslíte? Adaptivní systém RAG nebo metodiku vyhodnocení RAG systémů? A především, nadřazené oproti čemu?
Zkoušel jste v práci i jiné modely než GPT?

Language of thesis

Czech

Faculty

Fakulta informačních technologií

Department

Department of Computer Graphics and Multimedia

Study programme

Information Technology and Artificial Intelligence (MITAI)

Specialization

Machine Learning (NMAL)

Composition of Committee

prof. Dr. Ing. Jan Černocký (předseda)
doc. Ing. Vítězslav Beran, Ph.D. (místopředseda)
doc. Ing. Ondřej Lengál, Ph.D. (člen)
doc. Ing. František Zbořil, Ph.D. (člen)
Ing. Michal Hradiš, Ph.D. (člen)
Ing. Martin Fajčík, Ph.D. (člen)

Supervisor’s report
Ing. Michal Hradiš, Ph.D.

Cílem studenta jednoznačně bylo vytvořit kvalitní práci. Zapojil se do společného projektu a výrazně k němu přispěl. Ochotně se zaměřil i problematičtější stránky řešeného problému a dobře se v tématu zorientoval. Vytvořil jak kvalitní technické řešení, tak výsledky jeho experimentů poskytují zájímavé informace.

Evaluation criteria	Verbal classification
Informace k zadání	Téma je přímo inspirované projektem semANT a student se podílel na tvorbě aplikace, která je plánovaným výsledkem projektu. Výsledek této práce je nyní součástí dané aplikace. Oproti původnímu plánu se student výrazně zaměřil i na metodiku vyhodnocování RAG systémů.
Aktivita při dokončování	Student práci dokončil s předstihem, konečnou podobu textu dobře konzultoval.
Publikační činnost, ocenění	Student připravil příspěvek na Excel@FIT 2026, ale kvůli technickému nedorozumnění, příspěvek nepřihlásil.
Práce s literaturou	Student si aktivně vyhledal potřebné zdroje, dobře se zorientoval v řešené oblasti a získané znalosti v práci dobře využil.
Aktivita během řešení, konzultace, komunikace	Student byl aktivní, pracoval soustavně a zapojil se do společného projektu.

Points proposed by supervisor: 90

Grade proposed by supervisor: A

Reviewer’s report
doc. Ing. Vítězslav Beran, Ph.D.

Pan Kryštof Andrýsek zpracoval náročnější zadání velmi pečlivě a kvalitně. Nastudoval relevantní znalosti, navrhl metodický postup řešení a vytvořil vlastní relevantní datovou sadu včetně nové metody vyhodnocení RAG systémů. Experimenty prokázaly použitelnost metrik i funkčnost vlastního adaptivního RAG systému v kontextu domény historických dokumentů. Určitý prostor pro zlepšení představuje prezentační úroveň textu, zejména zvolená logická struktura. Celkově se však jedná o metodicky, teoreticky i prakticky velmi kvalitní komplexní práci.

Evaluation criteria	Verbal classification	Points
Rozsah splnění požadavků zadání	Evaluation level: zadání splněno a práce obsahuje podstatná rozšíření Zadání bylo splněno. Ačkoliv to zadání explicitně nevyžaduje, autor mohl provést pilotní experiment s reálnými uživateli v rámci bodu 6, a získat tak některé užitečné zkušenosti dříve a reflektovat je v řešení, například v podobě reformulace otázky, jak je uvedeno v kapitole 9. Nad rámec zadání ale autor realizoval funkční modul pro vysvětlení části odpovědi a navrhl vlastní doplňující metriku pro hodnocení vlastností RAG systému, což lze hodnotit jako podstatné rozšíření práce.
Rozsah technické zprávy	Evaluation level: je v obvyklém rozmezí
Prezentační úroveň technické zprávy	Text je psán srozumitelně a odborně. Některé informace jsou ale spíše obecné a méně informačně přínosné. To někdy vede k nejasným rozdílům u porovnávaných technologií a nástrojů (např. podkap. 3.2), jindy až ke značně nepřesným či diskutabilním informacím. Z textu také není zcela zřejmé, jak vlastní návrh a realizace využívají poznatky z kapitoly 4. Vzhledem k tomu, že adaptivní a agentní RAG systémy tvoří samotnou podstatu řešení (oproti např. základům NLP), zasloužily by si být výrazně lépe prostudovány a prezentovány – a to zejména z hlediska silných a slabých stránek již existujících řešení. Některé postupy a zjištění autora totiž vzbuzují otázku, zda již tato problematika nebyla zkoumána a zda nebylo možné na tyto znalosti navázat, místo jejich opětovného objevování. Logické členění celého textu by mohlo být zvoleno vhodněji. Autor kombinuje teoretické poznatky s vlastním návrhem i implementačními postupy, což někdy vede k tomu, že jedno téma je prezentováno na různých místech textu. Pochopitelnost autorova návrhu a jeho vlastního přínosu je tak místy obtížnější. Jako méně vhodné se jeví také zařazení popisu iterativního vývoje; z této podkapitoly je značně obtížné si vzít ucelené ponaučení a pochopení, což umocňuje i nejasná informace o intenzivním ladění parametrů architektury, kdy není dobře zřejmé, o jaké parametry se vlastně jedná. V práci se dále vyskytují menší prohřešky, jako je občasná absence vysvětlení některých termínů, zkratek nebo metrik (např. v tabulce 3.1 metrika nDCG, benchmarky MIRACL a MTEB v podkapitole 3.3, CRAG v podkapitole 6.3.2, definice Cohenova D v podkapitole 7.3 či DuckDuckGo). U obrázku 4.1 není zřejmý jeho původ a navíc je v něm naznačen tok informací pouze jedním směrem. V neposlední řadě pak autor porovnává svůj adaptivní RAG se svým základním RAG systémem, tento základní model však není řádně popsán, takže nelze dobře pochopit, jak je vlastně navržen.	65
Formální úprava technické zprávy	Formální úprava práce je na dobré a kvalitní úrovni a po typografické i jazykové stránce je vše v pořádku. Text ale obsahuje systematickou chybu, kdy autor velkou řadu odstavců uvádí klíčovým termínem zakončeným tečkou, což je z hlediska interpunkce špatně. Dále pak výpisy promptů místy obsahují nesprávné dělení slov.	80
Práce s literaturou	Výběr studijních pramenů je rozsáhlý a kvalitní; autor čerpá z velkého množství relevantních zdrojů. V textu dobře odděluje vlastní postup od převzatých znalostí a nástroje, návody či dokumentaci vhodně uvádí do poznámek pod čarou. Určitý prostor pro zlepšení se však nachází u obrázků, které prezentují převzaté znalosti – ty je potřeba odkazovat přímo u daného obrázku, nikoliv pouze v textu (např. obr. 2.4, 6.1, 6.2 apod.). Vzhledem k tomu, že autor navrhuje vlastní metriku pro měření dostatečnosti kontextu, bylo by také vhodné vysvětlit, zda a z jakého důvodu tuto metriku již nepoužívají jiní vědci.	85
Realizační výstup	Výsledkem práce je vlastní adaptivní RAG systém adaptovaný na dotazování v doméně historických dokumentů v českém, německém i dalších jazycích. Toto funkční řešení využívá a integruje vhodně vybrané existující vyhledávací a klasifikační nástroje, LLM a další technologie. Řešení obsahuje i podstatné prvky pokročilých RAG systémů, jako jsou Multi-query, Step-back prompting či automatický fallback na vyhledávání v internetové síti. Dostupné nástroje autor doplňuje o vlastní dílčí prvky a funkční moduly, jako je například modul pro vysvětlení části odpovědi. Své řešení integroval do existujícího projektu semANT a ke svému systému vytvořil i základní, ale plně funkční a klíčové prvky obsahující GUI. Programové řešení obsahuje primárně Python skripty pro automatickou tvorbu datasetu a experimenty, které jsou dobře komentovány a je v nich uvedeno autorství. Vlastní adaptivní RAG systém, který je integrován do projektu semANT, ale neobsahuje dostatečně pečlivý popis autorských částí a je velmi obtížné se v něm orientovat a určit, které části jsou autorské. Klíčovou a velmi přínosnou částí práce je metodika pro vyhodnocování RAG systémů, která využívá LLM v roli soudce a porovnává různé existující LLM s lidským vyhodnocením. Při prezentaci výsledků porovnání LLM s lidským hodnotitelem je však potřeba mít na paměti, že lidé byli pouze dva. Metodika je tedy sice použitelná, ale výsledky je nutno brát s jistým omezením jejich vypovídající hodnoty. U vyhodnocení vlivu počtu potřebných otázek (podkapitola 7.2, obrázek 7.2) by pak bylo vhodné ještě lépe diskutovat samotný charakter otázek, jelikož nejde pouze o jejich počet, ale i o definovaný obsahový standard těchto otázek.	90
Využitelnost výsledků	Výsledný vlastní adaptivní RAG systém je spíše kompilačního charakteru, přičemž je plně funkční, obsahuje aktuální moderní prvky zvyšující relevantnost a validitu jeho odpovědí, je dobře použitelný a veřejně dostupný pro praktické využití. Vlastní navržená metrika pro měření dostatečnosti kontextu přináší svým způsobem nové poznatky, avšak je potřeba hlubší diskuse s ohledem na již existující postupy a vědecké práce v dané oblasti.
Náročnost zadání	Evaluation level: obtížnější zadání Zadání práce lze označit za náročnější, jelikož pokrývá širokou škálu pokročilejších postupů v oblasti zpracování textu a velkých jazykových modelů. Určitý prostor pro zlepšení a větší výzvu zde představuje zejména tvorba relevantní datové sady, což s sebou nese také obtížnější vyhodnocování celého systému.

Topics for thesis defence:

Píšete, že pro doménu historických dokumentů je výrazně vhodnější spoléhat na hybridní vyhledávání. U jakých domén je to jinak?
V závěru píšete o "nadřazenosti navrženého řešení". Co tím konkrétně myslíte? Adaptivní systém RAG nebo metodiku vyhodnocení RAG systémů? A především, nadřazené oproti čemu?
Provedl jste moderované testování s deseti uživateli. Přesto v hodnocení (podkap. 8.3.2) řadu informací prezentujete jako "možná". Jak moderované testování probíhalo, že to nevíte u těchto osob více jistě? Proč se to pouze domníváte?

Points proposed by reviewer: 95

Grade proposed by reviewer: A

Responsibility: Mgr. et Mgr. Hana Odstrčilová

VUT

Faculties and university institutes

Parts

Advanced RAG Systems for Historical Documents