Master's Thesis

RAG Systems and Their Evaluation

Final Thesis 2.56 MB

Author of thesis: Ing. Ľuboš Martinček

Acad. year: 2025/2026

Supervisor: Ing. Michal Hradiš, Ph.D.

Reviewer: Ing. Zdeněk Materna, Ph.D.

Abstract:

Large Language Models are prone to hallucinations due to their reliance on static training data. Retrieval-Augmented Generation (RAG) mitigates this by grounding generation in dynamically retrieved evidence, yet robust evaluation benchmarks, especially for non-English settings, remain scarce. This thesis designs and implements a RAG evaluation benchmark derived from OCR-processed Czech historical documents from the semANT application, along with two different RAG systems. The 536-sample dataset, spanning factual, multi-source synthesis, and inference questions, was constructed using K-Means seed chunk selection, context enrichment, and the RAGAS testset generation framework, followed by manual review. Multiple RAG configurations, including naive, incremental, agentic, and adaptive multi-query variants, are compared using five RAGAS metrics: Context Recall, Context Relevance, Faithfulness, Answer Correctness, and Answer Relevance. The experiments demonstrate that similar retrieval scores do not guarantee similar answer quality. The agentic system achieves the highest Answer Correctness and Answer Relevance.

Keywords:

RAG, RAG evaluation, benchmark, RAGAS, large language models, question answering, agentic RAG

Date of defence

24.06.2026

Result of the defence

Defended (thesis was successfully defended)

znamkaBznamka

Grading

B

Process of defence

Student nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta a na další otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm B.

Topics for thesis defence

  1. V práci uvádíte, že hlavní srovnání proběhlo nad finálním benchmarkem 536 otázek a že uložené JSONL odpovědi zajišťují evaluaci všech systémů nad stejnou sadou otázek. V odevzdaných souborech však mají některé konfigurace méně odpovědí. Můžete vysvětlit, proč k tomu došlo, které otázky chyběly nebo selhaly, nad jakou přesnou množinou vzorků byly počítány průměry, intervaly spolehlivosti a párové z-testy s Bonferroniho korekcí, a zda by se závěry změnily při vyhodnocení pouze nad průnikem společných otázek?
  2. Jak byste stručně vymezil vlastní přínos vůči použitým nástrojům a infrastruktuře: co v práci tvoří doménový benchmark a workflow nad RAGAS/semANT, co je vlastní RAG implementace a co je převzatá infrastruktura?
  3. Jaké konkrétní kritérium jste použil při manuálním čištění finálního benchmarku z 581 na 536 vzorků a jak byste ověřil shodu mezi dvěma nezávislými anotátory?
  4. Proč vychází lépe agentní RAG?

Language of thesis

English

Faculty

Department

Study programme

Information Technology and Artificial Intelligence (MITAI)

Specialization

Computer Vision (NVIZ)

Composition of Committee

prof. Ing. Adam Herout, Ph.D. (předseda)
prof. Ing. Martin Čadík, Ph.D. (místopředseda)
doc. RNDr. Milan Češka, Ph.D. (člen)
prof. Dr. Ing. Pavel Zemčík, dr. h. c. (člen)
Ing. David Bařina, Ph.D. (člen)
Ing. Tomáš Milet, Ph.D. (člen)

Supervisor’s report
Ing. Michal Hradiš, Ph.D.

Student se nebál ponořit do problematičtějších aspektů řešeného tématu, dobře se zorientoval a jeho práce poskytuje zajímavé poznatky. Účastnil se vývoje společné aplikace a jeho řešení je nyní její součástí

Evaluation criteria Verbal classification
Informace k zadání

Téma je přímo inspirované projektem semANT a student se podílel na tvorbě aplikace, která je plánovaným výsledkem projektu. Výsledek této práce je nyní součástí dané aplikace. 

Aktivita při dokončování

Práce byla dokončená v termínu a student ji dobře konzultoval.

Publikační činnost, ocenění
Práce s literaturou

Student si aktivně vyhledal potřebné zdroje, dobře se zorientoval v řešené oblasti a získané znalosti v práci dobře využil.

Aktivita během řešení, konzultace, komunikace

Student pracoval průběžně, účastnil se koordinačních schůzek vývojářů společné aplikace, na konzultace docházel, ale mohl trochu častěji.

Points proposed by supervisor: 88

Grade proposed by supervisor: B

Reviewer’s report
Ing. Zdeněk Materna, Ph.D.

Práce má dobrý praktický přínos a zadání v hlavním rozsahu naplňuje, ale nejsilnější experimentální a statistická tvrzení nejsou doložena na úrovni, která by bez výhrad podporovala nejvyšší hodnocení. S ohledem na nadstandardní náročnost zadání, rozsah realizačního výstupu a uvedené výhrady navrhuji hodnocení 82 bodů, tedy známku B.

Evaluation criteria Verbal classification Points
Rozsah splnění požadavků zadání

Evaluation level: zadání splněno s drobnými výhradami

Požadavky zadání jsou v hlavním rozsahu splněny. Práce obsahuje teoretický přehled, návrh a implementaci RAG variant, dataset i experimentální srovnání; výhradu mám k tomu, že přesná komparabilita hlavní evaluace a statistické závěry nejsou z odevzdaných artefaktů plně doloženy.

Rozsah technické zprávy

Evaluation level: je v obvyklém rozmezí

Rozsah technické zprávy je pro diplomovou práci přiměřený a spadá do obvyklého rozmezí.

Prezentační úroveň technické zprávy

Zpráva je celkově přehledně členěná a čtenáře provází od teorie k návrhu, implementaci a experimentům. Slabší je přesnost formulací u evaluačních a statistických tvrzení, kde text místy působí jistěji, než dovoluje dodaná evidence.

78
Formální úprava technické zprávy

Formální úprava je celkově použitelná, práce by však zasloužila důkladnější závěrečnou jazykovou korekturu anglického textu, zejména popisků obrázků a příloh.

75
Práce s literaturou

Práce s literaturou je tematicky relevantní a pokrývá RAG, evaluaci i benchmarky. RAGAS je v práci použit jako metodický a technický základ; vlastní benchmarková motivace spočívá v jeho zasazení do konkrétního českého historického korpusu, nikoli v nahrazení existujících evaluačních frameworků. Dílčí rezervu vidím hlavně v nepřesném zobecnění některých RAGAS metrik.

82
Realizační výstup

Oceňuji, že student nestavěl evaluaci od nuly, ale vhodně využil existující nástroje, zejména RAGAS, a soustředil vlastní práci na jejich smysluplné zasazení do konkrétního českého doménového prostředí. Za významný přínos považuji vytvoření kurátorované benchmarkové sady pro český historický korpus semANT a navazující evaluační workflow, které umožňuje porovnat různé RAG varianty v realistickém kontextu. Za další vlastní technický přínos považuji návrh a implementaci dvou RAG variant pro prostředí semANT, včetně pokročilejší agentické varianty. Nejde o nový obecný evaluační framework ani nový obecný algoritmus, ale o smysluplnou autorskou integraci existujících metod a principů do konkrétního doménového systému. Slabší je reprodukovatelnost, testovací opora a evidence chybových stavů při generování či vyhodnocení odpovědí.

82
Využitelnost výsledků

Výsledek je využitelný jako experimentální benchmarkový základ a výchozí bod pro další práci se semANT korpusem. Pro širší opakovatelné použití by pomohl jasnější návod pro zopakování experimentů, popis potřebných služeb a závislostí, jednoduchý ověřovací běh nad malými ukázkovými daty a auditní stopa výsledků.

Náročnost zadání

Evaluation level: značně obtížné zadání

Zadání považuji za nadstandardně náročné pro diplomovou práci: kombinuje orientaci v rychle se vyvíjejících RAG/LLM přístupech, návrh benchmarku, práci s českým historickým korpusem, implementaci RAG variant a experimentální vyhodnocení. Obtížnost je dána hlavně integrací metodiky, dat, infrastruktury a evaluace, nikoli samotným použitím existujících frameworků.

Topics for thesis defence:
  1. V práci uvádíte, že hlavní srovnání proběhlo nad finálním benchmarkem 536 otázek a že uložené JSONL odpovědi zajišťují evaluaci všech systémů nad stejnou sadou otázek. V odevzdaných souborech však mají některé konfigurace méně odpovědí. Můžete vysvětlit, proč k tomu došlo, které otázky chyběly nebo selhaly, nad jakou přesnou množinou vzorků byly počítány průměry, intervaly spolehlivosti a párové z-testy s Bonferroniho korekcí, a zda by se závěry změnily při vyhodnocení pouze nad průnikem společných otázek?
  2. Jak byste stručně vymezil vlastní přínos vůči použitým nástrojům a infrastruktuře: co v práci tvoří doménový benchmark a workflow nad RAGAS/semANT, co je vlastní RAG implementace a co je převzatá infrastruktura?
  3. Jaké konkrétní kritérium jste použil při manuálním čištění finálního benchmarku z 581 na 536 vzorků a jak byste ověřil shodu mezi dvěma nezávislými anotátory?
Points proposed by reviewer: 82

Grade proposed by reviewer: B

Responsibility: Mgr. et Mgr. Hana Odstrčilová