Přístupnostní navigace
E-application
Search Search Close
Master's Thesis
Author of thesis: Ing. Ľuboš Martinček
Acad. year: 2025/2026
Supervisor: Ing. Michal Hradiš, Ph.D.
Reviewer: Ing. Zdeněk Materna, Ph.D.
Large Language Models are prone to hallucinations due to their reliance on static training data. Retrieval-Augmented Generation (RAG) mitigates this by grounding generation in dynamically retrieved evidence, yet robust evaluation benchmarks, especially for non-English settings, remain scarce. This thesis designs and implements a RAG evaluation benchmark derived from OCR-processed Czech historical documents from the semANT application, along with two different RAG systems. The 536-sample dataset, spanning factual, multi-source synthesis, and inference questions, was constructed using K-Means seed chunk selection, context enrichment, and the RAGAS testset generation framework, followed by manual review. Multiple RAG configurations, including naive, incremental, agentic, and adaptive multi-query variants, are compared using five RAGAS metrics: Context Recall, Context Relevance, Faithfulness, Answer Correctness, and Answer Relevance. The experiments demonstrate that similar retrieval scores do not guarantee similar answer quality. The agentic system achieves the highest Answer Correctness and Answer Relevance.
RAG, RAG evaluation, benchmark, RAGAS, large language models, question answering, agentic RAG
Date of defence
24.06.2026
Result of the defence
Defended (thesis was successfully defended)
Grading
B
Process of defence
Student nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta a na další otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm B.
Topics for thesis defence
Language of thesis
English
Faculty
Fakulta informačních technologií
Department
Department of Computer Graphics and Multimedia
Study programme
Information Technology and Artificial Intelligence (MITAI)
Specialization
Computer Vision (NVIZ)
Composition of Committee
prof. Ing. Adam Herout, Ph.D. (předseda) prof. Ing. Martin Čadík, Ph.D. (místopředseda) doc. RNDr. Milan Češka, Ph.D. (člen) prof. Dr. Ing. Pavel Zemčík, dr. h. c. (člen) Ing. David Bařina, Ph.D. (člen) Ing. Tomáš Milet, Ph.D. (člen)
Supervisor’s reportIng. Michal Hradiš, Ph.D.
Student se nebál ponořit do problematičtějších aspektů řešeného tématu, dobře se zorientoval a jeho práce poskytuje zajímavé poznatky. Účastnil se vývoje společné aplikace a jeho řešení je nyní její součástí
Téma je přímo inspirované projektem semANT a student se podílel na tvorbě aplikace, která je plánovaným výsledkem projektu. Výsledek této práce je nyní součástí dané aplikace.
Práce byla dokončená v termínu a student ji dobře konzultoval.
Student si aktivně vyhledal potřebné zdroje, dobře se zorientoval v řešené oblasti a získané znalosti v práci dobře využil.
Student pracoval průběžně, účastnil se koordinačních schůzek vývojářů společné aplikace, na konzultace docházel, ale mohl trochu častěji.
Grade proposed by supervisor: B
Reviewer’s reportIng. Zdeněk Materna, Ph.D.
Práce má dobrý praktický přínos a zadání v hlavním rozsahu naplňuje, ale nejsilnější experimentální a statistická tvrzení nejsou doložena na úrovni, která by bez výhrad podporovala nejvyšší hodnocení. S ohledem na nadstandardní náročnost zadání, rozsah realizačního výstupu a uvedené výhrady navrhuji hodnocení 82 bodů, tedy známku B.
Evaluation level: zadání splněno s drobnými výhradami
Požadavky zadání jsou v hlavním rozsahu splněny. Práce obsahuje teoretický přehled, návrh a implementaci RAG variant, dataset i experimentální srovnání; výhradu mám k tomu, že přesná komparabilita hlavní evaluace a statistické závěry nejsou z odevzdaných artefaktů plně doloženy.
Evaluation level: je v obvyklém rozmezí
Rozsah technické zprávy je pro diplomovou práci přiměřený a spadá do obvyklého rozmezí.
Zpráva je celkově přehledně členěná a čtenáře provází od teorie k návrhu, implementaci a experimentům. Slabší je přesnost formulací u evaluačních a statistických tvrzení, kde text místy působí jistěji, než dovoluje dodaná evidence.
Formální úprava je celkově použitelná, práce by však zasloužila důkladnější závěrečnou jazykovou korekturu anglického textu, zejména popisků obrázků a příloh.
Práce s literaturou je tematicky relevantní a pokrývá RAG, evaluaci i benchmarky. RAGAS je v práci použit jako metodický a technický základ; vlastní benchmarková motivace spočívá v jeho zasazení do konkrétního českého historického korpusu, nikoli v nahrazení existujících evaluačních frameworků. Dílčí rezervu vidím hlavně v nepřesném zobecnění některých RAGAS metrik.
Oceňuji, že student nestavěl evaluaci od nuly, ale vhodně využil existující nástroje, zejména RAGAS, a soustředil vlastní práci na jejich smysluplné zasazení do konkrétního českého doménového prostředí. Za významný přínos považuji vytvoření kurátorované benchmarkové sady pro český historický korpus semANT a navazující evaluační workflow, které umožňuje porovnat různé RAG varianty v realistickém kontextu. Za další vlastní technický přínos považuji návrh a implementaci dvou RAG variant pro prostředí semANT, včetně pokročilejší agentické varianty. Nejde o nový obecný evaluační framework ani nový obecný algoritmus, ale o smysluplnou autorskou integraci existujících metod a principů do konkrétního doménového systému. Slabší je reprodukovatelnost, testovací opora a evidence chybových stavů při generování či vyhodnocení odpovědí.
Výsledek je využitelný jako experimentální benchmarkový základ a výchozí bod pro další práci se semANT korpusem. Pro širší opakovatelné použití by pomohl jasnější návod pro zopakování experimentů, popis potřebných služeb a závislostí, jednoduchý ověřovací běh nad malými ukázkovými daty a auditní stopa výsledků.
Evaluation level: značně obtížné zadání
Zadání považuji za nadstandardně náročné pro diplomovou práci: kombinuje orientaci v rychle se vyvíjejících RAG/LLM přístupech, návrh benchmarku, práci s českým historickým korpusem, implementaci RAG variant a experimentální vyhodnocení. Obtížnost je dána hlavně integrací metodiky, dat, infrastruktury a evaluace, nikoli samotným použitím existujících frameworků.
Grade proposed by reviewer: B
Responsibility: Mgr. et Mgr. Hana Odstrčilová