Bachelor's Thesis

RAG aplikace nad spravovanou znalostní bází

Final Thesis 808.61 kB

Author of thesis: Patrik Kišeda

Acad. year: 2025/2026

Supervisor: Ing. Vladimír Bartík, Ph.D.

Reviewer: Ing. Kristýna Zaklová

Abstract:

This thesis designs and implements a Retrieval-Augmented Generation application for querying a managed knowledge base. The system ingests source documents, extracts and chunks their content, stores metadata and lexical search data in SQLite, stores dense vectors in Qdrant, and supports dense, lexical, and hybrid retrieval. Retrieved chunks are assembled into grounded prompts for a large language model through the LiteLLM library and generated answers are returned with source identifiers. The prototype is verified by automated tests and controlled experiments comparing retrieval modes, chunk sizes and answer traceability evaluation. The result is an end-to-end system whose responses are enhanced with source traceability and improved answering capacity.

Keywords:

RAG, retrieval-augmented generation, knowledge base, vector database, LLM, language models

Date of defence

17.06.2026

Result of the defence

Defended (thesis was successfully defended)

znamkaBznamka

Grading

B

Process of defence

Student nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta a na další otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm B.

Topics for thesis defence

  1. Vaše práce i veškeré ukázky jsou kompletně v angličtině. Dokážete odhadnout, jak by se Vámi vytvořené řešení dokázalo vypořádat s datovou sadou, ve které jsou zastoupeny dokumenty ve více jazycích?
  2. Jak funguje vaše aplikace pro větší dokument?

Language of thesis

English

Faculty

Department

Study programme

Information Technology (BIT)

Composition of Committee

doc. Ing. František Zbořil, Ph.D. (předseda)
doc. Ing. Vojtěch Mrázek, Ph.D. (místopředseda)
Ing. Petr Veigend, Ph.D. (člen)
Ing. David Bařina, Ph.D. (člen)
Ing. Miloš Musil, Ph.D. (člen)

Supervisor’s report
Ing. Vladimír Bartík, Ph.D.

S přístupem studenta během řešení i výsledkem bakalářské práce jsem spokojen, hodnotím ji jako nadstandardní, navrhuji proto hodnocení stupněm A (výborně). 

Evaluation criteria Verbal classification
Informace k zadání

Cílem této bakalářské práce byl návrh a implementace RAG systému využívající jazykové modely využívající existující znalostní bázi. Jedná se na bakalářskou práci o poměrně náročné zadání, které student splnil a vytvořil prakticky využitelné řešení. 

Práce s literaturou

Vše potřebné si student vyhledal samostatně, volba studijních pramenů je, dle mého názoru, v pořádku. 

Aktivita během řešení, konzultace, komunikace

Aktivita byla poměrně vysoká, student vše konzultoval průběžně a dohodnuté termíny dodržoval. Na konzultace byl student vždy velmi dobře připraven. 

Aktivita při dokončování

Technická zpráva i realizační výstup byly dokončeny včas, vše bylo s mírným předstihem konzultováno. 

Publikační činnost, ocenění
Points proposed by supervisor: 92

Grade proposed by supervisor: A

Reviewer’s report
Ing. Kristýna Zaklová

Student prostudoval vybranou problematiku a navrhl, implementoval i otestoval funkční řešení, které splňuje vytyčené cíle. Praktické výstupy považuji za kvalitní a nadprůměrné, technická zpráva bohužel vykazuje formální nedostatky a teoretická část mohla být v některých oblastech podrobnější. Navrhuji proto hodnocení stupněm B.

Evaluation criteria Verbal classification Points
Náročnost zadání

Evaluation level: průměrně obtížné zadání

Zadání práce hodnotím jako průměrně obtížné. Student prostudoval problematiku velkých jazykových modelů, techniku Retrieval-Augmented Generation (RAG) a související technologie pro zpracování a vyhledávání informací ve znalostních bázích. Na základě analýzy požadavků navrhl a implementoval aplikaci umožňující správu dokumentů, jejich indexaci a generování odpovědí podložených nalezenými zdroji. Součástí řešení bylo také navržení datové vrstvy kombinující relační a vektorovou databázi a realizace více přístupů k vyhledávání informací.

Prezentační úroveň technické zprávy

Struktura technické zprávy se skládá ze šesti kapitol. Zpráva má logické členění a její obsah je vhodně rozdělen. Text je doplněn poznámkami pod čarou odkazujícími na zmiňované technologie a nástroje. Kladně hodnotím praktickou ukázku celého procesu v sekci 4.7 i poměrně rozsáhlou kapitolu 5 věnovanou testování. Na druhou stranu bych uvítala větší množství ilustrací a schémat, zejména v návrhové části práce (např. mockup uživatelského rozhraní).

80
Formální úprava technické zprávy

Technická zpráva je psána angličtinou na dobré úrovni a neobsahuje zjevné jazykové chyby. Z typografického hlediska se však opakovaně vyskytují některé nedostatky, zejména přetečení textu, chybějící nezlomitelné mezery, místy chybějící tečky za větami a občasná bílá místa.

70
Realizační výstup

Realizačním výstupem je aplikace umožňující správu dokumentů, jejich indexaci a následné vyhledávání informací. Součástí řešení je také generování odpovědí podložených nalezenými zdroji. Oceňuji zejména vlastní implementaci jednotlivých částí systému bez využití specializovaného RAG frameworku, rozsah automatizovaných testů a podporu více režimů vyhledávání. Z hlediska uživatelské přívětivosti postrádám možnost náhledu obsahu původního dokumentu přímo v uživatelském rozhraní.

95
Využitelnost výsledků

Jedná se o vlastní zadání studenta, které může být dále rozvíjeno v jeho profesní praxi. Výstupy jsem měla možnost otestovat na vlastní množině dokumentů v doméně, kterou se zabývám – aplikace dokázala zpracovat vstupy, které pro ni byly nové a byly v jiném jazyce, než pro které bylo řešení testováno. To dokazuje praktickou využitelnost řešení.

Rozsah splnění požadavků zadání

Evaluation level: zadání splněno s drobnými výhradami

Zadání považuji za splněné s drobnými výhradami. Textová část práce obsahuje informace pokrývající většinu bodů zadání a praktické výstupy odpovídají stanoveným cílům. Z teoretické části však postrádám podrobnější zpracování problematiky agentních systémů, která je v zadání explicitně uvedena.

Rozsah technické zprávy

Evaluation level: je v obvyklém rozmezí

Práce má 48 stran včetně seznamu literatury, rozsah technické zprávy splňuje předepsané požadavky a nachází se těsně nad minimální hranicí pro bakalářskou práci.

Práce s literaturou

Práce se odkazuje na 19 zdrojů, přičemž dominantní část tvoří vědecké články. Oceňuji kvalitu použitých zdrojů. V teoretické části se však vyskytují pasáže, které nejsou podpořeny žádnou citací.

80
Topics for thesis defence:
  1. Vaše práce i veškeré ukázky jsou kompletně v angličtině. Dokážete odhadnout, jak by se Vámi vytvořené řešení dokázalo vypořádat s datovou sadou, ve které jsou zastoupeny dokumenty ve více jazycích?
Points proposed by reviewer: 88

Grade proposed by reviewer: B

Responsibility: Mgr. et Mgr. Hana Odstrčilová