Přístupnostní navigace
E-application
Search Search Close
Bachelor's Thesis
Author of thesis: Bc. Dávid Bartuš
Acad. year: 2024/2025
Supervisor: doc. Ing. Petr Matoušek, Ph.D., M.A.
Reviewer: Ing. Michal Rozsíval
The bachelor's thesis explores the integration of Transformer Neural Network models and Retrieval-augmented generation into an application designed for efficient interaction with technical documentation. Its primary function lets users ask specific questions to gather relevant information from technical documentation. The tool makes use of large language models, such as Gemini 2.5 and Llama 4. The thesis describes how the application was developed, including how the vector database, ideal models and RAG parameters were chosen. It also describes how the frontend was built and how the application was deployed. It also includes evaluation and comparison of different large language models, and their parameters focusing on their effectiveness in processing technical documents and answering questions related to them.
Large Language Models, Natural Language Processing, Retrieval-augmented generation, RAGAs, Technical Documentation
Date of defence
20.06.2025
Result of the defence
Defended (thesis was successfully defended)
Grading
D
Process of defence
Student nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta a na další otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm D.
Topics for thesis defence
Language of thesis
English
Faculty
Fakulta informačních technologií
Department
Department of Information Systems
Study programme
Information Technology (BIT)
Composition of Committee
prof. RNDr. Alexandr Meduna, CSc. (předseda) Ing. Martin Hrubý, Ph.D. (člen) Ing. Tomáš Milet, Ph.D. (člen) Ing. Zbyněk Křivka, Ph.D. (člen) Ing. Marcela Zachariášová, Ph.D. (člen)
Supervisor’s reportdoc. Ing. Petr Matoušek, Ph.D., M.A.
Student splnil všechny body zadání. Text práce je značně nevyrovnaný a je složité zjistit, jak se výsledný nástroj chová. V práci postrádám příklady vyhledávání v technické dokumentaci, což bylo hlavní téma práce. Odevzdané řešení hodnotím stupněm D, 60 bodů.
Cílem BP bylo vytvořit aplikaci, která pomocí modelů LLM vyhledává odpovědi administrátora v technické dokumentaci a provádí sumarizaci textu. Téma BP bylo vytvořeno ve spolupráci s firmou Flowmon Networks, která také dodala příklady technické dokumentace.
Při řešení byl kladen důraz na ověření odpovědí s cílem vyloučit či minimalizovat nesprávné a zavádějící odpovědi. Pro vyhodnocení výstupů student zvolil automatizovaný systém RAGA, který počítá metriky typu věrnost (faithfulness), souvislost odpovědi (answer_relevancy) a další. Protože práce byla dokončována na poslední chvíli, neměl jsem možnost vidět výsledné řešení. Bohužel text neuvádí žádné příklady, jak se nástroj pro různé modely chová například v případě dotazování či sumarizaci textu.
Student využíval doporučenou literaturu i dostupné internetové zdroje.
Aktivita studenta byla nepravidelná, na konzultace chodil výjimečně. Navržené řešení jsem neměl možnost vidět ani vyzkoušet.
Finální verze nebyla před odevzdáním konzultována.
Práce nebyla publikována.
Grade proposed by supervisor: D
Reviewer’s reportIng. Michal Rozsíval
Programové řešení je funkční, zdokumentované a navíc využitelné v praxi. Slabou stránkou je však technická zpráva, která mohla být obsáhlejší a lépe strukturovaná. Ze samotného textu navíc nevyplývá studentem vynaložené úsilí, které však bylo při demonstraci řešení patrné, především v oblasti evaluace velkých jazykových modelů.
Evaluation level: průměrně obtížné zadání
Cílem práce bylo využít modely hlubokého učení pro zpracování přirozeného jazyka, například pro sumarizaci textu nebo odpovídání na otázky nad dokumenty. Student si musel nastudovat metody pro předzpracování dokumentů, způsoby vytváření vektorových reprezentací textu, techniku generování rozšířeného o vyhledávání a další. Přestože tato témata nejsou součástí bakalářského studia, hodnotím zadání jako průměrně obtížné, jelikož student využíval již natrénované modely.
Vlastní technická dokumentace je nejslabší částí celé bakalářské práce. Témata v teoretické části mohla být podrobněji rozepsána a lépe propojena, což by pomohlo lépe pochopit následující postupy. V kapitole o návrhu a implementaci mohl autor místo uvedení signatur knihovních funkcí a úseků kódu věnovat více úsilí popisu vlastního řešení. Například mohl být popsaný účel zvolených meta-parametrů modelů nebo jednotlivých instrukcí pro velké jazykové modely. Obecně celá tato kapitola je napsána nešťastně, jelikož dochází k promíchaní návrhu a implementace.V práci také dochází k následujícím nedostatkům:- Nedostatečné popisy obrázků, a to i v rámci textu, kdy u mnohých obrázků dochází pouze k jejich odkázání bez nijakého vysvětlení, kvůli čemuž postrádá jejich použití smysl.- Nedostatečný úvodní text (pod)kapitol, kvůli čemuž obsažené podkapitoly působí izolovaně a nevyplývá z nich jejich vzájemné propojení. Například úvod podkapitol 4.3 a 4.4 je v podstatě tvořen jen obrázkem.- Popis nasazení vytvořeného řešení (podkapitola 5.3) je chybně uveden v kapitole o evaluaci.- Podkapitola 5.1 je v podstatě tvořena pouze tabulkou.- Téma o sémantickém porovnávání textu je rozdělené do podkapitol 2.3 (vektorová reprezentace) a 2.5.5 (kosinová podobnost), čímž se ztrácí jejich souvislost.
Práce je psaná angličtinou průměrné úrovně. Autor však v určitých oblastech přechází do hovorové podoby (například „let's look at...“ nebo „let's use...“ na straně 4) a používá nesprávné gramatické tvary (například špatné sestavení infinitivní konstrukce na straně 24).Z typografického hlediska obsahuje práce následující nedostatky:- Samostatné členy („a“) na konci řádků.- Přesahující text (například strana 24).- Chybějící mezera před odkazem na referenci (strana 13).- Špatné vysázený znak („ä“ na straně 14).- Mezera před odkazem na poznámku pod čarou (například popisek obrázku 4.3).- Nekonzistentní použití teček na konci odrážek v kapitole 4.3.2.- Nevzhledně vysazená struktura kapitoly 4.3.2, ve které autor využívá kurzívu spolu se zanořením textu pro odlišení dalších úrovní podnadpisů, kvůli čemuž je tato část špatně srozumitelná.
Student v rámci vytvořené aplikaci umožňuje využití vybraných velkých jazykových modelů pro dotazování nad textovými soubory a jejich sumarizaci. Vybrané modely jsou podloženy obsáhlou a systematickou evaluací. Současně byla pro používání vytvořená webová stránka. Vytvořenou aplikaci je navíc možné odzkoušet i online, díky nasazení na Google Cloud. Zdrojový kód je dobře formátovaný a vhodně okomentovaný. Vytvořené řešení bylo studentem demonstrováno a je funkční.
Vytvořené řešení je možné použít pro rychlou orientaci v rozsáhlých dokumentacích a pochopení jejich obsahu.
Evaluation level: zadání splněno
Evaluation level: splňuje pouze minimální požadavky
Technická zpráva má rozsah kolem 50 normostran, z nich však několik normostran tvoří přímo převzaté obrázky. Většina částí mohla být obsáhlejší, především pak kapitola o teorii nebo samotném návrhu a implementaci řešení.
Práce obsahuje relevantní zdroje, jejich množství a použití v textu by však mohlo být lepší.
Dochází k nekonzistentnímu způsobu citování online zdrojů, kdy je většina citována v poznámce pod čarou, ale některé v seznamu literatury. Navíc například zdroj [10] je citován v seznamu literatury i v poznámce pod čarou na straně 13.U některých použitých citací pak není zřejmé, jestli se cituje celá podkapitola, nebo jen konkrétní věta.
Grade proposed by reviewer: D
Responsibility: Mgr. et Mgr. Hana Odstrčilová