Přístupnostní navigace
E-application
Search Search Close
Bachelor's Thesis
Author of thesis: Adam Veselý
Acad. year: 2025/2026
Supervisor: Ing. Jakub Reš
Reviewer: Ing. Anton Firc, Ph.D.
Sentinel is a modular, manifest-driven open-source toolkit for systematic red-teaming of large language models. The architecture is built around a small set of stable plugin interfaces for attack generators, model adapters, and judges that let a deployment supply its own implementations without touching the core, while reference examples cover local and API-compatible backends and a hybrid judging pipeline that combines verdicts from heuristic and LLM-based judges by weighted vote. Experiments are described declaratively in YAML or JSON manifests, enabling reproducible runs, three layers of configurable parallelism (combo, prompt and judge), rate limiting, and JSONL logging. The implementation also includes offline analysis of logs, a command-line interface, and a deterministic test suite. This thesis surveys LLM safety risks, reviews red-teaming methods and tools, proposes the toolkit architecture, implements a working prototype, and validates it on local and remote model configurations. The result is a lightweight framework that lowers the barrier to repeatable LLM safety evaluation.
large language models, red-teaming, jailbreaks, prompt injection, multi-turn attacks, safety, toolkit
Date of defence
19.06.2026
Result of the defence
Defended (thesis was successfully defended)
Grading
D
Process of defence
Student nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta a na další otázky přítomných, např. ohledně upřesnění vlastních cílů práce či možné determinizace vstupů dle konkrétního LLM modelu. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm D - uspokojivě.
Topics for thesis defence
Language of thesis
English
Faculty
Fakulta informačních technologií
Department
Department of Intelligent Systems
Study programme
Information Technology (BIT)
Composition of Committee
doc. Dr. Ing. Otto Fučík (předseda) doc. Mgr. Kamil Malinka, Ph.D. (místopředseda) Ing. Marta Jaroš, Ph.D. (člen) Ing. Vladimír Veselý, Ph.D. (člen) Ing. David Bařina, Ph.D. (člen)
Supervisor’s reportIng. Jakub Reš
I přes slabší četnost komunikace během hotovení práce student prokázal samostatnost, systematický přístup k řešení problému a implementační schopnosti na úrovni očekávání. Proto navrhuji hodnocení práce studenta jako C (78 b.)
Zadání je průměrné obtížnosti se zaměřením na implementační činnost. S výsledky práce jsem spokojen.
Student prokázal samostatnost při dohledávání odborné a relevantní literatury.
Během vypracovávání bakalářské práce student konzultoval velmi zřídka. Ačkoliv byl opětovně upozorněn, že by bylo vhodné častěji konzultovat postup, stále aktivitu v této oblasti nezvýšil.
Práce nebyla dokončena s dostatečným předstihem pro důkladnou konzultaci experimentální části.
Vzniklý nástroj je veřejně dostupný jako open-source a bude následně využíván a šířen v rámci spolupráce s firmou Red Hat.
Grade proposed by supervisor: C
Reviewer’s reportIng. Anton Firc, Ph.D.
Práce obsahuje několik dobrých částí, zejména analýzu existujících frameworků, identifikaci jejich nedostatků, mapování návrhu na tyto nedostatky a důraz na reprodukovatelnost experimentů. Návrh řešení je v principu rozumný a z textu je vidět, že student nad strukturou frameworku a jeho použitelností přemýšlel systematicky.
Zásadní slabinou práce je však nedostatečně zdokumentovaná experimentální evaluace. Zadání explicitně požaduje testování na vybraném modelu a zaměření na úspěšnost útoků, ale v práci chybí dostatečné kvantitativní výsledky, zejména metriky úspěšnosti útoků. Evaluace tak působí spíše jako ověření technických vlastností frameworku a jeho robustnosti než jako skutečné vyhodnocení jazykového modelu v rámci red teamingu. Student sice při prezentaci práce oponentovi demonstroval, že nad reálným modelem proběhlo více testování než je v práci popsáno; tato část však není v technické zprávě odpovídajícím způsobem zachycena.
Práci proto nevnímám jako pouhé splnění minimálních požadavků ani jako nekvalitní výstup. Student vytvořil použitelný základ frameworku a některé části práce jsou zpracovány rozumně. Současně ale nelze přehlédnout, že jeden z klíčových bodů zadání je v textu doložen jen hraničně a že formální i prezentační úroveň práce je slabší. Celkově práci hodnotím stupněm D (65b), s výraznějšími výhradami k dokumentaci evaluace a dotažení závěrečné experimentální části,
Evaluation level: průměrně obtížné zadání
Zadání hodnotím jako průměrně náročné. Student se měl seznámit s existujícími nástroji a frameworky pro red teaming LLM systémů, pochopit jejich slabiny a navrhnout řešení, které tyto nedostatky adresuje.
Abstrakt je podle mě velmi nejasný. Zmiňuje Sentinel, ale není z něj zřejmé, co je Sentinel, jaký problém řeší, proč je tento problém důležitý ani jak k němu student přistupuje. Bez přečtení zadání práce bych z abstraktu nerozuměl tomu, čemu se práce věnuje.
Úvod je lepší, motivace je zde popsána srozumitelně. Bylo by však vhodné doplnit i stručný popis toho, jak bylo k řešení přistupováno a co práce konkrétně přinesla.
Teoretická část věnovaná LLM je spíše stručná, málo strukturovaná a příliš se nehrne do hloubky. Chybí širší motivace k použití LLM systémů, jejich praktické nasazení a důvody, proč je důležité jejich bezpečnostní testování. Kapitola 2 působí jako velký blok textu a výrazně by jí pomohly obrázky nebo architektonické diagramy.
Podobný problém má i kapitola 3. Informace v ní jsou, ale jsou prezentovány převážně jako dlouhé bloky textu. Členění do podsekcí, tabulek, bullet listů nebo diagramů by práci výrazně pomohlo. Některé obrázky navíc působí příliš informativně, například obrázek 3.5.
Pozitivně hodnotím tabulku porovnávající existující frameworky a také analýzu gaps, která je zpracována dobře. Velmi dobrý je i nápad mapovat návrh systému přímo na identifikované nedostatky existujících nástrojů. Problémem zůstává hlavně způsob prezentace, protože text je obtížně čitelný a špatně se v něm orientuje.
Formální úprava práce je slabá. V textu se opakovaně objevují velká prázdná místa na koncích stran, například na stranách 15, 16 a 20, pravděpodobně kvůli nevhodnému umístění obrázků. Celkově práce působí typograficky neupraveně.
Citace jsou místy použity nevhodně, například v sekci 3.1.1, kde jsou vkládány doprostřed věty místo za jméno autora nebo na konec tvrzení. Podobné problémy se objevují i u přehledu nástrojů red teamingu.
Negativně hodnotím také nesprávně formulované poděkování za použití MetaCentra.
Realizační výstup má rozumný návrh. Oceňuji analýzu požadavků, důraz na reprodukovatelnost, použití manifestů, seedů a mapování požadavků na konkrétní části návrhu. Tyto části ukazují, že student nad návrhem frameworku přemýšlel systematicky.
Zásadní slabinou je ale absence reálného testování v technické zprávě. Práce neukazuje, že framework byl skutečně použit k red teamingu konkrétního modelu, jaké útoky byly spuštěny, jaké výsledky byly získány a zda poskytuje prakticky využitelné výstupy. Bez této části je obtížné posoudit funkčnost a přínos implementace.
Měření doby běhu nad dummy operacemi není dostatečnou validací nástroje. Pro takovýto typ práce bych očekával alespoň základní experiment, ve kterém bude framework spuštěn nad konkrétním LLM modelem, s vybranou sadou útoků a následnou analýzou výsledků.
Výsledky mohou být potenciálně využitelné jako základ pro framework reprodukovatelného testování LLM systémů. Návrh obsahuje několik dobrých myšlenek, zejména v oblasti reprodukovatelnosti a systematického popisu experimentů.
Reálnou využitelnost je však z textu práce obtížné posoudit, protože chybí dostatečné ověření frameworku na reálných modelech a útocích.
Evaluation level: zadání téměř splněno
Student provedl analýzu existujících frameworků pro red teaming LLM systémů, identifikoval jejich nedostatky a navrhl vlastní řešení. Pozitivně hodnotím zejména analýzu existujících přístupů, identifikaci jejich nedostatků a následné mapování návrhu na tyto nedostatky.
Za problematické považuji experimentální ověření navrženého frameworku. Přestože práce deklaruje testování na vybraném modelu, prezentovaná evaluace je zaměřena převážně na technické vlastnosti frameworku a jeho běh, nikoli na jeho účinnost při red teamingu jazykových modelů. Testování navíc probíhá pouze ve velmi omezeném rozsahu na jednom modelu, což neposkytuje dostatečný základ pro posouzení praktické použitelnosti navrženého řešení.
Zadání přitom explicitně klade důraz na vyhodnocení úspěšnosti útoků. V práci však chybí odpovídající kvantitativní vyhodnocení pomocí metrik typu Attack Success Rate a není tak dostatečně doloženo, zda framework skutečně plní svůj hlavní účel. Tuto část proto považuji za splněnou pouze částečně.
Při obhajobě bych doporučil detailněji demonstrovat, jakým způsobem byl framework použit při testování reálných modelů, jaké útoky byly provedeny a jaké výsledky z hlediska úspěšnosti útoků byly dosaženy.
Evaluation level: je v obvyklém rozmezí
Rozsah technické zprávy je 55 stran a odpovídá bežným požadavkům na bakalářskou práci.
Práce využívá relevantní zdroje, včetně odborných publikací a technických prací z oblasti red teamingu a bezpečnosti LLM systémů. Použitá literatura je tematicky vhodná. U části zdrojů jde však o arXiv preprinty, u kterých je potřeba brát v úvahu, že nemusely projít recenzním řízením.
Grade proposed by reviewer: D
Responsibility: Mgr. et Mgr. Hana Odstrčilová