Bachelor's Thesis

Development of an LLM Red-Teaming Toolkit: Design, Implementation, and Evaluation

Author of thesis: Bc. Adam Veselý

Acad. year: 2025/2026

Abstract:

Sentinel is a modular, manifest-driven open-source toolkit for systematic red-teaming of large language models.
The architecture is built around a small set of stable plugin interfaces for attack generators, model adapters, and judges that let a deployment supply its own implementations without touching the core, while reference examples cover local and API-compatible backends and a hybrid judging pipeline that combines verdicts from heuristic and LLM-based judges by weighted vote.
Experiments are described declaratively in YAML or JSON manifests, enabling reproducible runs, three layers of configurable parallelism (combo, prompt and judge), rate limiting, and JSONL logging.
The implementation also includes offline analysis of logs, a command-line interface, and a deterministic test suite.
This thesis surveys LLM safety risks, reviews red-teaming methods and tools, proposes the toolkit architecture, implements a working prototype, and validates it on local and remote model configurations.
The result is a lightweight framework that lowers the barrier to repeatable LLM safety evaluation.

Keywords:

large language models, red-teaming, jailbreaks, prompt injection, multi-turn attacks, safety, toolkit

Date of defence

19.06.2026

Result of the defence

Defended (thesis was successfully defended)

znamkaDznamka

Grading

Process of defence

Student nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta a na další otázky přítomných, např. ohledně upřesnění vlastních cílů práce či možné determinizace vstupů dle konkrétního LLM modelu. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm D - uspokojivě.

Topics for thesis defence

Jaké konkrétní modely byly frameworkem reálně testovány, jaké útoky byly použity a jaké výsledky byly dosaženy?
V práci je velká část evaluace provedena proti stub adaptéru. Jak se výsledky liší při spuštění proti reálnému LLM modelu?
Jak ověřujete, že framework nejen technicky běží, ale skutečně korektně provádí red teaming testy a vyhodnocuje úspěšnost útoků?
Reprodukovatelnost řešíte pomocí manifestů a seedů. Co se stane, pokud se změní model poskytovaný přes API, například jeho váhy, systémové nastavení nebo bezpečnostní filtry, aniž by o tom poskytovatel informoval?

Language of thesis

English

Faculty

Fakulta informačních technologií

Department

Department of Intelligent Systems

Study programme

Information Technology (BIT)

Composition of Committee

doc. Dr. Ing. Otto Fučík (předseda)
doc. Mgr. Kamil Malinka, Ph.D. (místopředseda)
Ing. Marta Jaroš, Ph.D. (člen)
Ing. Vladimír Veselý, Ph.D. (člen)
Ing. David Bařina, Ph.D. (člen)

Supervisor’s report
Ing. Jakub Reš

I přes slabší četnost komunikace během hotovení práce student prokázal samostatnost, systematický přístup k řešení problému a implementační schopnosti na úrovni očekávání. Proto navrhuji hodnocení práce studenta jako C (78 b.)

Evaluation criteria	Verbal classification
Information about assignment	Zadání je průměrné obtížnosti se zaměřením na implementační činnost. S výsledky práce jsem spokojen.
Work with literature	Student prokázal samostatnost při dohledávání odborné a relevantní literatury.
Activity during solution, consultations, communication	Během vypracovávání bakalářské práce student konzultoval velmi zřídka. Ačkoliv byl opětovně upozorněn, že by bylo vhodné častěji konzultovat postup, stále aktivitu v této oblasti nezvýšil.
Activity during completion	Práce nebyla dokončena s dostatečným předstihem pro důkladnou konzultaci experimentální části.
Publication activity, awards	Vzniklý nástroj je veřejně dostupný jako open-source a bude následně využíván a šířen v rámci spolupráce s firmou Red Hat.

Points proposed by supervisor: 78

Grade proposed by supervisor: C

Reviewer’s report
Ing. Anton Firc, Ph.D.

Práce obsahuje několik dobrých částí, zejména analýzu existujících frameworků, identifikaci jejich nedostatků, mapování návrhu na tyto nedostatky a důraz na reprodukovatelnost experimentů. Návrh řešení je v principu rozumný a z textu je vidět, že student nad strukturou frameworku a jeho použitelností přemýšlel systematicky.

Zásadní slabinou práce je však nedostatečně zdokumentovaná experimentální evaluace. Zadání explicitně požaduje testování na vybraném modelu a zaměření na úspěšnost útoků, ale v práci chybí dostatečné kvantitativní výsledky, zejména metriky úspěšnosti útoků. Evaluace tak působí spíše jako ověření technických vlastností frameworku a jeho robustnosti než jako skutečné vyhodnocení jazykového modelu v rámci red teamingu. Student sice při prezentaci práce oponentovi demonstroval, že nad reálným modelem proběhlo více testování než je v práci popsáno; tato část však není v technické zprávě odpovídajícím způsobem zachycena.

Práci proto nevnímám jako pouhé splnění minimálních požadavků ani jako nekvalitní výstup. Student vytvořil použitelný základ frameworku a některé části práce jsou zpracovány rozumně. Současně ale nelze přehlédnout, že jeden z klíčových bodů zadání je v textu doložen jen hraničně a že formální i prezentační úroveň práce je slabší. Celkově práci hodnotím stupněm D (65b), s výraznějšími výhradami k dokumentaci evaluace a dotažení závěrečné experimentální části,

Evaluation criteria	Verbal classification	Points
The difficulty of the assignment	Evaluation level: moderately difficult assignment Zadání hodnotím jako průměrně náročné. Student se měl seznámit s existujícími nástroji a frameworky pro red teaming LLM systémů, pochopit jejich slabiny a navrhnout řešení, které tyto nedostatky adresuje.
Presentation level of the technical report	Abstrakt je podle mě velmi nejasný. Zmiňuje Sentinel, ale není z něj zřejmé, co je Sentinel, jaký problém řeší, proč je tento problém důležitý ani jak k němu student přistupuje. Bez přečtení zadání práce bych z abstraktu nerozuměl tomu, čemu se práce věnuje. Úvod je lepší, motivace je zde popsána srozumitelně. Bylo by však vhodné doplnit i stručný popis toho, jak bylo k řešení přistupováno a co práce konkrétně přinesla. Teoretická část věnovaná LLM je spíše stručná, málo strukturovaná a příliš se nehrne do hloubky. Chybí širší motivace k použití LLM systémů, jejich praktické nasazení a důvody, proč je důležité jejich bezpečnostní testování. Kapitola 2 působí jako velký blok textu a výrazně by jí pomohly obrázky nebo architektonické diagramy. Podobný problém má i kapitola 3. Informace v ní jsou, ale jsou prezentovány převážně jako dlouhé bloky textu. Členění do podsekcí, tabulek, bullet listů nebo diagramů by práci výrazně pomohlo. Některé obrázky navíc působí příliš informativně, například obrázek 3.5. Pozitivně hodnotím tabulku porovnávající existující frameworky a také analýzu gaps, která je zpracována dobře. Velmi dobrý je i nápad mapovat návrh systému přímo na identifikované nedostatky existujících nástrojů. Problémem zůstává hlavně způsob prezentace, protože text je obtížně čitelný a špatně se v něm orientuje.	75
Formal preparation of a technical report	Formální úprava práce je slabá. V textu se opakovaně objevují velká prázdná místa na koncích stran, například na stranách 15, 16 a 20, pravděpodobně kvůli nevhodnému umístění obrázků. Celkově práce působí typograficky neupraveně. Citace jsou místy použity nevhodně, například v sekci 3.1.1, kde jsou vkládány doprostřed věty místo za jméno autora nebo na konec tvrzení. Podobné problémy se objevují i u přehledu nástrojů red teamingu. Negativně hodnotím také nesprávně formulované poděkování za použití MetaCentra.	67
Realisation output	Realizační výstup má rozumný návrh. Oceňuji analýzu požadavků, důraz na reprodukovatelnost, použití manifestů, seedů a mapování požadavků na konkrétní části návrhu. Tyto části ukazují, že student nad návrhem frameworku přemýšlel systematicky. Zásadní slabinou je ale absence reálného testování v technické zprávě. Práce neukazuje, že framework byl skutečně použit k red teamingu konkrétního modelu, jaké útoky byly spuštěny, jaké výsledky byly získány a zda poskytuje prakticky využitelné výstupy. Bez této části je obtížné posoudit funkčnost a přínos implementace. Měření doby běhu nad dummy operacemi není dostatečnou validací nástroje. Pro takovýto typ práce bych očekával alespoň základní experiment, ve kterém bude framework spuštěn nad konkrétním LLM modelem, s vybranou sadou útoků a následnou analýzou výsledků.	65
Usability of results	Výsledky mohou být potenciálně využitelné jako základ pro framework reprodukovatelného testování LLM systémů. Návrh obsahuje několik dobrých myšlenek, zejména v oblasti reprodukovatelnosti a systematického popisu experimentů. Reálnou využitelnost je však z textu práce obtížné posoudit, protože chybí dostatečné ověření frameworku na reálných modelech a útocích.
The extent to which the requirements of the assignment have been met	Evaluation level: assignment almost fulfilled Student provedl analýzu existujících frameworků pro red teaming LLM systémů, identifikoval jejich nedostatky a navrhl vlastní řešení. Pozitivně hodnotím zejména analýzu existujících přístupů, identifikaci jejich nedostatků a následné mapování návrhu na tyto nedostatky. Za problematické považuji experimentální ověření navrženého frameworku. Přestože práce deklaruje testování na vybraném modelu, prezentovaná evaluace je zaměřena převážně na technické vlastnosti frameworku a jeho běh, nikoli na jeho účinnost při red teamingu jazykových modelů. Testování navíc probíhá pouze ve velmi omezeném rozsahu na jednom modelu, což neposkytuje dostatečný základ pro posouzení praktické použitelnosti navrženého řešení. Zadání přitom explicitně klade důraz na vyhodnocení úspěšnosti útoků. V práci však chybí odpovídající kvantitativní vyhodnocení pomocí metrik typu Attack Success Rate a není tak dostatečně doloženo, zda framework skutečně plní svůj hlavní účel. Tuto část proto považuji za splněnou pouze částečně. Při obhajobě bych doporučil detailněji demonstrovat, jakým způsobem byl framework použit při testování reálných modelů, jaké útoky byly provedeny a jaké výsledky z hlediska úspěšnosti útoků byly dosaženy.
Extent of the technical report	Evaluation level: is within the usual extent Rozsah technické zprávy je 55 stran a odpovídá bežným požadavkům na bakalářskou práci.
Work with literature	Práce využívá relevantní zdroje, včetně odborných publikací a technických prací z oblasti red teamingu a bezpečnosti LLM systémů. Použitá literatura je tematicky vhodná. U části zdrojů jde však o arXiv preprinty, u kterých je potřeba brát v úvahu, že nemusely projít recenzním řízením.	75

Topics for thesis defence:

Jaké konkrétní modely byly frameworkem reálně testovány, jaké útoky byly použity a jaké výsledky byly dosaženy?
V práci je velká část evaluace provedena proti stub adaptéru. Jak se výsledky liší při spuštění proti reálnému LLM modelu?
Jak ověřujete, že framework nejen technicky běží, ale skutečně korektně provádí red teaming testy a vyhodnocuje úspěšnost útoků?
Reprodukovatelnost řešíte pomocí manifestů a seedů. Co se stane, pokud se změní model poskytovaný přes API, například jeho váhy, systémové nastavení nebo bezpečnostní filtry, aniž by o tom poskytovatel informoval?

Points proposed by reviewer: 65

Grade proposed by reviewer: D

Responsibility: Mgr. et Mgr. Hana Odstrčilová

VUT

Faculties and university institutes

Parts

Development of an LLM Red-Teaming Toolkit: Design, Implementation, and Evaluation