Master's Thesis

A Novel Defense Method against Jailbreak Attacks on Large Language Models

Final Thesis 4.17 MB

Author of thesis: Ing. Petr Kaška

Acad. year: 2025/2026

Supervisor: Ing. Jakub Reš

Reviewer: Ing. Anton Firc, Ph.D.

Abstract:

Large language models are increasingly being deployed in production systems, where they are vulnerable to "jailbreak" attacks that cause the models to ignore their own security mechanisms and respond to requests they would normally reject.
Existing prompt-level defenses either block legitimate queries along with malicious ones or rely on random perturbations without any learned transformation, leading to unpredictable results.
This work proposes AlcaTRAz, a component that uses genetic programming to develop a deterministic character perturbation rule and applies it to the input prompt before passing it to the model, thereby disrupting the structure of adversarial prompts without harming legitimate queries.
The rule is optimized on malicious prompts using a fitness function that integrates LLM-as-judge and deployed as a black-box preprocessing step, transferable across target architectures without the need to retrain individual models.
The method is evaluated on a large-scale benchmark of jailbreak attacks across open-source target models. AlcaTRAz significantly reduces malicious compliance while preserving usefulness for harmless queries and outperforms all baseline defenses.
The results also show that the source dataset of malicious prompts predicts attack success better than a specific attack technique, and that a rule trained on a single target model successfully transfers across architectures with significantly different tokenizers.

Keywords:

large language models, jailbreak attacks, prompt-level defense, character perturbation, genetic programming, LLM-as-judge, AI safety, adversarial prompts

Date of defence

24.06.2026

Result of the defence

Defended (thesis was successfully defended)

znamkaAznamka

Grading

A

Process of defence

Student nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta a na další otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm A.

Topics for thesis defence

  1. Kompozitní skóre dává stejnou váhu snížení škodlivé compliance a zachování užitečnosti modelu. Proč jste zvolil právě rovnoměrné vážení a jak by se změnily závěry při vyšší váze bezpečnosti?
  2. U pěti modelů vedlo použití AlcaTRAz ke zvýšení škodlivé compliance. O jaké modely šlo, z jakých byly rodin a čím si tento efekt vysvětlujete?
  3. Veškeré automatizované vyhodnocení stojí na judge modelu Gemma3:12B. Jak citlivé podle Vás mohou být výsledky na volbu judge modelu a jak by bylo možné tuto závislost experimentálně ověřit?
  4. Z jakého důvodu jste zvolil genetické programování?

Language of thesis

English

Faculty

Department

Study programme

Information Technology and Artificial Intelligence (MITAI)

Specialization

Machine Learning (NMAL)

Composition of Committee

prof. Dr. Ing. Jan Černocký (předseda)
doc. Ing. Vítězslav Beran, Ph.D. (místopředseda)
doc. Ing. Ondřej Lengál, Ph.D. (člen)
doc. Ing. František Zbořil, Ph.D. (člen)
Ing. Michal Hradiš, Ph.D. (člen)
Ing. Martin Fajčík, Ph.D. (člen)

Supervisor’s report
Ing. Jakub Reš

Student prokázal mimořádné schopnosti práce na složitém tématu, samostudia, a systematickém zpracování problematiky. Výsledky práce kvalitou na úrovni prestižních konferencí.


Navrhuji práci hodnotit známkou A (100 b.).


Navrhuji tuto práci na jedno z možných ocenění a nominaci do soutěže IT SPY 2026.

Evaluation criteria Verbal classification
Informace k zadání

Zadání práce cílí na vytvoření nové obranné metody proti útokům typu jailbreak na velké jazykové modely, založené na systematickém vkládání šumu do uživatelského promptu. Obranná metoda tak rozbíjí syntaktické vzorce útoků a znehodnocuje jejich účinnost.

Zadání je vědecky orientované a hodnotím jej jako velmi náročné vzhledem k řešené problematice a znalostem potřebným pro řešení tématu. Jedná se nejen o vytvoření nové obranné metody, ale zároveň její robustní vyhodnocení.

S výsledky práce jsem nadmíru spokojen, student prokázal schopnosti nad míru očekávání.

Aktivita při dokončování

Práce byla vypracována v dostatečném předstihu. Měl jsem možnost dát zpětnou vazbu na finální podobu práce, kterou měl student možnost zapracovat.

Publikační činnost, ocenění

Částečné výsledky práce jsou nyní v recenzním řízení konference ESORICS (CORE A). Práce byla zároveň přijata a oceněna firmou SAP na studentské konferenci Excel@FIT. Mimo zmíněné byla práce taktéž přijata a prezentována na nadnárodní akci ML Prague formou posteru, a přijata jako přednáška na konferenci DevConf 2026.

Nástroj, tedy soubor útoků typu jailbreak a obranná metoda, jsou dostupné jako open-source.

Práce s literaturou

Student během řešení opakovaně prokázal schopnosti nejen práce s dodanou a doporučenou literaturou, ale taktéž si aktivně vyhledával relevantní vědecké zdroje po celou dobu práce.

Aktivita během řešení, konzultace, komunikace

Student aktivně a průběžně konzultoval postup práce jak online, tak osobní formou. Zároveň student chodil vždy včas, připraven, a měl připravená témata a dotazy na konzultaci.

Points proposed by supervisor: 100

Grade proposed by supervisor: A

Reviewer’s report
Ing. Anton Firc, Ph.D.

Práce představuje výbornou výzkumně orientovanou diplomovou práci. Student nenavrhuje pouze implementaci existujícího přístupu, ale přichází s vlastní metodou obrany proti jailbreak útokům na velké jazykové modely. Rozsah experimentů, počet testovaných modelů a útoků, porovnání s dalšími metodami i důraz na zachování užitečnosti modelu jsou na úrovni odborné publikace.


Silnou stránkou práce jsou metodická rigoróznost, jasně definovaný model útočníka, formulace výzkumných otázek, důkladná validace judge modelu, vytvoření vlastního validačního datasetu a otevřená diskuse o limitacích. Práce je poctivá i v tom, že neprezentuje metodu jako univerzální řešení všech útoků, ale přesně ukazuje, v jakém nastavení a podle jakých metrik je její přínos největší.


Hlavní výhrady mám k prezentaci některých výsledků, zejména k přeplněným obrázkům s malým písmem a k tomu, že některé detaily tréninku a analýzy selhání mohly být v hlavním textu rozebrány podrobněji. Tyto nedostatky však nijak nemění skutečnost, že jde o velmi kvalitní práci s jasným výzkumným přínosem. Práci hodnotím stupněm A (98b).


Navrhuji tuto práci na jedno z možných ocenění a na nominaci do soutěže IT SPY 2026.

Evaluation criteria Verbal classification Points
Rozsah splnění požadavků zadání

Evaluation level: zadání splněno

Zadání bylo splněno bez výhrad. Hlavním přínosem práce je návrh nové metody ochrany proti jailbreak útokům na velké jazykové modely. Metoda je založena na vkládání znaků do vstupního promptu, přičemž vhodná pozice pro vložení je optimalizována pomocí genetického programování.

Navržená metoda je následně vyhodnocena na 33 open-source modelech z 13 rodin a proti 22 dostupným útokům pokrývajícím široké spektrum jailbreak technik. Porovnání je provedeno s třemi dalšími obrannými metodami. Rozsah experimentů i jejich metodická úroveň výrazně přesahují běžné požadavky diplomové práce.

Rozsah technické zprávy

Evaluation level: je v obvyklém rozmezí

Rozsah technické zprávy odpovídá požadavkům na diplomovou práci. Práce obsahuje všechny potřebné části od teoretického úvodu přes návrh metody až po rozsáhlé experimentální vyhodnocení.

Prezentační úroveň technické zprávy

Abstrakt je dobře napsaný a správně provází čtenáře obsahem práce. Rozšířený abstrakt je také dobře strukturovaný, srozumitelný a podává ucelený obraz o práci. Oceňuji rovněž formulaci hlavních přínosů v úvodu.

Teoretická část se nejprve věnuje velkým jazykovým modelům a jailbreak útokům. Samotný popis LLM je sice poměrně stručný, ale navazující části týkající se jailbreak útoků, jejich dělení a obranných metod jsou zpracovány velmi dobře. Rozdělení útoků je systematické, navazuje na odbornou literaturu a jednotlivé typy útoků jsou srozumitelně vysvětleny. Ilustrace pomáhají rychle pochopit principy diskutovaných technik.

Velmi pozitivně hodnotím, že už od teoretických kapitol je jasná vazba na vlastní téma práce. Autor se nesnaží pouze obecně popisovat související oblasti, ale propojuje teoretické koncepty s motivací navrhované metody. Stejně tak je u obranných metod vysvětleno, v čem je navrhovaná metoda odlišná a proč dává smysl zaměřit se právě na obrany na úrovni promptu.

Návrh metody AlcaTRAz je popsán srozumitelně, postupně od vysoké úrovně až po detaily jejího fungování. Oceňuji definici modelu útočníka, formulaci výzkumných otázek i promyšlenou konstrukci experimentů. Výsledky jsou vhodně interpretované a i když jsou poměrně hutné, lze se v nich zorientovat.

Slabší stránkou je zejména prezentace výsledků v grafech a obrázcích. Některé obrázky obsahují příliš mnoho informací a používají velmi malé písmo, takže se obtížně čtou. Také by bylo vhodné v hlavním textu podrobněji popsat trénink obrané metody, výběr finálního řešení a ukázat, co se genetickým programováním vlastně naučilo. Část těchto informací je v příloze, ale vzhledem k důležitosti metody by si zasloužila více prostoru v hlavním textu.

85
Formální úprava technické zprávy

Formální úprava je celkově dobrá. Pozitivně hodnotím správně formulované poděkování MetaCentru. Drobné výhrady mám k chybě na titulní straně, kde je čárka za jménem vedoucího, a k některým obrázkům, kde je text velmi malý a hůře čitelný. U některých použitých vzorců také nejsou dostatečně vysvětleny všechny symboly a notace.

85
Práce s literaturou

Práce s literaturou je na dobré úrovni. Autor využívá relevantní odbornou literaturu a je zřejmé, že problematice rozumí. Oceňuji zejména systematické členění jailbreak útoků a obranných metod podle odborných zdrojů.

V úvodu bych však ocenil více citací, aby bylo jasnější, které informace a myšlenky jsou převzaté a které jsou autorovy vlastní.

85
Realizační výstup

Realizační výstup hodnotím výborně. Student navrhl novou metodu ochrany proti jailbreak útokům, která má jasnou motivaci, je dobře popsána a je rozsáhle experimentálně ověřena. Všechna významná návrhová rozhodnutí jsou zdůvodněna a v potřebných případech podpořena literaturou, například motivace pro prompt-level obranu nebo způsob vyhodnocování úspěšnosti obrany.

Velmi oceňuji důkladné ověření judge modelu a vytvoření ground truth datasetu pro jeho validaci. Tento dataset má samostatnou hodnotu pro komunitu a může sloužit jako dobrý základ pro další testování judge modelů v oblasti jailbreak útoků.

Navržené composite score považuji za zajímavý a prakticky důležitý doplněk evaluace. Správně reflektuje, že obrana by neměla pouze potlačovat útoky, ale také zachovat běžnou užitečnost modelu. Z výsledků je patrné, že metoda AlcaTRAz je silná právě v tomto vyváženém nastavení: nemusí nutně potlačit každý útok jako některé agresivnější obrany, ale výrazně lépe zachovává užitečnost modelu a dosahuje velmi dobrého celkového skóre.

Pozitivně hodnotím také open-source povahu výstupu. Vzhledem k jednoduchosti a univerzálnosti navržené metody jde o výstup využitelný nejen výzkumnou komunitou, ale i uživateli, kteří chtějí chránit vlastní LLM systémy.

98
Využitelnost výsledků

Výsledky práce mají vysokou využitelnost. Navržená metoda je jednoduchá, univerzální, open-source a může být použita jako praktická prompt-level obrana proti širokému spektru jailbreak útoků. Přínos práce je zároveň výzkumný, protože zahrnuje rozsáhlou evaluaci napříč modely, útoky a obrannými metodami.

Za důležitý výstup považuji také vytvořený ground truth dataset pro validaci judge modelů a detailní experimentální srovnání, které může být užitečné pro další práce v oblasti bezpečnosti LLM.

Náročnost zadání

Evaluation level: obtížnější zadání

Zadání hodnotím jako náročnější. Práce má výzkumný a experimentální charakter a vyžaduje orientaci v aktuální problematice jailbreak útoků na velké jazykové modely, v existujících obranných metodách a ve způsobech jejich korektního vyhodnocení. Nad rámec pouhé implementace existujících přístupů bylo nutné navrhnout vlastní obrannou metodu, zdůvodnit její návrh na základě poznatků z odborné literatury a následně ji rozsáhle experimentálně ověřit na široké množině modelů, útoků a obranných mechanismů. Významnou část náročnosti práce proto představovalo nejen samotné navržení metody, ale i příprava a realizace metodicky korektní evaluace umožňující objektivně posoudit její přínos.

Topics for thesis defence:
  1. Kompozitní skóre dává stejnou váhu snížení škodlivé compliance a zachování užitečnosti modelu. Proč jste zvolil právě rovnoměrné vážení a jak by se změnily závěry při vyšší váze bezpečnosti?
  2. U pěti modelů vedlo použití AlcaTRAz ke zvýšení škodlivé compliance. O jaké modely šlo, z jakých byly rodin a čím si tento efekt vysvětlujete?
  3. Veškeré automatizované vyhodnocení stojí na judge modelu Gemma3:12B. Jak citlivé podle Vás mohou být výsledky na volbu judge modelu a jak by bylo možné tuto závislost experimentálně ověřit?
Points proposed by reviewer: 98

Grade proposed by reviewer: A

Responsibility: Mgr. et Mgr. Hana Odstrčilová