Přístupnostní navigace
E-application
Search Search Close
Master's Thesis
Author of thesis: Ing. Petr Kaška
Acad. year: 2025/2026
Supervisor: Ing. Jakub Reš
Reviewer: Ing. Anton Firc, Ph.D.
Large language models are increasingly being deployed in production systems, where they are vulnerable to "jailbreak" attacks that cause the models to ignore their own security mechanisms and respond to requests they would normally reject. Existing prompt-level defenses either block legitimate queries along with malicious ones or rely on random perturbations without any learned transformation, leading to unpredictable results. This work proposes AlcaTRAz, a component that uses genetic programming to develop a deterministic character perturbation rule and applies it to the input prompt before passing it to the model, thereby disrupting the structure of adversarial prompts without harming legitimate queries. The rule is optimized on malicious prompts using a fitness function that integrates LLM-as-judge and deployed as a black-box preprocessing step, transferable across target architectures without the need to retrain individual models. The method is evaluated on a large-scale benchmark of jailbreak attacks across open-source target models. AlcaTRAz significantly reduces malicious compliance while preserving usefulness for harmless queries and outperforms all baseline defenses. The results also show that the source dataset of malicious prompts predicts attack success better than a specific attack technique, and that a rule trained on a single target model successfully transfers across architectures with significantly different tokenizers.
large language models, jailbreak attacks, prompt-level defense, character perturbation, genetic programming, LLM-as-judge, AI safety, adversarial prompts
Date of defence
24.06.2026
Result of the defence
Defended (thesis was successfully defended)
Grading
A
Process of defence
Student nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta a na další otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm A.
Topics for thesis defence
Language of thesis
English
Faculty
Fakulta informačních technologií
Department
Department of Intelligent Systems
Study programme
Information Technology and Artificial Intelligence (MITAI)
Specialization
Machine Learning (NMAL)
Composition of Committee
prof. Dr. Ing. Jan Černocký (předseda) doc. Ing. Vítězslav Beran, Ph.D. (místopředseda) doc. Ing. Ondřej Lengál, Ph.D. (člen) doc. Ing. František Zbořil, Ph.D. (člen) Ing. Michal Hradiš, Ph.D. (člen) Ing. Martin Fajčík, Ph.D. (člen)
Supervisor’s reportIng. Jakub Reš
Student prokázal mimořádné schopnosti práce na složitém tématu, samostudia, a systematickém zpracování problematiky. Výsledky práce kvalitou na úrovni prestižních konferencí.
Navrhuji práci hodnotit známkou A (100 b.).
Navrhuji tuto práci na jedno z možných ocenění a nominaci do soutěže IT SPY 2026.
Zadání práce cílí na vytvoření nové obranné metody proti útokům typu jailbreak na velké jazykové modely, založené na systematickém vkládání šumu do uživatelského promptu. Obranná metoda tak rozbíjí syntaktické vzorce útoků a znehodnocuje jejich účinnost.
Zadání je vědecky orientované a hodnotím jej jako velmi náročné vzhledem k řešené problematice a znalostem potřebným pro řešení tématu. Jedná se nejen o vytvoření nové obranné metody, ale zároveň její robustní vyhodnocení.
S výsledky práce jsem nadmíru spokojen, student prokázal schopnosti nad míru očekávání.
Práce byla vypracována v dostatečném předstihu. Měl jsem možnost dát zpětnou vazbu na finální podobu práce, kterou měl student možnost zapracovat.
Částečné výsledky práce jsou nyní v recenzním řízení konference ESORICS (CORE A). Práce byla zároveň přijata a oceněna firmou SAP na studentské konferenci Excel@FIT. Mimo zmíněné byla práce taktéž přijata a prezentována na nadnárodní akci ML Prague formou posteru, a přijata jako přednáška na konferenci DevConf 2026.
Nástroj, tedy soubor útoků typu jailbreak a obranná metoda, jsou dostupné jako open-source.
Student během řešení opakovaně prokázal schopnosti nejen práce s dodanou a doporučenou literaturou, ale taktéž si aktivně vyhledával relevantní vědecké zdroje po celou dobu práce.
Student aktivně a průběžně konzultoval postup práce jak online, tak osobní formou. Zároveň student chodil vždy včas, připraven, a měl připravená témata a dotazy na konzultaci.
Grade proposed by supervisor: A
Reviewer’s reportIng. Anton Firc, Ph.D.
Práce představuje výbornou výzkumně orientovanou diplomovou práci. Student nenavrhuje pouze implementaci existujícího přístupu, ale přichází s vlastní metodou obrany proti jailbreak útokům na velké jazykové modely. Rozsah experimentů, počet testovaných modelů a útoků, porovnání s dalšími metodami i důraz na zachování užitečnosti modelu jsou na úrovni odborné publikace.
Silnou stránkou práce jsou metodická rigoróznost, jasně definovaný model útočníka, formulace výzkumných otázek, důkladná validace judge modelu, vytvoření vlastního validačního datasetu a otevřená diskuse o limitacích. Práce je poctivá i v tom, že neprezentuje metodu jako univerzální řešení všech útoků, ale přesně ukazuje, v jakém nastavení a podle jakých metrik je její přínos největší.
Hlavní výhrady mám k prezentaci některých výsledků, zejména k přeplněným obrázkům s malým písmem a k tomu, že některé detaily tréninku a analýzy selhání mohly být v hlavním textu rozebrány podrobněji. Tyto nedostatky však nijak nemění skutečnost, že jde o velmi kvalitní práci s jasným výzkumným přínosem. Práci hodnotím stupněm A (98b).
Navrhuji tuto práci na jedno z možných ocenění a na nominaci do soutěže IT SPY 2026.
Evaluation level: zadání splněno
Zadání bylo splněno bez výhrad. Hlavním přínosem práce je návrh nové metody ochrany proti jailbreak útokům na velké jazykové modely. Metoda je založena na vkládání znaků do vstupního promptu, přičemž vhodná pozice pro vložení je optimalizována pomocí genetického programování.
Navržená metoda je následně vyhodnocena na 33 open-source modelech z 13 rodin a proti 22 dostupným útokům pokrývajícím široké spektrum jailbreak technik. Porovnání je provedeno s třemi dalšími obrannými metodami. Rozsah experimentů i jejich metodická úroveň výrazně přesahují běžné požadavky diplomové práce.
Evaluation level: je v obvyklém rozmezí
Rozsah technické zprávy odpovídá požadavkům na diplomovou práci. Práce obsahuje všechny potřebné části od teoretického úvodu přes návrh metody až po rozsáhlé experimentální vyhodnocení.
Abstrakt je dobře napsaný a správně provází čtenáře obsahem práce. Rozšířený abstrakt je také dobře strukturovaný, srozumitelný a podává ucelený obraz o práci. Oceňuji rovněž formulaci hlavních přínosů v úvodu.
Teoretická část se nejprve věnuje velkým jazykovým modelům a jailbreak útokům. Samotný popis LLM je sice poměrně stručný, ale navazující části týkající se jailbreak útoků, jejich dělení a obranných metod jsou zpracovány velmi dobře. Rozdělení útoků je systematické, navazuje na odbornou literaturu a jednotlivé typy útoků jsou srozumitelně vysvětleny. Ilustrace pomáhají rychle pochopit principy diskutovaných technik.
Velmi pozitivně hodnotím, že už od teoretických kapitol je jasná vazba na vlastní téma práce. Autor se nesnaží pouze obecně popisovat související oblasti, ale propojuje teoretické koncepty s motivací navrhované metody. Stejně tak je u obranných metod vysvětleno, v čem je navrhovaná metoda odlišná a proč dává smysl zaměřit se právě na obrany na úrovni promptu.
Návrh metody AlcaTRAz je popsán srozumitelně, postupně od vysoké úrovně až po detaily jejího fungování. Oceňuji definici modelu útočníka, formulaci výzkumných otázek i promyšlenou konstrukci experimentů. Výsledky jsou vhodně interpretované a i když jsou poměrně hutné, lze se v nich zorientovat.
Slabší stránkou je zejména prezentace výsledků v grafech a obrázcích. Některé obrázky obsahují příliš mnoho informací a používají velmi malé písmo, takže se obtížně čtou. Také by bylo vhodné v hlavním textu podrobněji popsat trénink obrané metody, výběr finálního řešení a ukázat, co se genetickým programováním vlastně naučilo. Část těchto informací je v příloze, ale vzhledem k důležitosti metody by si zasloužila více prostoru v hlavním textu.
Formální úprava je celkově dobrá. Pozitivně hodnotím správně formulované poděkování MetaCentru. Drobné výhrady mám k chybě na titulní straně, kde je čárka za jménem vedoucího, a k některým obrázkům, kde je text velmi malý a hůře čitelný. U některých použitých vzorců také nejsou dostatečně vysvětleny všechny symboly a notace.
Práce s literaturou je na dobré úrovni. Autor využívá relevantní odbornou literaturu a je zřejmé, že problematice rozumí. Oceňuji zejména systematické členění jailbreak útoků a obranných metod podle odborných zdrojů.
V úvodu bych však ocenil více citací, aby bylo jasnější, které informace a myšlenky jsou převzaté a které jsou autorovy vlastní.
Realizační výstup hodnotím výborně. Student navrhl novou metodu ochrany proti jailbreak útokům, která má jasnou motivaci, je dobře popsána a je rozsáhle experimentálně ověřena. Všechna významná návrhová rozhodnutí jsou zdůvodněna a v potřebných případech podpořena literaturou, například motivace pro prompt-level obranu nebo způsob vyhodnocování úspěšnosti obrany.
Velmi oceňuji důkladné ověření judge modelu a vytvoření ground truth datasetu pro jeho validaci. Tento dataset má samostatnou hodnotu pro komunitu a může sloužit jako dobrý základ pro další testování judge modelů v oblasti jailbreak útoků.
Navržené composite score považuji za zajímavý a prakticky důležitý doplněk evaluace. Správně reflektuje, že obrana by neměla pouze potlačovat útoky, ale také zachovat běžnou užitečnost modelu. Z výsledků je patrné, že metoda AlcaTRAz je silná právě v tomto vyváženém nastavení: nemusí nutně potlačit každý útok jako některé agresivnější obrany, ale výrazně lépe zachovává užitečnost modelu a dosahuje velmi dobrého celkového skóre.
Pozitivně hodnotím také open-source povahu výstupu. Vzhledem k jednoduchosti a univerzálnosti navržené metody jde o výstup využitelný nejen výzkumnou komunitou, ale i uživateli, kteří chtějí chránit vlastní LLM systémy.
Výsledky práce mají vysokou využitelnost. Navržená metoda je jednoduchá, univerzální, open-source a může být použita jako praktická prompt-level obrana proti širokému spektru jailbreak útoků. Přínos práce je zároveň výzkumný, protože zahrnuje rozsáhlou evaluaci napříč modely, útoky a obrannými metodami.
Za důležitý výstup považuji také vytvořený ground truth dataset pro validaci judge modelů a detailní experimentální srovnání, které může být užitečné pro další práce v oblasti bezpečnosti LLM.
Evaluation level: obtížnější zadání
Zadání hodnotím jako náročnější. Práce má výzkumný a experimentální charakter a vyžaduje orientaci v aktuální problematice jailbreak útoků na velké jazykové modely, v existujících obranných metodách a ve způsobech jejich korektního vyhodnocení. Nad rámec pouhé implementace existujících přístupů bylo nutné navrhnout vlastní obrannou metodu, zdůvodnit její návrh na základě poznatků z odborné literatury a následně ji rozsáhle experimentálně ověřit na široké množině modelů, útoků a obranných mechanismů. Významnou část náročnosti práce proto představovalo nejen samotné navržení metody, ale i příprava a realizace metodicky korektní evaluace umožňující objektivně posoudit její přínos.
Grade proposed by reviewer: A
Responsibility: Mgr. et Mgr. Hana Odstrčilová