Bachelor's Thesis

Stealing Machine Learning Models via Query Probing

Author of thesis: Bc. Tadeáš Zobal

Acad. year: 2025/2026

Abstract:

This thesis investigates model extraction attacks against Machine Learning as a Service (MLaaS) models accessible via black-box API. The theoretical part of the thesis summarizes extraction taxonomies and provides an overview of practical defense methods, including monitoring methods. The practical part focuses on reproducing a convolutional neural network extraction attack inspired by the Knockoff Nets study. We implemented and evaluated three monitoring methods: Perceptual Hashing, PRADA, and the advanced ADD method based on analyzing the feature vectors of queries. These methods were integrated with an adaptive defense that modifies the adversary's outputs using dynamic Gaussian noise. Our experiments demonstrate that while extraction remains a threat, the proposed monitoring techniques can effectively identify suspicious behavior and lower the accuracy and fidelity of the stolen model under specific conditions. Yet, there is no single monitoring method that generalizes to all attack scenarios.

Keywords:

Model Extraction, Model Stealing, Query Probing, MLaaS, Machine Learning as a Service, Confidence Values, Class Labels

Date of defence

17.06.2026

Result of the defence

Defended (thesis was successfully defended)

znamkaBznamka

Grading

Process of defence

Student nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta a na další otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm B.

Topics for thesis defence

Jaké typy modelů jsou realisticky zranitelné vůči model stealing útokům a existuje hranice komplexity modelu, kde přestávají být podobné útoky prakticky realizovatelné?
Proč byly zvoleny právě použité datasety a nakolik odpovídají realistickým scénářům nasazení diskutovaných modelů?
Co jste prakticky zkoušel za modely?

Language of thesis

English

Faculty

Fakulta informačních technologií

Department

Department of Intelligent Systems

Study programme

Information Technology (BIT)

Composition of Committee

prof. Ing. Martin Čadík, Ph.D. (předseda)
doc. Ing. Ondřej Ryšavý, Ph.D. (místopředseda)
Ing. Marcela Zachariášová, Ph.D. (člen)
Ing. Tomáš Goldmann, Ph.D. (člen)
Ing. Vojtěch Havlena, Ph.D. (člen)

Supervisor’s report
Ing. Milan Šalko

S výslednou prací jsem spokojen. Student prokázal aktivní a samostatný přístup k řešení, práci průběžně konzultoval a podařilo se mu kvalitně zpracovat náročné a aktuální téma.

Evaluation criteria	Verbal classification
Information about assignment	Zadání považuji za nadprůměrně náročné, protože kombinuje studium aktuálních útoků na modely strojového učení s praktickou realizací experimentu v black-box scénáři. Student musel analyzovat reprodukovatelné state-of-the-art útoky, prostudovat obranné metody a ověřit jejich účinnost z hlediska přesnosti ukradeného modelu, náročnosti útoku i dopadu na použitelnost původního modelu. Zadání bylo splněno v požadovaném rozsahu a s dosaženými výsledky jsem spokojen.
Work with literature	Student při řešení práce využíval relevantní odborné zdroje zaměřené na bezpečnost modelů strojového učení, útoky typu model stealing i existující obranné přístupy. Zdroje byly vhodně využity jak při zpracování teoretické části, tak při návrhu a realizaci experimentu.
Activity during solution, consultations, communication	Student byl během řešení aktivní, práci pravidelně konzultoval a na konzultace přicházel připraven. Oceňuji, že samostatně přicházel s návrhy řešení a aktivně reagoval na připomínky. Dohodnuté termíny dodržoval.
Activity during completion	Práce byla dokončena v dostatečném předstihu a její definitivní obsah byl se mnou konzultován. Nemám k této části žádné zásadní připomínky.
Publication activity, awards	Publikační činnost ani ocenění související s řešením této práce mi nejsou známy.

Points proposed by supervisor: 95

Grade proposed by supervisor: A

Reviewer’s report
Ing. Anton Firc, Ph.D.

Práce představuje kvalitní experimentální studii s vlastním přínosem autora. Největší silnou stránkou je metodologicky správně provedená experimentální část, replikace původní studie a následné rozšíření o vlastní přístup k detekci pomocí metody perceptual hashingu. Oceňuji také kritické a poctivé vyhodnocení dosažených výsledků.

Slabší stránkou práce je především formální a prezentační úroveň. Text místy předpokládá příliš mnoho znalostí čtenáře, některé důležité koncepty nejsou dostatečně vysvětleny a práce obsahuje větší množství formálních nedostatků.

Přes uvedené výhrady však realizační část výrazně převyšuje běžná očekávání od studentské práce a hodnotím ji pozitivně. Celkově práci hodnotím stupněm B (85 bodů).

Evaluation criteria	Verbal classification	Points
The difficulty of the assignment	Evaluation level: moderately difficult assignment Zadání hodnotím jako průměrně obtížné. Student se musel seznámit s problematikou model stealing útoků, existujícími obrannými metodami a následně realizovat experimentální evaluaci nad ML modely.
Presentation level of the technical report	Práce je psaná v anglickém jazyce, což hodnotím pozitivně. Abstrakt je velmi dobře napsaný a přesně odpovídá tomu, jak by měl kvalitní abstrakt vypadat. Background část je dobře strukturovaná a vhodně přechází od obecných informací k detailnějším konceptům. Pozitivně hodnotím také používání formálních zápisů diskutovaných konceptů, které práci dodává technickou úroveň. Současně ale práce trpí několika problémy v prezentaci informací. V úvodu prakticky chybí reference, takže není jasné, které myšlenky jsou autorovy vlastní a které jsou převzaté z literatury. U základních architektur ML modelů v sekci 2.5 bych ocenil doplnění obrázků nebo architekturních diagramů pro lepší pochopení diskutovaných konceptů. V některých částech práce chybí potřebný kontext. Například ani na straně 34 není jasné, jaký konkrétní problém vlastně řeší testovaný model použitý v experimentech. V textu se objevují zmínky o modelech pro klasifikaci obrázků nebo datasetech obrázků, ale není explicitně vysvětleno, jaká je konkrétní úloha modelu, co klasifikuje a proč byly vybrány právě tyto datasety. Použité datasety nejsou prakticky popsány — práce pouze uvádí, že byly použity nějaké datasety, ale bez hlubšího vysvětlení jejich charakteristik nebo relevance. Stejně tak bych ocenil detailnější představení studie, na kterou práce navazuje, protože některé experimentální kroky bez znalosti původní práce nedávají dostatečný smysl. Výsledková část je informačně poměrně hustá a čtenář se přes ni musí více „prokousat“, ale metodicky je zpracována správně.	75
Formal preparation of a technical report	Formální úprava je slabší stránkou práce. Opakovaně se objevují nekonzistence v používání velkých a malých písmen u referencí typu chapter, section apod. Dále se vyskytují osamocené citace na začátku řádků nebo nejasné reference typu „Lowd and Meek 3.3.1“, které nepůsobí formálně správně. V textu se nacházejí i drobné jazykové chyby, například formulace „to change to be changed“ v sekci 4.1.2. V sekci 3.3.1 se objevuje nedefinovaný parametr „d“ a některé odkazy postrádají jasné návěstí. Práce také obsahuje některé formální nedostatky typu prázdné stránky (např. strana 61) nebo chybějících referencí, například v sekci 7.5. Negativně hodnotím také poděkování za použití MetaCentra, které není formulováno vhodným způsobem.	62
Realisation output	Realizační výstup hodnotím pozitivně. Student metodicky správně provedl replikaci původní studie a následně realizoval vlastní experimentální rozšíření. Oceňuji zejména návrh perceptual hashing metody, který představuje vlastní přínos autora a ukazuje schopnost přenášet znalosti mezi různými doménami. Velmi pozitivně hodnotím i to, že autor kriticky a poctivě vyhodnocuje dosažené výsledky a nesnaží se vlastní přístup prezentovat jako úspěšný za každou cenu. Práce otevřeně diskutuje, že navržená metoda nemusí fungovat tak efektivně, jak bylo původně očekáváno. Současně zde ale zůstává několik nejasností. Není například jasně vysvětleno, jaké typy modelů je možné podobným způsobem „ukrást“, kde leží hranice praktické realizovatelnosti model stealing útoků a zda existuje hranice komplexity modelů, kde už podobné útoky přestávají být efektivní. Chybí také detailnější diskuse o přidaných výpočetních nárocích a praktických nárocích deploymentu navržených obranných metod.	88
Usability of results	Výsledky práce jsou využitelné zejména ve výzkumné oblasti bezpečnosti strojového učení a ochrany modelů proti útokům model stealing. Práce ukazuje zajímavé směry obrany a současně experimentálně ověřuje jejich praktickou efektivitu.
The extent to which the requirements of the assignment have been met	Evaluation level: assignment fulfilled Zadání bylo splněno v požadovaném rozsahu. Student provedl replikaci existující studie, experimentálně ověřil její výsledky a následně navrhl vlastní rozšíření v podobě metody perceptual hashing. Oceňuji, že práce není pouze replikací existujícího řešení, ale obsahuje i vlastní přínos autora a snahu přenést znalosti z jiné domény do řešeného problému.
Extent of the technical report	Evaluation level: is within the usual extent Technická zpráva je poměrně rozsáhlá a pohybuje se již na horní hranici běžného rozsahu práce. Přesto rozsah odpovídá množství realizovaných experimentů a diskutovaných témat.
Work with literature	Práce využívá převážně odborné publikace a relevantní vědecké zdroje. Citace jsou zvoleny vhodně a až na introduction je většinou jasně odlišeno, co představuje převzatou informaci a co je autorův vlastní přínos. Je škoda, že práce více nesumarizuje existující obranné metody proti model stealing útokům a jejich očekávanou účinnost. Podobná přehledová sekce by čtenářům pomohla lépe zasadit vlastní experimenty do širšího kontextu.	75

Topics for thesis defence:

Jaké typy modelů jsou realisticky zranitelné vůči model stealing útokům a existuje hranice komplexity modelu, kde přestávají být podobné útoky prakticky realizovatelné?
Proč byly zvoleny právě použité datasety a nakolik odpovídají realistickým scénářům nasazení diskutovaných modelů?

Points proposed by reviewer: 85

Grade proposed by reviewer: B

Responsibility: Mgr. et Mgr. Hana Odstrčilová

VUT

Faculties and university institutes

Parts

Stealing Machine Learning Models via Query Probing