Master's Thesis

Deepfake speech detection based on biological factors

Author of thesis: Ing. Michal Frič

Acad. year: 2025/2026

Abstract:

This thesis investigates deepfake speech detection using biologically motivated speech markers. The goal is not to replace current acoustic deepfake detectors, but to examine whether respiratory, vocal, and timing-related cues provide additional, interpretable evidence for distinguishing real from synthetic speech. The work designs and implements a modular pipeline for audio preprocessing, marker extraction, feature-vector construction, and classification using logistic regression and Support Vector Machine (SVM). Experiments are evaluated on pooled data sources and under two out-of-distribution protocols. The results show that biological markers contain a measurable detection signal and help distinguish real from synthetic speech, especially through vocal, respiratory, and timing-related characteristics. At the same time, the standalone marker-based detector remains sensitive to transfer across data sources and does not yet match stronger acoustic back-ends. The thesis therefore treats biological markers as an interpretable complementary source of evidence, while pilot score-level fusion experiments suggest that simple score combination is transparent and does not substantially degrade performance, even though it has not yet delivered a reliable gain over the stronger acoustic branch.

Keywords:

voice deepfakes, deepfake speech detection, biological factors, physiological markers, respiration, prosody, machine learning, OOD generalization

Date of defence

22.06.2026

Result of the defence

Defended (thesis was successfully defended)

znamkaBznamka

Grading

Process of defence

Student nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta a na další otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm B.

Topics for thesis defence

Proč nebylo použito speaker-disjoint rozdělení datasetu, přestože práce sama upozorňuje na riziko úniku dat (data leakage)?
Jak přesně byl vytvořen dataset EDS-14? Jak vzniklo rozdělení train/dev/eval a jaký je překryv mluvčích, jazyků a syntetizátorů mezi jednotlivými částmi?
Do jaké míry podle Vás problémy generalizace souvisejí s jiným jazykem, jiným mluvčím, jinými akustickými podmínkami nebo jiným syntetizátorem? Jak byste tyto faktory experimentálně oddělil?
V práci uvádíte, že fúze s akustickými detektory nepřináší výrazné zlepšení. Uvažoval jste pokročilejší způsoby fúze?

Language of thesis

English

Faculty

Fakulta informačních technologií

Department

Department of Intelligent Systems

Study programme

Information Technology and Artificial Intelligence (MITAI)

Specialization

Cybersecurity (NSEC)

Composition of Committee

doc. Mgr. Kamil Malinka, Ph.D. (předseda)
doc. Ing. Ondřej Ryšavý, Ph.D. (místopředseda)
Ing. Zbyněk Křivka, Ph.D. (člen)
doc. Ing. Ivan Homoliak, Ph.D. (člen)
Ing. Libor Polčák, Ph.D. (člen)
Ing. Radek Hranický, Ph.D. (člen)

Supervisor’s report
Ing. Vojtěch Staněk

Práce splňuje zadání ve všech hlavních bodech. Oceňuji vytvoření vhodné datové sady, pokus o kombinaci vytvořeného detektoru s konvenčními přístupy a širší analýzu a interpretaci dosažených výsledků. Volba ručně navržených markerů místo využití moderních předtrénovaných modelů pravděpodobně omezila dosaženou výkonnost. Student celkově odvedl velké množství výzkumné i implementační práce a vhodně rozšířil zadání o interpretační analýzu. Kvalita odevzdaného textu je velmi dobrá. Z těchto důvodů hodnotím práci stupněm B - velmi dobře.

Evaluation criteria	Verbal classification
Informace k zadání	Zadání hodnotím jako nadprůměrně obtížné, protože propojuje aktuální oblast detekce syntetické řeči s novým neprozkoumaným směrem detekce založeným na biologicky motivovaných řečových markerech. Práce vyžadovala návrh vlastních fyziologických příznaků, jejich extrakci a implementaci detekčního modulu. Všechny body zadání byly splněny. V rámci řešení musela vzniknout vlastní experimentální datová sada zkompilovaná z několika existujících datových sad. Tato sada obsahuje nahrávky delší než 14 sekund, které jsou nezbytné pro vyhodnocování zvolených biologických markerů. Tento požadavek nebyl v zadání explicitně zohledněn, přesto představoval významnou část práce. V práci je dále navržen a implementován modulární extraktor respiračních, akustických a časově založených markerů. Výsledky ukazují, že zvolené biologické markery obsahují měřitelný detekční signál. Student se zaměřil na ručně navržené, interpretovatelné markery, v práci však není prozkoumána alternativa velkých předtrénovaných modelů pro zpracování řeči, což omezuje dosažené výsledky. Navržený fyziologický detektor funguje spíše jako doplňkový a interpretační zdroj informace než jako náhrada výkonných akustických modelů.
Aktivita při dokončování	S blížícím se termínem odevzdání byla aktivita úměrně vyšší. Finální text obsahuje nejen dosažené výsledky, ale také kritickou diskusi omezení navrženého přístupu a nad rámec zadání je doplněna interpretační analýza, která rozšiřuje přínos práce nad rámec základního vyhodnocení detekční přesnosti.
Publikační činnost, ocenění	Student se zúčastnil studentské konference Excel@FIT 2026 kde získal ocenění odborným panelem, což hodnotím velmi kladně. Výstupy práce dále poslouží jako základ pro budoucí vědeckou publikaci.
Práce s literaturou	Student skvěle pracoval s relevantní literaturou a v práci pokryl široké spektrum souvisejících témat. Teoretická část práce je tedy výborným přehledem aktuálního stavu poznání fyziologických příznaků zasazeného do kontextu biologicky motivované detekce syntetické řeči. Kladně hodnotím využití moderních konvenčních detektorů založených na SSL-modelech. Jediným nedostatkem je absence vyhodnocení velkých audio modelů v kontextu práce.
Aktivita během řešení, konzultace, komunikace	Student pracoval převážně samostatně. Konzultace probíhaly spíše nárazově než pravidelně, byly však dostatečné pro průběžné usměrnění práce a řešení podstatných technických i koncepčních otázek. Student většinu připomínek zapracoval do výsledné podoby práce.

Points proposed by supervisor: 86

Grade proposed by supervisor: B

Reviewer’s report
Ing. Anton Firc, Ph.D.

Práce představuje kvalitní diplomovou práci s výrazným výzkumným přesahem. Student prokazuje velmi dobrou orientaci v problematice detekce deepfake audio, biologických markerů i současných detekčních přístupů. Oceňuji zejména šíři provedených experimentů, vytvoření vlastního datasetu, analýzu jednotlivých skupin příznaků a snahu o interpretaci výsledků pomocí SHAP.

Nejsilnější stránkou práce je schopnost propojit poznatky z odborné literatury s vlastním experimentálním návrhem a následně analyzovat chování navrženého systému z více úhlů pohledu. Na druhou stranu práce obsahuje několik metodických nedostatků, zejména v oblasti konstrukce datasetu, experimentální metodologie, statistického vyhodnocení a interpretace některých závěrů. Tyto nedostatky podle mého názoru brání tomu, aby bylo možné práci hodnotit jako excelentní.

Přesto jde o nadprůměrnou diplomovou práci, která výrazně přesahuje běžnou implementační úroveň a přináší zajímavé výsledky i podněty pro další výzkum. Práci hodnotím stupněm B (88b).

Evaluation criteria	Verbal classification	Points
Rozsah splnění požadavků zadání	Evaluation level: zadání splněno Zadání bylo splněno. Student navrhl a implementoval systém pro detekci syntetické řeči založený na biologických markerech lidské produkce řeči, vytvořil dataset odpovídající řešenému scénáři a provedl rozsáhlé experimentální vyhodnocení včetně ablation study a analýzy důležitosti jednotlivých skupin příznaků. Oceňuji zejména snahu o ověření generalizace na neviděných datech a kombinaci navrženého detektoru s existujícími akustickými detektory.
Rozsah technické zprávy	Evaluation level: je v obvyklém rozmezí Rozsah technické zprávy je v pořádku a odpovídá běžnému rozsahu diplomové práce. Text obsahuje relevantní teoretické části, popis datasetu, návrh metody i experimentální vyhodnocení. Některé části by šlo mírně zestručnit, zejména kvůli opakování některých výsledků mezi abstraktem, rozšířeným abstraktem a závěrem, ale celkově rozsah nepovažuji za problém.
Prezentační úroveň technické zprávy	Práce je obecně dobře napsaná a dobře se čte. Úvod jasně vysvětluje motivaci práce, vhodně zasazuje řešený problém do kontextu a přehledně shrnuje hlavní přínosy. Teoretická část nejprve představuje moderní přístupy ke generování syntetické řeči a následně se věnuje aktuálním metodám detekce deepfake audia. Tato část působí jako kvalitně zpracovaný odborný přehled problematiky a poskytuje čtenáři potřebný kontext pro pochopení navrhovaného řešení. Velmi pozitivně hodnotím také kapitolu věnovanou biologickým markerům, která propojuje poznatky z více odborných zdrojů a vysvětluje jejich potenciální využití při detekci syntetické řeči. Slabší stránkou je několik míst, kde práce neposkytuje dostatečný kontext nebo detail. Chybí například systematickější představení použitých datasetů a jejich omezení vzhledem k řešenému problému. Některé obrázky nejsou dostatečně zapojeny do textu, případně na ně text vůbec neodkazuje. V experimentální části bych ocenil detailnější popis konstrukce datasetu, rozdělení dat mezi části train/dev/eval a přesnější vysvětlení některých experimentálních rozhodnutí. Popis evaluace generalizace (OOD) je místy nejasný a čtenář se obtížně orientuje v rozdílu mezi jednotlivými evaluačními scénáři. Celkově je však prezentační úroveň nadprůměrná a práce působí odborně i konzistentně.	85
Formální úprava technické zprávy	Formální úprava je na dobré úrovni. Pozitivně hodnotím správné poděkování MetaCentru a celkově kvalitní sazbu práce. Objevují se drobné typografické nekonzistence, například střídání zápisu F0 a f0 nebo chybějící odkazy na některé obrázky. Jde však převážně o dílčí nedostatky, které kvalitu práce významně nesnižují.	85
Práce s literaturou	Práci s literaturou hodnotím pozitivně. Student pracuje převážně s aktuální odbornou literaturou a prokazuje schopnost syntetizovat poznatky z více zdrojů do souvislého odborného textu. Oceňuji zejména kapitolu věnovanou biologickým markerům, která nevzniká pouze jako souhrn jednotlivých článků, ale snaží se vytvořit ucelený pohled na jejich využití v oblasti detekce syntetické řeči.	85
Realizační výstup	Realizační výstup hodnotím jako kvalitní a metodicky zajímavý. Student navrhl vlastní přístup založený na biologických markerech lidské řeči, vytvořil dataset odpovídající řešenému scénáři a provedl rozsáhlé experimentální vyhodnocení. Pozitivně hodnotím zejména ablation study, analýzu jednotlivých skupin příznaků, použití SHAP pro interpretaci modelu a kombinaci navrženého detektoru s klasickými akustickými detektory. Pro další rozvoj práce by bylo vhodné doplnit detailnější popis konstrukce datasetu: jak přesně vzniklo rozdělení train/dev/eval, jaký je poměr identit, jazyků a demografických skupin a jaký překryv existuje mezi jednotlivými částmi datasetu. Zásadní by bylo také ověřit rozdělení mluvčích, protože bez něj hrozí únik dat (data leakage) a je obtížné posoudit, zda model skutečně detekuje syntetickou řeč nebo spíše vlastnosti konkrétních mluvčích. Experimentální část by dále potřebovala férovější a transparentnější porovnání klasifikátorů. Hyperparametry RBF SVM nebyly laděny ve stejné míře jako u logistické regrese, což omezuje interpretaci jejich porovnání. Kombinace LDA a RBF SVM by měla být buď vyřazena z hlavních výsledků, nebo jasně označena jako metodicky problematická, protože LDA výrazně redukuje příznakový prostor a tím zásadně mění geometrii vstupu pro RBF kernel. Pro dopracování by bylo vhodné doplnit také statistické vyhodnocení výsledků, například intervaly spolehlivosti, testy významnosti rozdílů mezi metodami nebo analýzu citlivosti na náhodná rozdělení a seed. U OOD evaluace by práce měla jasněji rozlišit, zda problém generalizace vzniká kvůli jinému jazyku, jiné identitě mluvčího, odlišným akustickým podmínkám nebo jinému syntetizátoru. K tomu by se hodily samostatné ablační studie nebo kontrolované experimenty. Celkově je realizační část nadprůměrná, ale pro publikovatelný výsledek by bylo potřeba zvýšit transparentnost datasetu, zpřesnit experimentální protokol a lépe oddělit validní závěry od hypotéz.	85
Využitelnost výsledků	Výsledky práce mají potenciál pro další výzkum detekce syntetické řeči. Práce ukazuje, že biologické markery mohou nést užitečnou informaci a mohou být zajímavým doplňkem ke klasickým akustickým detektorům. Současně ale výsledky naznačují, že samotné biologické markery v aktuální podobě zatím nedokážou konkurovat moderním akustickým detektorům. Pro praktickou využitelnost by bylo potřeba dopracovat několik částí. Především je nutné lépe ověřit generalizaci na neviděné mluvčí, jazyky a syntetizátory, protože právě tyto faktory budou v reálném nasazení rozhodující. Dále by bylo vhodné navrhnout propracovanější fúzi s akustickými detektory — nejen prostý průměr nebo logistickou fúzi, ale například kalibrované skórování, learned weights nebo stacking. Teprve tak by šlo spolehlivě posoudit, zda biologické markery přinášejí doplňkovou informaci. Doporučil bych také formulovat závěry přímočařeji: současné výsledky jsou spíše negativní v tom smyslu, že samostatný detektor založený na biologických markerech není konkurenceschopný vůči silným akustickým detektorům. To ale není špatný výsledek; naopak jde o užitečné zjištění pro odbornou komunitu. Po doplnění transparentnější metodiky, kontrolovaných experimentů a silnější fúze s existujícími detektory má práce potenciál stát se zajímavým základem pro odbornou publikaci.
Náročnost zadání	Evaluation level: obtížnější zadání Zadání hodnotím jako obtížnější. Student musel nastudovat problematiku detekce deepfake audia, biologických markerů lidské řeči a metod jejich extrakce, navrhnout vlastní detekční přístup a experimentálně ověřit jeho vlastnosti. Práce má výrazný výzkumný charakter a vyžadovala samostatné studium aktuálních odborných publikací i návrh vlastního experimentálního protokolu.

Topics for thesis defence:

Jak přesně byl vytvořen dataset EDS-14? Jak vzniklo rozdělení train/dev/eval a jaký je překryv mluvčích, jazyků a syntetizátorů mezi jednotlivými částmi?
Do jaké míry podle Vás problémy generalizace souvisejí s jiným jazykem, jiným mluvčím, jinými akustickými podmínkami nebo jiným syntetizátorem? Jak byste tyto faktory experimentálně oddělil?
V práci uvádíte, že fúze s akustickými detektory nepřináší výrazné zlepšení. Uvažoval jste pokročilejší způsoby fúze?
Proč nebylo použito speaker-disjoint rozdělení datasetu, přestože práce sama upozorňuje na riziko úniku dat (data leakage)?

Points proposed by reviewer: 88

Grade proposed by reviewer: B

Responsibility: Mgr. et Mgr. Hana Odstrčilová

VUT

Faculties and university institutes

Parts

Deepfake speech detection based on biological factors