Bachelor's Thesis

Real-time Deepfake Detection in Online Video Conferencing

Final Thesis 12.99 MB

Author of thesis: Tibor Malega

Acad. year: 2025/2026

Supervisor: Ing. Milan Šalko

Reviewer: Ing. Anton Firc, Ph.D.

Abstract:

This bachelor's thesis focuses on detecting deepfake video content in real time during online video conferencing. It provides fundamental theoretical knowledge about deepfakes by explaining what they are, how they are generated, and which manipulation scenarios are most relevant to live video calls. The thesis then discusses the security risks associated with deepfake misuse and defines a threat model for attacks in conferencing environments. Next, it surveys deepfake detection approaches and summarizes commonly used datasets, model backbones, and implementation tools. Based on the identified challenges of live-streamed video, the work defines key requirements for real-time deepfake processing. These requirements are used to design and implement a detection system deployed as a browser extension running on consumer hardware, combining a convolutional backbone with temporal sequence modeling to analyze participant video streams during live calls. The system is trained on conference-style deepfake datasets and evaluated on the Video Conference Deepfakes benchmark, achieving an AUC of 0.9935 and an overall accuracy of 98.3%, demonstrating that reliable real-time deepfake detection is achievable without dedicated hardware or platform modifications.

Keywords:

deepfake, video, detection, real-time, zoom, teams, videoconference, manipulation, fake, detector, model, system, training, methods, conferencing, extension, browser

Date of defence

18.06.2026

Result of the defence

Defended (thesis was successfully defended)

znamkaBznamka

Grading

B

Process of defence

Student nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta a na další otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm B.

Topics for thesis defence

  1. Jaké nástroje jsou dostupné pro tvorbu real-time obličejových deepfake videí a jak je technicky možné tento proces realizovat v reálném čase?
  2. Bylo by možné využít VLMs, tedy visual language models, pro úlohu detekce deepfake videa? Co by to případně vyžadovalo?
  3. Jaké jsou minimální hardwarové požadavky pro spuštění implementovaného detektoru na straně klienta?
  4. Jakou výpočetní zátež (computational overhead) představuje sledování více účastníků videohovoru? Jak systém škáluje a kde je jeho praktický limit?
  5. Na kolika obličejích jste váš systém testoval?

Language of thesis

English

Faculty

Department

Study programme

Information Technology (BIT)

Composition of Committee

doc. Ing. Petr Matoušek, Ph.D., M.A. (předseda)
doc. Ing. Michal Bidlo, Ph.D. (místopředseda)
Ing. Radek Kočí, Ph.D. (člen)
Ing. Jan Pluskal, Ph.D. (člen)
Ing. František Grézl, Ph.D. (člen)

Supervisor’s report
Ing. Milan Šalko

Student splnil zadání bez výhrad, vytvořil funkční a nasaditelné řešení a během řešení prokázal samostatnost, aktivitu i schopnost navrhovat vhodná technická řešení. Celkově práci hodnotím stupněm A.

Evaluation criteria Verbal classification
Informace k zadání

Zadání práce hodnotím jako náročnější, neboť vyžadovalo kombinaci znalostí z oblasti zpracování obrazu, strojového učení, detekce synteticky generovaného obsahu a návrhu systému schopného pracovat v reálném čase. Student splnil všechny body zadání bez výhrad. Výsledné řešení je funkční, prakticky nasaditelné a svými vlastnostmi je porovnatelné se současnými špičkovými přístupy v dané oblasti. Samotná aplikace je použitelná pro detekci deepfake obsahu v prostředí online hovorů.

Práce s literaturou

Student pracoval s relevantními zdroji a studijní materiály si aktivně dohledával samostatně. Získané poznatky vhodně využil při návrhu i implementaci výsledného řešení.

Aktivita během řešení, konzultace, komunikace

Student byl během řešení aktivní a dosažené výsledky průběžně konzultoval. Na konzultace chodil připravený a k řešení problémů přistupoval samostatně i iniciativně. Oceňuji zejména to, že aktivně přicházel s návrhy řešení problémů, se kterými se během práce setkal.

Aktivita při dokončování

Práce byla dokončena v dostatečném předstihu a její finální podoba byla předem konzultována. K dokončování práce nemám žádné výhrady.

Publikační činnost, ocenění

Výstup práce je kvalitní a prakticky využitelný jako řešení problematiky detekce deepfake obsahu v online hovorech. Z tohoto důvodu navrhuji práci ocenit cenou děkana.

Points proposed by supervisor: 100

Grade proposed by supervisor: A

Reviewer’s report
Ing. Anton Firc, Ph.D.

Práce je celkově solidní a nadprůměrná. Textová část je místy vágnější a zasloužila by lepší strukturování, přesnější formulace, důslednější citování v úvodu a pečlivější formální úpravu. Teoretická východiska jsou místy stručnější a mohla by být lépe propojena s konkrétním modelem útočníka a reálnými incidenty ve videokonferencích.


Na druhou stranu je návrh řešení kvalitní, realizační výstup je funkční a práce dodržuje řadu zavedených postupů při práci s AI/ML systémy. Student prokazuje schopnost samostatného studia aktuální problematiky, práce s existujícími frameworky a návrhu použitelného systému. S ohledem na kvalitu výstupu a menší nedostatky textové části hodnotím práci stupněm B (87 b).

Evaluation criteria Verbal classification Points
Náročnost zadání

Evaluation level: průměrně obtížné zadání

Zadání považuji za průměrně náročné. Student musel nastudovat existující metody a technologie v oblasti detekce deepfake videí a s využitím existujících frameworků navrhnout a implementovat funkční nástroj pro detekci deepfake videí v reálném čase.

Prezentační úroveň technické zprávy

Práce je celkově čitelná a logicky strukturovaná, ale textová část má několik slabších míst. Abstrakt obsahuje zbytečně moc „obsahových informací“ a místy spíše popisuje, co všechno práce obsahuje, místo aby stručně prezentoval problém, motivaci, přístup k řešení a dosažené výsledky. Například informace o tom, že práce rozebírá background k deepfake detekci, do abstraktu nepatří.

Podobný problém má i rozšířený abstrakt a úvod práce. Z rozšířeného abstraktu je zajímavá přibližně třetina textu, zbytek je převážně generický popis obsahu jednotlivých kapitol. Čtenář ale očekává spíše shrnutí toho, co je důležité a jaké jsou hlavní přínosy práce.

V textu se objevují nejasné formulace jako například „conference-style datasets“ nebo „spracovanie v rámci samotnej konferenčnej karty“, kde není jasné, co přesně autor myslí. V úvodu navíc prakticky chybí citace a není zřejmé, které informace jsou převzaté a které představují vlastní formulace autora.

Myslím si také, že kapitola 3 mohla být součástí kapitoly 2. Samostatná dvoustránková kapitola působí zvláštně, obzvlášť když tematicky přímo navazuje na předchozí část.

Sekce 2.1 „What is a deepfake“ míchá dohromady definici deepfake, možnosti použití/zneužití i přehled nástrojů. Spíše bych zde očekával jasnější oddělení jednotlivých témat a například ilustrativní obrázek ukazující, jak deepfake výstup vypadá.

U sekce 2.2 je škoda, že představené architektury obsahují převážně jen obecná schémata bez formálnějšího popisu nebo matematického zápisu. Stejně tak by bylo zajímavější ukázat schémata toho, jak jsou architektury upravovány nebo trénovány pro generování deepfake obsahu, nejen jejich generickou podobu.

Podobný problém se objevuje i v sekci 4.4, kde u metod detekce deepfakes chybí detailnější vizualizace architektur nebo formálnější vysvětlení principu fungování jednotlivých modelů.

Velmi pozitivně naopak hodnotím kapitolu 5. Student se zde zamýšlí nad návrhem systému, nad požadavky na funkcionalitu a jednotlivá rozhodnutí většinou rozumně zdůvodňuje. Škoda jen, že tato část není více propojena s konkrétními scénáři útoků a reálnými incidenty z prostředí videokonferencí. V kapitole 3 bych například očekával rozbor konkrétních incidentů využití deepfake technologií při videokonferencích a z nich odvozený přesnější model útočníka. Současný model útočníka je spíše obecný a široký, místo aby byl úzce zaměřený na konkrétní scénář, který práce řeší.

82
Formální úprava technické zprávy

Pozitivně hodnotím zpracování práce v anglickém jazyce. Formální stránka práce je ale spíše průměrná a obsahuje řadu drobných nekonzistencí.

V textu se objevuje místy příliš neformální styl, například formulace typu „chapter will walk you through“ nebo střídání různých stylů formulací jako „chapter begins“, „will help us understand“ apod.

Práce dále obsahuje typografické nedostatky jako nekonzistentní používání malých a velkých písmen u referencí typu figure/section/table, přičemž správně by mělo být vždy Figure, Section, Table. Objevují se reference nebo odkazy osamocené na novém řádku, nekonzistentní popisky obrázků, někde chybějící tečky na konci popisků a drobné chyby v obrázcích (například chybějící závorky ve Figure 6.1).

Na straně 8 je navíc vidět pravděpodobně špatně použitý float positioning u obrázku 2.2, kvůli kterému vzniká velké prázdné místo ve spodní části stránky.

75
Realizační výstup

Realizační výstup hodnotím pozitivně. Návrh systému je rozumný a většina návrhových rozhodnutí je podložena zdůvodněním. Student při trénování používá vhodné augmentace odpovídající očekávanému prostředí nasazení a správně využívá fine-tuning feature extractoru, což odpovídá běžné praxi při práci s předtrénovanými modely.

Popis trénování je ale poměrně stručný a z textu práce je reprodukovatelnost experimentů poměrně obtížná. Obvykle se uvádí konkrétní hyperparametry jako learning rate, optimizer, parametry label smoothingu, počet epoch, batch size nebo použité random seedy. Na druhou stranu všechny potřebné kódy a reproduction guide jsou dostupné v odevzdaných materiálech.

U bakalářských prací je také vhodné vysvětlit použité metriky už v návrhu experimentu. Precision, recall nebo F1-score jsou v práci použity, ale jejich teoretické pozadí není nikde vysvětleno.

Nerozumím úplně významu Figure 7.1 a 7.2. Klesající training loss je očekávané chování a podobné grafy často nepůsobí příliš profesionálně. Zároveň reportování pouze AUC hodnot není příliš vypovídající. Mnohem více bych ocenil ROC nebo DET křivky, které by ukázaly chování systému při různých nastaveních a provozních podmínkách.

Pokud správně interpretuji výsledky, latence systému dosahuje téměř 3.5 sekundy na poměrně výkonném CPU. To znovu otevírá otázku praktické použitelnosti a minimálních hardwarových požadavků klientského zařízení. Nabízí se otázka, zda je systém realisticky použitelný pro běžného uživatele, nebo pouze pro uživatele s výkonnějším hardwarem.

Stejně zajímavá je otázka škálování systému při sledování více účastníků videokonference.

88
Využitelnost výsledků

Výsledky práce mají vysoký potenciál využití. Jde o prakticky zaměřený nástroj, který může sloužit jako doplněk k placeným a netransparentním nástrojům pro detekci deepfake obsahu. Z textové části není zřejmé, zda bude aplikace veřejně dostupná. Doporučuji zvážit zveřejnění systému jako open-source, protože jde o zajímavý výstup pro komunitu i širší společnost.

Rozsah splnění požadavků zadání

Evaluation level: zadání splněno

Zadání bylo splněno bez zásadních výhrad. Všechny body zadání byly naplněny v dostatečné kvalitě. Student navrhl a implementoval systém pro detekci deepfake videí v prostředí videokonferencí a zvolené návrhové kroky jsou většinou podloženy vhodným zdůvodněním. Testování mohlo být dotaženo do většího detailu, zejména z pohledu prezentace výsledků a analýzy chování systému při různých nastaveních; současný stav přesahuje běžnou očekávanou úroveň bakalářské práce.

Rozsah technické zprávy

Evaluation level: je v obvyklém rozmezí

Technická zpráva má 46 vysázených stran bez referencí a příloh, což odpovídá běžnému rozsahu bakalářské práce. Práce obsahuje relevantní části a nevybočuje z požadovaného rozsahu.

Práce s literaturou

Reference jsou tvořeny převážně relevantní odbornou literaturou z oblasti detekce deepfake a souvisejících metod. Počet zdrojů je dostatečný. S výjimkou úvodní kapitoly práce většinou jasně ukazuje, které myšlenky jsou převzaté a které představují vlastní přínos studenta.

Výhradu mám k úvodu, kde není zřejmé, které části vycházejí z práce studenta a které jsou převzaté z literatury; v této části citace prakticky chybí. Dále je škoda, že práce nediskutuje některé novější datasety, například KoDF, DF40 nebo DeepfakeEval-2024.

78
Topics for thesis defence:
  1. Jaké nástroje jsou dostupné pro tvorbu real-time obličejových deepfake videí a jak je technicky možné tento proces realizovat v reálném čase?
  2. Bylo by možné využít VLMs, tedy visual language models, pro úlohu detekce deepfake videa? Co by to případně vyžadovalo?
  3. Jakou výpočetní zátež (computational overhead) představuje sledování více účastníků videohovoru? Jak systém škáluje a kde je jeho praktický limit?
  4. Jaké jsou minimální hardwarové požadavky pro spuštění implementovaného detektoru na straně klienta?
Points proposed by reviewer: 87

Grade proposed by reviewer: B

Responsibility: Mgr. et Mgr. Hana Odstrčilová