Přístupnostní navigace
E-application
Search Search Close
Bachelor's Thesis
Author of thesis: Roman Nečas
Acad. year: 2025/2026
Supervisor: Ing. Milan Šalko
Reviewer: Ing. Anton Firc, Ph.D.
This thesis designs, implements and evaluates a detector for fully synthetic videos produced by modern diffusion-based generators such as Sora, Kling and Gen3. The system combines a frozen XCLIP-ViT-B/16 encoder with a compact two-layer MLP classifier of 198,913 trainable parameters. Each video is summarised by a 775-dimensional descriptor that concatenates a mean-pooled spatial embedding with seven temporal statistics: the mean and standard deviation of second-order features, the mean and standard deviation of a spatiotemporal gradient ratio, and three scale-invariant motion-structure descriptors. Evaluation is carried out on three benchmarks. On AIGVDBench the detector reaches 0.9307 AUC on nine unseen generators; on MSR-VTT it reaches at least 99.79% average precision on every evaluated generator; on the harder cross-source GenVidBench protocol it reaches 0.8733 AUC. In the fair single-generator AIGVDBench protocol it places fourth out of 23 detectors with 85.2% average AUC. The experiments also isolate a factor that prior work has not systematically controlled: the discriminability of temporal features depends primarily on the real-video source, more than on the detector or the particular generators under test.
AI-generated video detection, synthetic video forensics, diffusion models, transformer architectures, frozen encoder, second-order temporal features, cross-generator generalisation
Date of defence
19.06.2026
Result of the defence
Defended (thesis was successfully defended)
Grading
A
Process of defence
Student nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta a na další otázky přítomných, např. ohledně srovnání s konkurenčními nástroji a jaké má oproti nim realizační výstup této bakalářské práce výhody. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm A - výborně.
Topics for thesis defence
Language of thesis
English
Faculty
Fakulta informačních technologií
Department
Department of Intelligent Systems
Study programme
Information Technology (BIT)
Composition of Committee
doc. Dr. Ing. Otto Fučík (předseda) doc. Mgr. Kamil Malinka, Ph.D. (místopředseda) Ing. Marta Jaroš, Ph.D. (člen) Ing. Vladimír Veselý, Ph.D. (člen) Ing. David Bařina, Ph.D. (člen)
Supervisor’s reportIng. Milan Šalko
Práci hodnotím jako velmi kvalitní. Student splnil zadání bez výhrad, pracoval aktivně a samostatně a dosažené výsledky mají velmi dobrou úroveň i ve srovnání s existujícími přístupy. Oceňuji také průběžnou komunikaci, včasné dokončení práce a pečlivé zapracování připomínek.
Cílem zadání bylo vytvořit nástroj schopný detekovat videa generovaná umělou inteligencí. Jednalo se o výzkumněji orientované a náročnější téma, které vyžadovalo nastudování aktuálních metod generování videí, návrh vhodné detekční architektury, implementaci systému a jeho experimentální ověření. Zadání bylo splněno bez výhrad. Student dosáhl velmi kvalitních výsledků, které jsou porovnatelné s výsledky uváděnými v relevantních studiích. Je patrné, že porovnání s existujícími přístupy byla věnována náležitá pozornost. S dosaženými výsledky jsem velmi spokojen.
Student si zdroje potřebné k řešení práce vyhledával samostatně a využíval relevantní literaturu. Použité prameny odpovídají zaměření práce a byly vhodně využity zejména při návrhu řešení a porovnání dosažených výsledků s existujícími studiemi.
Student aktivně konzultoval průběh řešení práce, na konzultace chodil připravený a dodržoval dohodnuté termíny. Případné připomínky průběžně zapracovával. Celkově hodnotím komunikaci se studentem jako bezproblémovou a jeho přístup k řešení jako velmi dobrý.
Práce byla dokončena v dostatečném předstihu. Finální návrh i dosažené výsledky byly před odevzdáním konzultovány a připomínky byly zapracovány. Student tak poskytl dostatečný prostor pro kontrolu závěrečné podoby práce.
Publikační činnost ani ocenění mi nejsou známy. Dosažené výsledky však mají potenciál být dále zpracovány do odborného článku.
Grade proposed by supervisor: A
Reviewer’s reportIng. Anton Firc, Ph.D.
Práce je velmi kvalitní a svým zpracováním výrazně převyšuje běžnou úroveň bakalářských prací. Student prokazuje hluboké pochopení problematiky, schopnost samostatně analyzovat existující generativní modely, formulovat vlastní hypotézy a přenést je do návrhu funkční detekční metody.
Za nejsilnější část práce považuji právě návrh výsledného detektoru. Student velmi efektivně využívá znalosti o vlastnostech generovaného videa a navrhuje řešení, které je výpočetně úsporné, architektonicky jednoduché a přitom dosahuje výsledků konkurujících výrazně větším a složitějším detektorům. Takový důraz na efektivitu řešení je z pohledu praktického nasazení velmi cenný a v bakalářských pracích není příliš obvyklý.
Silnou stránkou práce jsou také odborný styl psaní, výborně zpracovaný teoretický základ, metodicky robustní experimentální část a velmi dobrá prezentace výsledků. Celkově jde o velmi povedenou práci a hodnotím ji stupněm A (98b).
Práci zároveň navrhuji na jedno z možných ocenění.
Evaluation level: průměrně obtížné zadání
Zadání hodnotím jako průměrně náročné. Student se měl seznámit s existujícími metodami generování videa, analyzovat jejich vlastnosti, navrhnout metodu pro jejich detekci a implementovat ji za použití existujících technologií.
Práce je velmi příjemně napsaná, v odborném stylu, dobře se v ní orientuje a jednotlivé části jsou prezentovány ve správném pořadí. Text vhodně postupuje od obecnější úrovně abstrakce k potřebné technické hloubce.
Úvod dobře ukazuje motivaci řešit daný problém, ale chybí mi v něm citace a očekával bych také stručný popis toho, jak je problém v práci řešen, a krátké uvedení hlavních výsledků.
Velmi se mi líbí teoretický úvod do generování videa, následné představení konkrétních modelů a mapování toho, co tyto modely dělají, na dříve popsané principy. Práce se vyjadřuje k důležitým oblastem relevantním pro řešené téma a místy jde i nad rámec zadání.
Teoretický základ pro implementaci je velmi hluboký. Získané znalosti jsou vhodně přeneseny do návrhu modelu, který je detailně popsán a správně navazuje na předchozí předpoklady.
Výsledková část je poměrně hutná, ale stále srozumitelná a dobře proložená vizualizacemi. Oceňuji t-SNE vizualizaci embeddingového prostoru, ablation study i celkově velmi robustní metodický přístup k testování. Analýzy použité pro vyhodnocení metody jsou spíše na úrovni odborné publikace než běžné bakalářské práce.
Prezentace výsledků a porovnání s ostatními metodami jsou jasné, přehledné a srozumitelné.
Formální úprava práce je dobrá. Typografie i jazyková stránka jsou na dobré úrovni a nemám zde zásadní připomínky.
Realizační výstup hodnotím velmi pozitivně. Student navrhl vlastní metodu detekce generovaného videa, která není pouze aplikací existujících postupů, ale vychází z důkladné analýzy principů fungování současných generativních modelů. Oceňuji zejména to, že návrh detektoru je přímo odvozen od pozorovaných vlastností generovaného obsahu a nespoléhá pouze na empirické hledání vhodné architektury.
Teoretické poznatky získané v analytické části jsou velmi dobře přeneseny do návrhu výsledného řešení. Architektura je logicky vystavěná, jednotlivé komponenty mají jasné opodstatnění a práce poskytuje dostatek detailů pro pochopení toho, proč byl systém navržen právě tímto způsobem.
Velmi pozitivně hodnotím také rozsah a kvalitu experimentální evaluace. Student neprezentuje pouze finální výsledky, ale systematicky ověřuje jednotlivé návrhové předpoklady prostřednictvím ablation study, vizualizací embeddingového prostoru a řady doplňkových experimentů. Takto důkladné vyhodnocení je spíše charakteristické pro odborné publikace než pro běžné bakalářské práce.
Za mimořádně silnou stránku práce považuji poměr mezi dosaženou přesností a výpočetní náročností navržené metody. Navržený detektor je výrazně menší a výpočetně úspornější než řada současných přístupů, přesto dosahuje srovnatelných, případně velmi blízkých výsledků. Z praktického pohledu jde o velmi zajímavou vlastnost, protože právě výpočetní náročnost představuje jednu z hlavních překážek nasazení podobných systémů v reálném prostředí.
Celkově považuji realizační výstup za výrazně nadprůměrný. Nejen z pohledu implementace, ale především z pohledu kvality návrhu, schopnosti využít znalosti o generativních modelech při konstrukci detektoru a metodicky správného experimentálního ověření navrženého řešení. Výstup podle mého názoru výrazně převyšuje běžná očekávání kladená na bakalářské práce.
Výsledky práce mají vysokou využitelnost jak pro výzkumnou komunitu, tak potenciálně i pro průmyslové nasazení. Navržená metoda je lightweight, výpočetně úsporná a zároveň dosahuje kompetitivních výsledků, což je pro praktickou detekci generovaného videa velmi důležité.
Za zvláště hodnotný považuji nejen samotný detektor, ale také rozsah a kvalitu provedené analýzy. Práce poskytuje detailní pohled na vlastnosti navrženého řešení, jeho chování v různých podmínkách a vztah mezi použitými reprezentacemi a dosaženými výsledky. Tyto poznatky mají samostatnou hodnotu pro další výzkum v oblasti detekce generovaného obsahu. S ohledem na kvalitu experimentální části, metodologickou rigoróznost a dosažené výsledky bych doporučil zvážit publikaci výsledků práce formou odborného článku.
Evaluation level: zadání splněno a práce obsahuje podstatná rozšíření
Zadání bylo splněno s výraznými rozšířeními. Student se seznámil s relevantními metodami generování videa, na základě jejich analýzy formuloval předpoklady pro detekci a navrhl vlastní metodu. Oceňuji, že návrh detekce nevzniká ad-hoc, ale vychází z analýzy dostupných generativních modelů a snaží se cílit na jejich sdílené vlastnosti, což podporuje generalizaci metody.
Za výrazné rozšíření oproti zadání považuji zejména hloubku experimentálního vyhodnocení. Zadání vyžadovalo testování navržené metody. Student však nad rámec tohoto požadavku provedl ablation study, detailní analýzu chování systému, vizualizace embeddingového prostoru a srovnání s existujícími metodami. Tato část je zpracována metodicky velmi robustně a svou kvalitou odpovídá spíše odborné publikaci než běžné bakalářské práci.
Evaluation level: je v obvyklém rozmezí
Technická zpráva má přibližně 47 vysázených stran bez referencí, což odpovídá požadovanému rozsahu bakalářské práce.
Práce s literaturou je dobrá. Použité zdroje jsou převážně odborné publikace a vhodně pokrývají řešenou oblast. Výhradu mám pouze k úvodu, kde nejsou uvedeny citace, přestože by se zde hodily pro lepší ukotvení motivace a kontextu práce.
Grade proposed by reviewer: A
Responsibility: Mgr. et Mgr. Hana Odstrčilová