Master's Thesis

Recursive Stream-Based Extraction of Multimedia Data from Disk Images

Final Thesis 1.8 MB

Author of thesis: Ing. Michal Novák

Acad. year: 2025/2026

Supervisor: Ing. Jan Pluskal, Ph.D.

Reviewer: doc. Dr. Ing. Dušan Kolář

Abstract:

This master's thesis focuses on the digital forensic analysis of disk images with an emphasis on the identification and efficient extraction of multimedia content. Multimedia data are often embedded within complex file system and container structures with multiple levels of nesting, which significantly complicates their efficient processing. The thesis provides an overview of disk image formats, multimedia and container formats, as well as principles of file type detection based on binary structure analysis. It also presents the design of a synthetic dataset intended for testing various data nesting scenarios and proposes a modular architecture of a tool for recursive and stream-based processing of disk image contents without the need for mounting or full extraction. The proposed tool is implemented and experimentally evaluated with respect to extraction correctness and performance. The results indicate that the approach enables efficient extraction of multimedia content even from complex nested data structures.

Keywords:

digital forensic analysis, disk image, multimedia data, file type detection, container formats, recursive processing

Date of defence

22.06.2026

Result of the defence

Defended (thesis was successfully defended)

znamkaAznamka

Grading

A

Process of defence

Student nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm A.

Topics for thesis defence

  1. Byla aplikace testována uživateli?

Language of thesis

Czech

Faculty

Department

Study programme

Information Technology and Artificial Intelligence (MITAI)

Specialization

Cybersecurity (NSEC)

Composition of Committee

doc. Mgr. Kamil Malinka, Ph.D. (předseda)
doc. Ing. Ondřej Ryšavý, Ph.D. (místopředseda)
Ing. Zbyněk Křivka, Ph.D. (člen)
doc. Ing. Ivan Homoliak, Ph.D. (člen)
Ing. Libor Polčák, Ph.D. (člen)
Ing. Radek Hranický, Ph.D. (člen)

Supervisor’s report
Ing. Jan Pluskal, Ph.D.

Student se zhostil zadání způsobem, který výrazně přesahuje běžné nároky kladené na diplomovou práci. Navržená pipeline architektura kombinuje streamové a rekurzivní zpracování diskových obrazů takovým způsobem, že eliminuje hlavní slabinu předchozích řešení, tedy nutnost materializace mezivýsledků na úložiště. Toto omezení bylo u dosavadních nástrojů projektu FACIS zásadní a v praxi znemožňovalo zpracování rozsáhlejších diskových obrazů. Výsledky experimentálního porovnání ukázaly, že implementovaný nástroj DiStReX nejen dokončí zpracování diskového obrazu, u kterého referenční řešení FacisSim vyčerpá dostupnou diskovou kapacitu (přibližně 430 GB mezivýsledků pro obraz o velikosti 9,9 GB), ale současně dosahuje kratší doby běhu a vyšší úplnosti extrakce na většině testovaných obrazů. Velmi kladně hodnotím i kroky studenta nad rámec zadání: opravu chyby v knihovně Maxtor.TskLib, rozšíření o podporu formátu AFF4, integraci výpočtu PhotoDNA hashů, mechanismus kontrolních bodů pro obnovení přerušeného zpracování a publikování tří samostatných open-source knihoven. Z mého pohledu se jedná o výjimečný výsledek, který předčil výstupy předchozích iterací v rámci projektu FACIS a poskytuje robustní základ pro další výzkumné aktivity.


Práci hodnotím stupněm A jako vynikající.

Evaluation criteria Verbal classification
Informace k zadání

Téma diplomové práce přímo navazuje na aktivity výzkumné skupiny NES@FIT v rámci projektu FACIS (Sada forenzních analytických nástrojů ke zpracování obrazu a videa pro službu kriminální policie a vyšetřování) financovaného MV ČR. Předchozí iterace nástroje vznikaly v několika podobách (Bash skript Extractor, jeho přepis do jazyka Rust, samostatný nástroj Maxtor postavený nad knihovnou The Sleuth Kit), žádné z těchto řešení však neumožňovalo plně streamové a rekurzivní zpracování diskových obrazů bez extrémních nároků na dočasné úložiště. Cílem zadání bylo navrhnout a implementovat nástroj, který tento problém systémově řeší a současně dokáže obstát v reálných forenzních scénářích nad rozsáhlými diskovými obrazy. Vzhledem k nutnosti propojit nízkoúrovňovou práci s diskovými obrazy a souborovými systémy, rekurzivní průchod kontejnerovými strukturami, jednotnou detekci typu souboru a robustní extrakci multimediálního obsahu považuji zadání za značně obtížné.

Aktivita při dokončování

Práce byla dokončena se značným předstihem a finální obsah technické zprávy i programového výstupu byl řádně konzultován. Připomínky byly zapracovány bez prodlení a v plném rozsahu.

Publikační činnost, ocenění

Zdrojové kódy implementace nástroje DiStReX i přidružených knihoven (MagikaSharp, SharpCab, SnapFrame) jsou veřejně dostupné. Knihovny MagikaSharp a SharpCab jsou navíc publikované jako balíčky na platformě NuGet.org pod licencí MIT, čímž student umožnil jejich okamžité využití širší komunitě vývojářů na platformě .NET. Výsledky práce budou přímo nasazeny v navazujících aktivitách výzkumné skupiny NES@FIT a integrovány do platformy FACIS.

Práce byla publikována na konferenci EXCEL@FIT, kde byla oceněna cenou odborné veřejnosti - Cenou Jiřího Kunovského - a cenou partnera z průmyslu OpenSSL.

Práce s literaturou

Student si samostatně vyhledal 35 referenčních zdrojů, které pokrývají forenzní formáty obrazů disků (RAW, EnCase, AFF, AFF4, VHD), souborové systémy, kontejnerové a kancelářské formáty (OOXML, ODF, ZIP), techniky data carving i moderní metody detekce typu souboru včetně přístupů založených na strojovém učení. Poměr mezi recenzovanými publikacemi, technickou dokumentací a oficiálními specifikacemi je vzhledem k povaze tématu adekvátní. Citační etika je dodržena.

Aktivita během řešení, konzultace, komunikace

Aktivita studenta byla mimořádná po celou dobu řešení práce. Konzultace probíhaly velmi pravidelně, zpravidla v týdenním až dvoutýdenním intervalu, a vždy byly iniciovány na popud studenta. Na každou konzultaci přicházel velmi dobře připraven, měl nastudovanou problematiku, prezentoval konkrétní stav implementace i identifikované překážky a diskuze byly konstruktivní a efektivní. Student samostatně rozhodoval o architektonických volbách a o směrování práce, přičemž konzultace využíval především k validaci svých návrhů a k diskusi nad netriviálními technickými problémy. Z mého pohledu jde o jednoho z nejaktivnějších studentů, které jsem v posledních letech vedl.

Points proposed by supervisor: 100

Grade proposed by supervisor: A

Reviewer’s report
doc. Dr. Ing. Dušan Kolář

Za mě perfektní inženýrská práce. Navrhuji A/95 a doporučuji k obhajobě.

Evaluation criteria Verbal classification Points
Rozsah splnění požadavků zadání

Evaluation level: zadání splněno

Rozsah technické zprávy

Evaluation level: je v obvyklém rozmezí

Prezentační úroveň technické zprávy

Úvody do kapitol mi přijdou zbytečné. Jinak je práce napsaná dobře.

90
Formální úprava technické zprávy

Po formální stránce je tam sice pár drobností, ale ty nijak nekazí celkový dobrý dojem.

95
Práce s literaturou

Na obzvláště vysoké úrovni!

95
Realizační výstup

Bylo mi předvedeno, prodiskutováno. Student, ač si klad vysoké nároky, tak správně udělal srovnání a závěry, proč dosahuje výsledky, jaké má. Identifikoval úzké místo a naplánoval možnosti dalšího rozvoje. Sám implementoval věci, které očekával v knihovnách. Výkon aplikace je opravdu pěkný. Jsem velmi spokojen.

100
Využitelnost výsledků

Výsledek přímo rozvíjí stávající výzkum UIFS.

Náročnost zadání

Evaluation level: průměrně obtížné zadání

Points proposed by reviewer: 95

Grade proposed by reviewer: A

Responsibility: Mgr. et Mgr. Hana Odstrčilová