Bachelor's Thesis

Automatic annotation of multi-camera videos for filmmaking

Final Thesis 6.8 MB

Author of thesis: Veronika Novikova

Acad. year: 2025/2026

Supervisor: Ing. Šimon Strýček

Reviewer: Ing. Pavol Dubovec

Abstract:

This bachelor's thesis deals with the automatic annotation of video recordings from multiple cameras for filmmaking. The proposed solution uses the TalkNet model to detect the presence of a person and speech activity in video, while the obtained outputs are converted into temporal segments. The work also includes the implementation of an application for clearly displaying these annotations across multiple video recordings simultaneously. The developed system enables the analysis of selected parts of video recordings and displays the results on a shared timeline. The contribution of the thesis lies in connecting automatic video analysis with a user-understandable visualization of the results.

Keywords:

automatic video annotation, multi-camera video recordings, video analysis, neural networks, active speaker detection, TalkNet, speech activity, temporal segments, annotation visualization

Date of defence

15.06.2026

Result of the defence

Defended (thesis was successfully defended)

znamkaEznamka

Grading

E

Process of defence

Studentka nejprve prezentovala výsledky, kterých dosáhla v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Studentka následně odpověděla na otázky oponenta a na další otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studentky na položené otázky rozhodla práci hodnotit stupněm E.

Topics for thesis defence

  1. Aké sú presné hardvérové nároky (CPU/GPU/RAM) pri spracovaní napr. štyroch 4K videí súčasne? Navrhnite konkrétne kroky pre optimalizáciu pamäte pri dlhých záznamoch.
  2. Vaša aplikácia rozlišuje tri základné stavy (Hovorí, Nehovorí, Chýba osoba). Ako váš systém ošetruje situácie, kedy model TalkNet krátkodobo (napr. na 0.2s) stratí detekciu kvôli prudkému pohybu hlavy? Obsahuje váš algoritmus nejakú formu časového vyhladzovania (smoothing), aby výsledná anotácia nebola rozkúskovaná, alebo preberáte dáta z modelu bez ďalšieho spracovania?
  3. Ako by systém reagoval na akusticky náročné scény (prekryv hlasov, hluk v pozadí) a aké sú limity použitého modelu v takýchto podmienkach?
  4. Jakým způsobem jste zpracovávala při analýze videí zvuk?
  5. Můžete se vyjádřit k prezentovanému schématu architektury?
  6. Co je přesně výstupem použitého modelu?

Language of thesis

Czech

Faculty

Department

Study programme

Information Technology (BIT)

Composition of Committee

doc. Ing. František Zbořil, Ph.D. (předseda)
doc. Mgr. Kamil Malinka, Ph.D. (místopředseda)
Ing. Jiří Matoušek, Ph.D. (člen)
Ing. Vladimír Veselý, Ph.D. (člen)
doc. Ing. Vítězslav Beran, Ph.D. (člen)

Supervisor’s report
Ing. Šimon Strýček

Studentka navrhla a implementovala funkční aplikaci pro přehledné zobrazení výsledků analýzy kontextu scény s více kamerami, které využívá dostupných nástrojů na bázi neuronových sítí. Dále provedla průzkum již existujících řešení a vytvořila vlastní datovou sadu pro otestování své práce.

Rozsah řešení má dle mého názoru drobné rezervy a jeho zasazení do kontextu filmové tvorby by mohlo být promyšlenější. Přesto práce splňuje všechny body zadání.

Evaluation criteria Verbal classification
Informace k zadání

Jedná se o jednodušší zadání zaměřené na návrh a implementaci aplikace pro vizualizaci výstupů existujících analyzačních nástrojů na bázi neuronových sítí.

Studentka musela mimo jiné provést průzkum veřejně dostupných nástrojů vhodných pro zpřehlednění práce s vícekamerovými daty pro účely filmové produkce.

Výsledným řešením je funkční aplikace, která splňuje zadání v požadovaném rozsahu.

Práce s literaturou

Studentka si řádně prostudovala potřebnou literaturu v oblasti zpracování videoobsahu a použití neuronových sítí v tomto kontextu. Zdroje si studentka vyhledávala samostatně.

Na druhou stranu mám drobné výhrady k míře prostudování tématu filmové produkce a seznámení se s praktickými aspekty využití podpůrného softwaru ve filmové režii.

Aktivita během řešení, konzultace, komunikace

Studentka na práci průběžně pracovala a pravidelně konzultovala v průběhu obou semestrů.

Aktivita při dokončování

Většina implementace byla provedena s dostatečným předstihem a byla průběžně konzultována. Technická zpráva byla řešena sice s menší časovou rezervou, ale její dokončení se podařilo v domluveném časovém rozsahu.

Publikační činnost, ocenění

Práce nebyla publikována.

Points proposed by supervisor: 80

Grade proposed by supervisor: B

Reviewer’s report
Ing. Pavol Dubovec

Študentka úspešne integrovala pokročilý model hlbokého učenia do funkčnej webovej aplikácie. Práca však dopláca na nízku mieru technickej invencie pri spracovaní výstupných dát modelu a chýbajúcu kvantitatívnu verifikáciu výsledkov. Napriek uvedeným nedostatkom v experimentálnej časti a formálnym chybám v správe, dielo spĺňa požiadavky na bakalársku prácu s hodnotením dobrý. 

Evaluation criteria Verbal classification Points
Náročnost zadání

Evaluation level: průměrně obtížné zadání

Zadanie vyžaduje integráciu modelu TalkNet pre „active speaker detection“ do uceleného systému s funkčným backendom a frontendom. Náročnosť spočíva v spracovaní multikamerových dát a ich transformácii do prehľadnej časovej reprezentácie. 

Prezentační úroveň technické zprávy

Technická správa má logickú štruktúru, no vykazuje nevyváženosť v dokumentácii. Kapitola 4.1 (Štruktúra projektu) je spracovaná skôr ako technický manuál k súborom než architektonický opis. Grafické prvky sú v úvode poddimenzované, zatiaľ čo v implementačnej časti sú prítomné rozsiahle snímky obrazovky s nižšou informačnou hodnotou.

72
Formální úprava technické zprávy

Vyskytuje sa viacero typografických nedostatkov, najmä neefektívne narábanie s bielym miestom (napr. pod obrázkami v kap. 4.4). Zalamovanie textu a sadzba obrázkov pôsobia miestami neusporiadane. Jazyk je zrozumiteľný, no trpí častým opakovaním fráz a prílišnou opisnosťou, čo uberá na technickej hutnosti textu.

68
Realizační výstup

Hlavným prínosom je funkčný prototyp prepojujúci TalkNet-ASD s webovým rozhraním. Výhrady mám k hĺbke technického spracovania a robustnosti. Systém pracuje s absolútnym minimom konfigurovateľných prvkov – prakticky ide len o prah úspešnosti a dĺžku segmentu, pričom úplne absentuje analýza vplyvu týchto nastavení na presnosť detekcie.

Za významné obmedzenie navrhnutého riešenia považujem triviálnu interpretáciu dát z modelu. Autorka redukuje komplexný výstup TalkNetu na tri diskrétne stavy (Hovorí, Nehovorí, Chýba osoba), čím stráca informáciu o miere istoty (confidence score) detekcie. V riešení chýba implementácia akejkoľvek formy časového vyhladzovania (hysterézie), ktorá by eliminovala nežiaduce preblikávanie stavov pri krátkodobých výpadkoch modelu (napr. pri rýchlom pohybe hlavy). Realizácia sa tak obmedzuje na vizualizáciu surových dát bez potrebnej post-procesingovej logiky, čo znižuje praktickú využiteľnosť v profesionálnej strižni.

60
Využitelnost výsledků

Práca neprináša nové algoritmy, no jej prínos je v integrácii existujúcich modelov do praktického nástroja pre filmovú tvorbu. Po dobudovaní robustnosti a optimalizácii výkonu má riešenie potenciál ako podporný nástroj pre profesionálov / laikov pri tvorbe filmu.

Rozsah splnění požadavků zadání

Evaluation level: zadání splněno s drobnými výhradami

Práca napĺňa body zadania, no vykazuje slabiny v experimentálnej časti. Chýba kvantitatívne vyhodnotenie úspešnosti a priame porovnanie s alternatívnymi metódami na identických dátach. Hodnotenie ostáva v rovine kvalitatívnej rešerše.

Rozsah technické zprávy

Evaluation level: je v obvyklém rozmezí

Rozsah technickej správy (70.71 normostrán), čo je v obvyklom rozmedzí pre bakalársku prácu. Jednotlivé kapitoly pokrývajú všetky podstatné aspekty riešeného problému v primeranom rozsahu.

Práce s literaturou

Zdroje sú relevantné, oceňujem kombináciu vedeckých publikácií a dokumentácie moderných technológií. Pomer zdrojov je mierne vychýlený v prospech GitHub repozitárov a technickej dokumentácie na úkor kvalitných vedeckých prác.

84
Topics for thesis defence:
  1. Ako by systém reagoval na akusticky náročné scény (prekryv hlasov, hluk v pozadí) a aké sú limity použitého modelu v takýchto podmienkach?
  2. Vaša aplikácia rozlišuje tri základné stavy (Hovorí, Nehovorí, Chýba osoba). Ako váš systém ošetruje situácie, kedy model TalkNet krátkodobo (napr. na 0.2s) stratí detekciu kvôli prudkému pohybu hlavy? Obsahuje váš algoritmus nejakú formu časového vyhladzovania (smoothing), aby výsledná anotácia nebola rozkúskovaná, alebo preberáte dáta z modelu bez ďalšieho spracovania?
  3. Aké sú presné hardvérové nároky (CPU/GPU/RAM) pri spracovaní napr. štyroch 4K videí súčasne? Navrhnite konkrétne kroky pre optimalizáciu pamäte pri dlhých záznamoch.
Points proposed by reviewer: 72

Grade proposed by reviewer: C

Responsibility: Mgr. et Mgr. Hana Odstrčilová