Přístupnostní navigace
E-application
Search Search Close
Bachelor's Thesis
Author of thesis: Veronika Novikova
Acad. year: 2025/2026
Supervisor: Ing. Šimon Strýček
Reviewer: Ing. Pavol Dubovec
This bachelor's thesis deals with the automatic annotation of video recordings from multiple cameras for filmmaking. The proposed solution uses the TalkNet model to detect the presence of a person and speech activity in video, while the obtained outputs are converted into temporal segments. The work also includes the implementation of an application for clearly displaying these annotations across multiple video recordings simultaneously. The developed system enables the analysis of selected parts of video recordings and displays the results on a shared timeline. The contribution of the thesis lies in connecting automatic video analysis with a user-understandable visualization of the results.
automatic video annotation, multi-camera video recordings, video analysis, neural networks, active speaker detection, TalkNet, speech activity, temporal segments, annotation visualization
Date of defence
15.06.2026
Result of the defence
Defended (thesis was successfully defended)
Grading
E
Process of defence
Studentka nejprve prezentovala výsledky, kterých dosáhla v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Studentka následně odpověděla na otázky oponenta a na další otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studentky na položené otázky rozhodla práci hodnotit stupněm E.
Topics for thesis defence
Language of thesis
Czech
Faculty
Fakulta informačních technologií
Department
Department of Computer Graphics and Multimedia
Study programme
Information Technology (BIT)
Composition of Committee
doc. Ing. František Zbořil, Ph.D. (předseda) doc. Mgr. Kamil Malinka, Ph.D. (místopředseda) Ing. Jiří Matoušek, Ph.D. (člen) Ing. Vladimír Veselý, Ph.D. (člen) doc. Ing. Vítězslav Beran, Ph.D. (člen)
Supervisor’s reportIng. Šimon Strýček
Studentka navrhla a implementovala funkční aplikaci pro přehledné zobrazení výsledků analýzy kontextu scény s více kamerami, které využívá dostupných nástrojů na bázi neuronových sítí. Dále provedla průzkum již existujících řešení a vytvořila vlastní datovou sadu pro otestování své práce.Rozsah řešení má dle mého názoru drobné rezervy a jeho zasazení do kontextu filmové tvorby by mohlo být promyšlenější. Přesto práce splňuje všechny body zadání.
Jedná se o jednodušší zadání zaměřené na návrh a implementaci aplikace pro vizualizaci výstupů existujících analyzačních nástrojů na bázi neuronových sítí.
Studentka musela mimo jiné provést průzkum veřejně dostupných nástrojů vhodných pro zpřehlednění práce s vícekamerovými daty pro účely filmové produkce.
Výsledným řešením je funkční aplikace, která splňuje zadání v požadovaném rozsahu.
Studentka si řádně prostudovala potřebnou literaturu v oblasti zpracování videoobsahu a použití neuronových sítí v tomto kontextu. Zdroje si studentka vyhledávala samostatně.Na druhou stranu mám drobné výhrady k míře prostudování tématu filmové produkce a seznámení se s praktickými aspekty využití podpůrného softwaru ve filmové režii.
Studentka na práci průběžně pracovala a pravidelně konzultovala v průběhu obou semestrů.
Většina implementace byla provedena s dostatečným předstihem a byla průběžně konzultována. Technická zpráva byla řešena sice s menší časovou rezervou, ale její dokončení se podařilo v domluveném časovém rozsahu.
Práce nebyla publikována.
Grade proposed by supervisor: B
Reviewer’s reportIng. Pavol Dubovec
Študentka úspešne integrovala pokročilý model hlbokého učenia do funkčnej webovej aplikácie. Práca však dopláca na nízku mieru technickej invencie pri spracovaní výstupných dát modelu a chýbajúcu kvantitatívnu verifikáciu výsledkov. Napriek uvedeným nedostatkom v experimentálnej časti a formálnym chybám v správe, dielo spĺňa požiadavky na bakalársku prácu s hodnotením dobrý.
Evaluation level: průměrně obtížné zadání
Zadanie vyžaduje integráciu modelu TalkNet pre „active speaker detection“ do uceleného systému s funkčným backendom a frontendom. Náročnosť spočíva v spracovaní multikamerových dát a ich transformácii do prehľadnej časovej reprezentácie.
Technická správa má logickú štruktúru, no vykazuje nevyváženosť v dokumentácii. Kapitola 4.1 (Štruktúra projektu) je spracovaná skôr ako technický manuál k súborom než architektonický opis. Grafické prvky sú v úvode poddimenzované, zatiaľ čo v implementačnej časti sú prítomné rozsiahle snímky obrazovky s nižšou informačnou hodnotou.
Vyskytuje sa viacero typografických nedostatkov, najmä neefektívne narábanie s bielym miestom (napr. pod obrázkami v kap. 4.4). Zalamovanie textu a sadzba obrázkov pôsobia miestami neusporiadane. Jazyk je zrozumiteľný, no trpí častým opakovaním fráz a prílišnou opisnosťou, čo uberá na technickej hutnosti textu.
Hlavným prínosom je funkčný prototyp prepojujúci TalkNet-ASD s webovým rozhraním. Výhrady mám k hĺbke technického spracovania a robustnosti. Systém pracuje s absolútnym minimom konfigurovateľných prvkov – prakticky ide len o prah úspešnosti a dĺžku segmentu, pričom úplne absentuje analýza vplyvu týchto nastavení na presnosť detekcie.
Za významné obmedzenie navrhnutého riešenia považujem triviálnu interpretáciu dát z modelu. Autorka redukuje komplexný výstup TalkNetu na tri diskrétne stavy (Hovorí, Nehovorí, Chýba osoba), čím stráca informáciu o miere istoty (confidence score) detekcie. V riešení chýba implementácia akejkoľvek formy časového vyhladzovania (hysterézie), ktorá by eliminovala nežiaduce preblikávanie stavov pri krátkodobých výpadkoch modelu (napr. pri rýchlom pohybe hlavy). Realizácia sa tak obmedzuje na vizualizáciu surových dát bez potrebnej post-procesingovej logiky, čo znižuje praktickú využiteľnosť v profesionálnej strižni.
Práca neprináša nové algoritmy, no jej prínos je v integrácii existujúcich modelov do praktického nástroja pre filmovú tvorbu. Po dobudovaní robustnosti a optimalizácii výkonu má riešenie potenciál ako podporný nástroj pre profesionálov / laikov pri tvorbe filmu.
Evaluation level: zadání splněno s drobnými výhradami
Práca napĺňa body zadania, no vykazuje slabiny v experimentálnej časti. Chýba kvantitatívne vyhodnotenie úspešnosti a priame porovnanie s alternatívnymi metódami na identických dátach. Hodnotenie ostáva v rovine kvalitatívnej rešerše.
Evaluation level: je v obvyklém rozmezí
Rozsah technickej správy (70.71 normostrán), čo je v obvyklom rozmedzí pre bakalársku prácu. Jednotlivé kapitoly pokrývajú všetky podstatné aspekty riešeného problému v primeranom rozsahu.
Zdroje sú relevantné, oceňujem kombináciu vedeckých publikácií a dokumentácie moderných technológií. Pomer zdrojov je mierne vychýlený v prospech GitHub repozitárov a technickej dokumentácie na úkor kvalitných vedeckých prác.
Grade proposed by reviewer: C
Responsibility: Mgr. et Mgr. Hana Odstrčilová