Bachelor's Thesis

Automatic video cutting using neural networks

Author of thesis: Lukáš Trmač

Acad. year: 2025/2026

Reviewer: doc. Ing. Vítězslav Beran, Ph.D.

Abstract:

This bachelor’s thesis focuses on the automation of editing multicamera video recordings, with an emphasis on interviews, in order to accelerate the post-production process. The goal was to design and implement a video editor capable of predicting optimal moments for cuts. The proposed solution employs neural networks for both visual and audio analysis, specifically for facial landmark detection and voice activity detection. The result of this work is a functional desktop application that enables automatic edit generation, manual adjustments using an interactive timeline, and final export. To evaluate the quality of the predictions, a custom testing dataset was created.

Keywords:

automatic video editing, multi-camera editing, computer vision, voice activity detection, multimodal analysis, deep learning, audio processing

Date of defence

17.06.2026

Result of the defence

Defended (thesis was successfully defended)

znamkaCznamka

Grading

Process of defence

Student nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta a na další otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm C.

Topics for thesis defence

K čemu a jak konrétně je využita analýza audio stop?
Co by bylo potřeba změnit a přibližně jak, aby bylo možné upravovat parametry výsledného videa (délka záznamu, poměr výskytu mluvčích, dynamičnost apod.)?
Na základě čeho jste se rozhodl použít on-line oproti vhodnějšímu off-line přístupu?
Na základě čeho dochází k přepínání obrazů?

Language of thesis

Czech

Faculty

Fakulta informačních technologií

Department

Department of Computer Graphics and Multimedia

Study programme

Information Technology (BIT)

Composition of Committee

doc. Ing. František Zbořil, CSc. (předseda)
doc. Ing. Michal Španěl, Ph.D. (místopředseda)
Ing. Jan Pluskal, Ph.D. (člen)
Ing. Aleš Smrčka, Ph.D. (člen)
Ing. Josef Strnadel, Ph.D. (člen)

Supervisor’s report
Ing. Šimon Strýček

Student navrhl a implementoval funkční systém pro automatizovaný prostřih vícekamerových scén se zaměřením na rozhovory. Dále navrhnul a implementoval vlastní přehlednou aplikaci pro dodatečné korigování střihu. Mimo jiné také vytvořil vlastní vícekamerovou testovací datovou sadu.

Všechny body zadání byly splněny a výsledky práce hodnotím velmi pozitivně.

Evaluation criteria	Verbal classification
Informace k zadání	Jedná se o středně náročné téma zaměřené na identifikaci klíčových bodů scény pro střih ve vícekamerovém prostředí s důrazem na rozhovory. Zadání vyžadovalo prostudování tématu neuronových sítí pro detekci lidí ve scéně a studium teorie filmové produkce se zaměřením na střihovou skladbu. Součástí zadání byla také tvorba vlastní testovací datové sady se záznamy z více kamer a mikrofonů. Student řádně splnil všechny body zadání.
Práce s literaturou	Student si řádně prostudoval potřebná témata jak technické části (postupy využití neuronových sítí a zpracování multimediálních záznamů), tak i teorii filmové produkce a střihu. Student si vyhledával studijní materiály samostatně.
Aktivita během řešení, konzultace, komunikace	Student byl velmi aktivní, průběžně konzultoval a sám se ozýval. Na konzultace chodil dobře připravený.
Aktivita při dokončování	Práce i technická zpráva byla dokončena v dostatečném předstihu a byla průběžně konzultována.
Publikační činnost, ocenění	Práce nebyla publikována.

Points proposed by supervisor: 95

Grade proposed by supervisor: A

Reviewer’s report
doc. Ing. Vítězslav Beran, Ph.D.

Autor v rámci práce nastudoval potřebné relevantní znalosti z oblasti analýzy videa a audia a seznámil se s podobnými aplikacemi. Na tomto základě navrhl vlastní řešení, které úspěšně realizoval v podobě desktopové aplikace včetně funkčního GUI. I když je programové řešení GUI významným rozšířením zadání, tak s ohledem na velmi základní aplikační využití NN a metodické i prezentační slabiny hodnotím výsledné řešení průměrně. Na práci je však třeba ocenit dotaženou funkční realizaci.

Evaluation criteria	Verbal classification	Points
Náročnost zadání	Evaluation level: průměrně obtížné zadání Zadání vyžaduje nastudování a využití pokročilejších témat, jako jsou analýza videa a audia pomocí neuronových sítí a optimalizace výběru záběrů a střihů. Uchopení těchto metod je ale spíše aplikační a obtížnost zadání tak lze hodnotit jako průměrné.
Prezentační úroveň technické zprávy	Text zprávy je zpracován pečlivě a dobře se drží tématu. V úvodu návrhu se však otevírá prostor pro diskuzi o tom, jaké konkrétní informace potřebuje autor z videa a audia získat, aby mohl automaticky a kvalitně rozhodnout o výsledné podobě střihu – tedy co přesně bude v záznamech měřit, analyzovat a jak tato data následně využije k rozhodování. Vhodné by bylo také hlouběji diskutovat možná kritéria kladená na výsledné video, jako jsou požadovaná délka záznamu, dynamičnost či vyváženost pokrytí mluvčích. Samotný návrh logiky predikce klíčových scén, respektive automatického výběru záběrů a střihu, by mohl být v některých detailech srozumitelnější, neboť realizace řešení čistě podle stávajícího popisu může být pro čtenáře málo srozumitelná. Využití neuronových sítí je sice v obecné rovině popsáno na různých místech zprávy, ale ve výsledku by bylo přínosné jasněji specifikovat, jak konkrétně jsou sítě použity (např. při analýze audia) a jaké jsou jejich požadované výstupy; integrace atributů z audia do výsledného postupu není moc metodická. U výpočtu skóre v rovnici 3.1 chybí vysvětlení, proč je kompoziční atribut formulován formou penalizace. Atributy jsou sice vhodně navrženy v rozmezí 0.0–1.0, v práci však chybí diskuze o rozsahu jednotlivých vah či o jejich celkovém součtu. Z hlediska formální úpravy se seznam obrázků jeví jako nadbytečný a názvy obrázků vykazují nevyvážený rozsah, přičemž klíčové informace by měly být standardně obsaženy přímo v textu, nikoliv v názvu obrázku. V teoretické části autor velmi dobře vysvětluje, jak bude studovaná znalost v návrhu využita, v některých pasážích však zachází až do zbytečných detailů už vlastního návrhu. Kapitola 3.7 působí v kontextu návrhu poněkud nekoncepčně, neboť tato zjištění by bylo vhodnější diskutovat v rámci experimentů a následně je promítnout přímo do výsledného návrhu řešení.	70
Formální úprava technické zprávy	Formální úprava, typografická a jazyková úroveň práce jsou na velmi dobré úrovni. Pro ještě lepší čitelnost by autor mohl efektivněji využívat formátování textu a v delších pasážích vhodně zdůraznit klíčové pojmy, čímž by text pro čtenáře vizuálně lépe strukturoval.	90
Realizační výstup	Prohlášení autora o využití umělé inteligence by mělo lépe specifikovat, jakým způsobem a k čemu konkrétně byly AI nástroje využity. Realizační řešení je postaveno na frameworku Tauri pro integraci aplikační a prezentační části, přičemž aplikační část tvoří řada Python skriptů, které využívají existující nástroje pro analýzu videa (knihovny Google MediaPipe) a audia (NN Silero VAD) k extrakci potřebných atributů. Diagram tříd na obrázku 4.1 prezentuje funkční architekturu analytické části systému, samotný datový model však není jasně specifikován a z práce není zřejmé, jak se s metadaty pracuje; čas střihu a identifikátor zdroje ve výpisu 4.1 představují spíše datovou strukturu než ucelený datový model. Realizace logiky automatického výběru záběru a střihu je řešena formou série zanořených podmínek, což poněkud zhoršuje srozumitelnost kódu a také jeho rozšiřitelnost či případné budoucí úpravy. Systém byl testován na vlastní základní datové sadě, přičemž jako referenční řešení byl použit autorův ruční střih. U tohoto referenčního řešení by bylo vhodné doplnit diskuzi o tom, proč je zrovna tento výsledný střih optimální, neboť veškeré hodnocení automatického střihu je v práci provedeno pouze formou slovního popisu. Prostor pro zlepšení se tak nabízel v realizaci testování s uživateli, kdy by nezávislí uživatelé hodnotili kvalitu různých variant střihu podle předem stanovených kritérií, jako jsou srozumitelnost, plynulost, atraktivita, pokrytí klíčových osob či jiné požadované atributy výsledného videa. Vyhodnocení navrženého GUI je rovněž pouze slovní, přičemž komunikace stavu systému v uživatelském rozhraní, například prostřednictvím změn stavové ikony na obrázku 4.6, není zcela zřetelná a je obtížně identifikovatelná. Zdrojové kódy obsahují autorství i komentáře u klíčových částí řešení.	70
Využitelnost výsledků	Výsledkem práce je praktický a funkční nástroj, který je použitelný v dané konkrétní doméně. Další rozvoj a rozšiřování analytického jádra na další případy použití je s ohledem na zvolenou architekturu spíše obtížnější.
Rozsah splnění požadavků zadání	Evaluation level: zadání splněno a práce obsahuje podstatná rozšíření Autor v práci konkrétně využívá neuronové sítě k detekci obličeje, jeho klíčových bodů a k detekci lidské řeči. Pro komplexnější pohled by bylo užitečné se obeznámit i s problematikou automatického střihu z více kamer v zadané doméně, včetně možnosti využití neuronových sítí přímo na tuto úlohu. Při návrhu se autor dívá na problém sekvenčním (on-line) způsobem, přestože se jedná o off-line zpracování, kdy má všechna data v době analýzy již k dispozici. V tomto ohledu se nabízel prostor pro zvážení správnějšího postupu, který by optimalizoval výběr záběrů a střihů podle požadavků na výsledné video s využitím všech dat. Autor nad rámec zadání navrhl a vytvořil aplikaci s GUI. Navržené GUI sice vzniklo bez specifikace uživatelských potřeb a klíčových procesů, což odpovídá spíše návrhu zaměřenému na systém (system-centered design) oproti dnes standardně používanému návrhu zaměřenému na uživatele (user-centered design), avšak jelikož toto rozhraní nebylo vyžadováno, lze jeho návrh a realizaci hodnotit pozitivně jako práci navíc.
Rozsah technické zprávy	Evaluation level: je v obvyklém rozmezí Všechny části technické zprávy jsou informačně bohaté a pro práci důležité. Teoretické základy konvolučních sítí jsou však s ohledem na způsob jejich použití při návrhu i realizaci spíše nadbytečné. V práci by se spíše hodilo studium návrhu a realizace podobných systémů s GUI, architektonické vzory (např. MVC) a nástroje či technologie pro tvorbu takových systémů.
Práce s literaturou	Výběr studijních pramenů je plně v souladu se zadáním a tématem práce. Student využil relevantní zdroje a všechny převzaté prvky jsou řádně odlišeny od vlastních výsledků a úvah. Informační zdroje bez recenzního řízení (např. blogy), odkazy na existující produkty, manuály či dokumentaci je však vhodné uvádět pouze jako poznámku pod čarou, nikoliv jako zdroj ověřených teoretických poznatků v seznamu literatury. Bylo by vhodné trochu více studovat problematiku automatického střihu, a to i s využitím neuronových sítí, a při vlastním návrhu se již opřít o existující znalosti. A v případě rozšíření zadání o návrh a realizaci GUI, pak i tuto problematiku.	70

Topics for thesis defence:

K čemu a jak konrétně je využita analýza audio stop?
Co by bylo potřeba změnit a přibližně jak, aby bylo možné upravovat parametry výsledného videa (délka záznamu, poměr výskytu mluvčích, dynamičnost apod.)?
Na základě čeho jste se rozhodl použít on-line oproti vhodnějšímu off-line přístupu?

Points proposed by reviewer: 75

Grade proposed by reviewer: C

Responsibility: Mgr. et Mgr. Hana Odstrčilová

VUT

Faculties and university institutes

Parts

Automatic video cutting using neural networks