Přístupnostní navigace
E-application
Search Search Close
Bachelor's Thesis
Author of thesis: Bc. Matúš Pestun
Acad. year: 2024/2025
Supervisor: Ing. Tomáš Goldmann, Ph.D.
Reviewer: Ing. Filip Pleško
This thesis aimed to design a system capable of recognising spoken words based solely on lip movements, without relying on audio input. The goal was not only to build such a system but also to test its potential use in a real-world application, such as assistive communication. The solution includes a complete processing pipeline for LRS2 video data, covering face detection, mouth region extraction, and data preparation for model training. The core of the system is a neural network combining 3D convolutions, bidirectional GRUs, and decoding through CTC and attention mechanisms. Although the system was successfully integrated into a simple web application, the achieved performance – characterised by a Character Error Rate of around 60 % – is not yet sufficient for practical use. Still, the work lays a solid foundation for future improvements and provides a complete architecture to build upon.
lip reading, lip movement analysis, machine learning, computer vision, neural networks, convolutional neural networks, recurrent neural networks, cascaded attention-CTC decoder, mouth region detection, LRS2 dataset
Date of defence
16.06.2025
Result of the defence
Defended (thesis was successfully defended)
Grading
D
Process of defence
Student nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta a na další otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm D.
Topics for thesis defence
Language of thesis
Slovak
Faculty
Fakulta informačních technologií
Department
Department of Intelligent Systems
Study programme
Information Technology (BIT)
Composition of Committee
doc. Ing. František Zbořil, Ph.D. (předseda) doc. Mgr. Kamil Malinka, Ph.D. (člen) Ing. Miloš Musil, Ph.D. (člen) Ing. Vladimír Veselý, Ph.D. (člen) doc. Ing. Vítězslav Beran, Ph.D. (člen)
Supervisor’s reportIng. Tomáš Goldmann, Ph.D.
Ačkoli student projevoval zájem o zvolené téma a měl jasnou představu o způsobu jeho zpracování, časový harmonogram realizace práce nebyl vhodně sestaven. V důsledku toho byla práce dokončována na poslední chvíli. Jako vedoucí jsem se neměl možnost před jejím odevzdáním seznámit s finální verzí textu, což výrazně omezilo mou možnost ovlivnit její výslednou podobu. S obsahem práce jsem se mohl podrobněji seznámit až při vypracovávání tohoto posudku. Přestože práce formálně splňuje požadovaný rozsah a tematicky odpovídá stanoveným cílům, s průběhem její realizace a pracovním nasazením studenta nejsem zcela spokojen. Po zvážení všech relevantních okolností hodnotím studenta známkou uspokojivě (D).
Cílem práce bylo navrhnout a implementovat řešení pro predikci mluveného slova na základě analýzy pohybů rtů. Zadání považuji za nadprůměrně obtížné. Přestože student, podle mého názoru, splnil požadavky a snažil se naplnit jednotlivé body zadání, realizační část vykazuje určité nedostatky. S ohledem na povahu řešené problematiky by bylo vhodné zvolit iterativní přístup k návrhu a ladění architektury neuronové sítě, který by umožnil lépe ověřit její limity a případně dosáhnout přesnějších výsledků.
Student si studijní materiály a odbornou literaturu vyhledal a zajistil samostatně.
Aktivita studenta během řešení práce byla proměnlivá. Na konzultace přicházel připravený a měl přehled o probírané problematice, avšak časový plán řešení nebyl zvolen optimálně. Klíčovým implementačním částem se začal věnovat až v pozdější fázi semestru, což mělo negativní dopad na kvalitu a rozsah výsledné práce.
Student vykazoval zvýšenou aktivitu zejména v závěrečné fázi řešení, neboť práce nebyla dokončena s dostatečným časovým předstihem. Lze konstatovat, že na práci intenzivně pracoval až do termínu jejího odevzdání. Vzhledem k časové tísni jsem se s finální verzí práce neměl možnost detailně seznámit, a tudíž jsem k ní nemohl uplatnit žádné připomínky.
Grade proposed by supervisor: D
Reviewer’s reportIng. Filip Pleško
Práca splnila body zo zadania, avšak výsledný model vykazuje veľmi malú presnosť predikcie písmen a slov. Pre testovanie bolo natrénovaných niekoľko modelov, ale tieto sa lýšili iba v niekoľkých hyper parametroch. Pre zvýšenie kvality výsledkov by bolo vhodné vyskúšať a porovnať rôzne úpravy archytektúry, tak ako je spomenuté v závere testovania.
Evaluation level: obtížnější zadání
Jedná sa skôr o výskumné téma kde bolo potrebné si naštudovať problematiku, aktuálne riešenia, navrhnúť a implementovať vlastný prístup.
Rozdelenie jednotlivých kapitol je rozumné, ale je v nej náročné nájsť porovnanie existujúcich riešení. Chýba prehľadná tabuľka z ktorej by bolo možné vyčítať presnosť jednotlivých riešení.
Práca je písaná gramaticky správne. Za nedostatok považujem obrázky s anglickým textom, vzhľadom na to, že práca je písaná v slovenskom jazyku. Obrázok 2.3 dokonca obsahuje číslovanie a popis z originálneho článku.
Počas práce bol vytvorený model pre odčítanie hovoreného slova z pier. V práci je dokumentovaná jeho veľmi malá presnosť. K danému modelu bola taktiež vytvorená webová aplikácia. Hotové riešenie mi nebolo odprezentované a pri snahe otestovať ho, sa mi podarilo rozbehnúť iba frontend. Backend narazil na problém pri načítaní modelu a teda som funkčnosť riešenia nemohol otestovať.
Práca mala za úlohu rozšíriť publikované výsledky.
Evaluation level: zadání splněno s drobnými výhradami
Zadanie splnené vo všetkych bodoch, avšak v bode 2 by som prijal rozsiahlešie porovnanie aktuálnych riešení.
Evaluation level: je v obvyklém rozmezí
Na vypracovanie práce bol použitý dostatočný počet materiálov z odbornej literatúry, ktoré boli v texte citované, avšak formulácia citácií mohla byť kvalitnejšia.
Grade proposed by reviewer: D
Responsibility: Mgr. et Mgr. Hana Odstrčilová