Bachelor's Thesis

Aplikace pro odezírání mluveného slova

Final Thesis 9.8 MB

Author of thesis: Bc. Matúš Pestun

Acad. year: 2024/2025

Supervisor: Ing. Tomáš Goldmann, Ph.D.

Reviewer: Ing. Filip Pleško

Abstract:

This thesis aimed to design a system capable of recognising spoken words based solely on lip movements, without relying on audio input. The goal was not only to build such a system but also to test its potential use in a real-world application, such as assistive communication. The solution includes a complete processing pipeline for LRS2 video data, covering face detection, mouth region extraction, and data preparation for model training. The core of the system is a neural network combining 3D convolutions, bidirectional GRUs, and decoding through CTC and attention mechanisms. Although the system was successfully integrated into a simple web application, the achieved performance – characterised by a Character Error Rate of around 60 % – is not yet sufficient for practical use. Still, the work lays a solid foundation for future improvements and provides a complete architecture to build upon.

Keywords:

lip reading, lip movement analysis, machine learning, computer vision, neural networks, convolutional neural networks, recurrent neural networks, cascaded attention-CTC decoder, mouth region detection, LRS2 dataset

Date of defence

16.06.2025

Result of the defence

Defended (thesis was successfully defended)

znamkaDznamka

Grading

D

Process of defence

Student nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta a na další otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm D.

Topics for thesis defence

  1. Porovnajte vaše riešenie s existujúcimi.
  2. Proč Váš model nefunguje dobře?
  3. Vyzkoušel jste porovnat výsledky na data set GRID?

Language of thesis

Slovak

Faculty

Department

Study programme

Information Technology (BIT)

Composition of Committee

doc. Ing. František Zbořil, Ph.D. (předseda)
doc. Mgr. Kamil Malinka, Ph.D. (člen)
Ing. Miloš Musil, Ph.D. (člen)
Ing. Vladimír Veselý, Ph.D. (člen)
doc. Ing. Vítězslav Beran, Ph.D. (člen)

Supervisor’s report
Ing. Tomáš Goldmann, Ph.D.

Ačkoli student projevoval zájem o zvolené téma a měl jasnou představu o způsobu jeho zpracování, časový harmonogram realizace práce nebyl vhodně sestaven. V důsledku toho byla práce dokončována na poslední chvíli. Jako vedoucí jsem se neměl možnost před jejím odevzdáním seznámit s finální verzí textu, což výrazně omezilo mou možnost ovlivnit její výslednou podobu. S obsahem práce jsem se mohl podrobněji seznámit až při vypracovávání tohoto posudku. Přestože práce formálně splňuje požadovaný rozsah a tematicky odpovídá stanoveným cílům, s průběhem její realizace a pracovním nasazením studenta nejsem zcela spokojen. Po zvážení všech relevantních okolností hodnotím studenta známkou uspokojivě (D).

Evaluation criteria Verbal classification
Informace k zadání

Cílem práce bylo navrhnout a implementovat řešení pro predikci mluveného slova na základě analýzy pohybů rtů. Zadání považuji za nadprůměrně obtížné. Přestože student, podle mého názoru, splnil požadavky a snažil se naplnit jednotlivé body zadání, realizační část vykazuje určité nedostatky. S ohledem na povahu řešené problematiky by bylo vhodné zvolit iterativní přístup k návrhu a ladění architektury neuronové sítě, který by umožnil lépe ověřit její limity a případně dosáhnout přesnějších výsledků.

Práce s literaturou

Student si studijní materiály a odbornou literaturu vyhledal a zajistil samostatně.

Aktivita během řešení, konzultace, komunikace

Aktivita studenta během řešení práce byla proměnlivá. Na konzultace přicházel připravený a měl přehled o probírané problematice, avšak časový plán řešení nebyl zvolen optimálně. Klíčovým implementačním částem se začal věnovat až v pozdější fázi semestru, což mělo negativní dopad na kvalitu a rozsah výsledné práce.

Aktivita při dokončování

Student vykazoval zvýšenou aktivitu zejména v závěrečné fázi řešení, neboť práce nebyla dokončena s dostatečným časovým předstihem. Lze konstatovat, že na práci intenzivně pracoval až do termínu jejího odevzdání. Vzhledem k časové tísni jsem se s finální verzí práce neměl možnost detailně seznámit, a tudíž jsem k ní nemohl uplatnit žádné připomínky.

Publikační činnost, ocenění
Points proposed by supervisor: 62

Grade proposed by supervisor: D

Reviewer’s report
Ing. Filip Pleško

Práca splnila body zo zadania, avšak výsledný model vykazuje veľmi malú presnosť predikcie písmen a slov. Pre testovanie bolo natrénovaných niekoľko modelov, ale tieto sa lýšili iba v niekoľkých hyper parametroch. Pre zvýšenie kvality výsledkov by bolo vhodné vyskúšať a porovnať rôzne úpravy archytektúry, tak ako je spomenuté v závere testovania.

Evaluation criteria Verbal classification Points
Náročnost zadání

Evaluation level: obtížnější zadání

Jedná sa skôr o výskumné téma kde bolo potrebné si naštudovať problematiku, aktuálne riešenia, navrhnúť a implementovať vlastný prístup.

Prezentační úroveň technické zprávy

Rozdelenie jednotlivých kapitol je rozumné, ale je v nej náročné nájsť porovnanie existujúcich riešení. Chýba prehľadná tabuľka z ktorej by bolo možné vyčítať presnosť jednotlivých riešení.

70
Formální úprava technické zprávy

Práca je písaná gramaticky správne. Za nedostatok považujem obrázky s anglickým textom, vzhľadom na to, že práca je písaná v slovenskom jazyku. Obrázok 2.3 dokonca obsahuje číslovanie a popis z originálneho článku.

60
Realizační výstup

Počas práce bol vytvorený model pre odčítanie hovoreného slova z pier. V práci je dokumentovaná jeho veľmi malá presnosť. K danému modelu bola taktiež vytvorená webová aplikácia. Hotové riešenie mi nebolo odprezentované a pri snahe otestovať ho, sa mi podarilo rozbehnúť iba frontend. Backend narazil na problém pri načítaní modelu a teda som funkčnosť riešenia nemohol otestovať.

60
Využitelnost výsledků

Práca mala za úlohu rozšíriť publikované výsledky.

Rozsah splnění požadavků zadání

Evaluation level: zadání splněno s drobnými výhradami

Zadanie splnené vo všetkych bodoch, avšak v bode 2 by som prijal rozsiahlešie porovnanie aktuálnych riešení.

Rozsah technické zprávy

Evaluation level: je v obvyklém rozmezí

Práce s literaturou

Na vypracovanie práce bol použitý dostatočný počet materiálov z odbornej literatúry, ktoré boli v texte citované, avšak formulácia citácií mohla byť kvalitnejšia.

65
Topics for thesis defence:
  1. Porovnajte vaše riešenie s existujúcimi.
Points proposed by reviewer: 60

Grade proposed by reviewer: D

Responsibility: Mgr. et Mgr. Hana Odstrčilová