Doctoral Thesis

Development of Czech Sign Language Recognition Methods using Machine Learning Approach

Final Thesis 13.43 MB Appendix 18.95 MB Summary of Thesis 3.24 MB

Author of thesis: Ing. Jan Šnajder, Ph.D.

Acad. year: 2025/2026

Supervisor: doc. Ing. Jiří Krejsa, Ph.D.

Reviewers: doc. Mgr. Jaroslav Hrdina, Ph.D., Ing. Milan Chlada, Ph.D.

Abstract:

This dissertation focuses on the development of machine learning methods for recognition of Czech Sign Language, for both the sign alhpabet and gestures. For each area, the review section summarizes the relevant methods, available datasets, and current state-of-the-art. Based on this analysis, two main objectives are set. All presented methods utilize feature extraction in the form of pose-based key points obtained via MediaPipe tool. The first objective employs these key points for the classification of sign language alphabet and diacritics, using a combination of different types of neural networks. The resulting method is quantitatively evaluated and demonstrated in a mobile application. The second objective focuses on the continuous translation of a defined communication domain of Czech Sign Language. For this purpose, the dissertation introduces a large dataset of weather forecast recordings which are translated using a Transformer architecture. The resulting model achieves performance comparable to that of similar studies, but for longer sequences. A qualitative analysis confirmed that the model successfully recognizes and translates Czech Sign Language.

Keywords:

Sign language recognition; SLR; Machine translation; Neural network; Transformer; TensorFlow; MediaPipe

Date of defence

14.11.2025

Result of the defence

Defended (thesis was successfully defended)

znamkaPznamka

Process of defence

Disertační práce byla úspěšná při vyřešení úkolu vizuálního rozpoznávání české znakové abecedy, včetně diakritiky. Výsledek je vytvoření univerzální datové sady a automatický překladač gest, úspěšně aplikovaný na teamticky omezenou oblast komunikace. Předložená práce je základem pro prostupný vývoj univerzálního překladače.

Language of thesis

Czech

Faculty

Department

Study programme

Applied Mechanics (D-IME-P)

Composition of Committee

prof. Ing. Jindřich Petruška, CSc. (předseda)
doc. Mgr. Jaroslav Hrdina, Ph.D. (člen)
prof. Ing. Zdeněk Hadaš, Ph.D. (člen)
doc. Ing. Stanislav Věchet, Ph.D. (člen)
mjr. Ing. Václav Křivánek, Ph.D. (člen)
Ing. Milan Chlada, Ph.D. (člen)

Supervisor’s report
doc. Ing. Jiří Krejsa, Ph.D.

Disertační práce p. Ing. Jana Šnajdra se zabývá vývojem metod automatizovaného překladu českého znakového jazyka na základě vizuálního vstupu, tedy bez použití přídavných senzorů. V práci se mu podařilo bezezbytku vyřešit úlohu rozpoznávání a klasifikace české znakové abecedy a to včetně diakritiky, která využitím pohybu představuje předstupeň automatizovaného překladu gest. V této oblasti vytvořil unikátní datovou sadu, a na ní demonstroval vyvinutý automatizovaný překladač, byť není dosud univerzální, ale je zaměřený oborově. Jedná se o netriviální a aktuální téma. Vědecké výstupy publikoval a prezentoval především na mezinárodních konferencích.


V oblasti pedagogické se kromě pravidelné výuky v rámci povinností studenta významně podílel na modernizaci předmětu Základy zpracování signálu a zavedení nového předmětu Umělá inteligence. Ing. Šnajder vedl jednu bakalářskou práci a konzultační formou podporoval realizaci dalších prací, a to jak bakalářských, tak diplomových.

 

Disertační práci doporučuji k obhajobě.
Předkládaná disertační práce se věnuje vytvoření nástroje pro rozpoznávání a překlad znakové abecedy a znakové řeči. Autorovým cílem je usnadnit komunikaci neslyšícím. Velkým kladem práce je její společenský význam. Práce z mého pohledu obsahuje následující části


 --  Tvorba překladače znakového jazyka
 --  Tvorba znakové sady pro oblast počasí
 --  Tvorba překladače znakové sady pro oblast počasí
 --  Tvorba aplikace


Jedná se o komplexní problém, k jehož řešení bylo nutné nastudovat kapitoly z informatiky, strojového učení a částečně i statistiky.

Silné stránky.

Jedná se o komplexní úkol, který byl zvládnutý na poměrně slušné úrovni. Předkládaná práce jako taková je zpracována solidně, neobsahuje chyby ani překlepy. Zvolený jazyk čeština není na škodu, pokud se jedná o práci o českém znakovém jazyce a bude zajímat tedy především české čtenáře. Použití neuronových sítí je diskutováno a vždy jsou voleny autorem zdůvodněné nástroje. Autor se podrobně seznámil s problematikou komunikace neslyšících a specifiky znakového jazyka jak v kontextu Česka, tak i v mezinárodním kontextu.mPěkně zpracovaný "state of art".

Slabé stránky.

-- Jedná se o práci z aplikované informatiky, konkrétněji z aplikací neuronových sítí. V průběhu nastavování parametrů postrádám jejich detailnější analýzu. Obtížněji jsem nalézal vědeckou složku a práce na mě působila spíše jako inženýrské řešení problému. To se také projevilo na typu publikací, které jsou předkládány. Trochu postrádám vyloženě časopiseckou publikaci (ne sborník). Je to podle mě škoda, využití neuronových sítí pro takto specifický problém příležitost k výzkumu nabízí.

--  V práci jsem nenašel způsob, jak se podívat na samotnou vyvíjenou aplikaci, ani kde najít vytvořenou datovou sadu.

-- Drobné typografické chyby (velikost závorek v displey, např. 3.12)

-- V práci mi scházela vlastní znaková abeceda pro pochopení diskutované podobnosti znaků (např. str. 43)

I přes nějaké drobné nedostatky myslím, že práce celkově splňuje požadavky kladené na tento typ práce. Na základě výše uvedeného doporučuji práci k obhajobě a v případě, že tato bude úspěšná, udělit autorovi titul Ph.D. Topics for thesis defence:
  1. straně 82 autor uvádí "Zde je otázkou co bylo skutečně znakováno a zda mluvená reference odpovídá znakovaným gestům ". Chápu správně, že se jedná o automatické vyhodnocování a překlad ze znakového jazyka se porovnává s mluvenou informací? V uváděných příkladech vždy část informací schází. Proč se na konkrétních příkladech neověřilo, jestli se chybějící informace znakuje?
  2. V práci autor zmiňuje chybu způsobenou pozicí kamery vůči znakující osobě. Není to možné vyřešit přepočtem do ortonormální báze.
  3. Jaký má práce smysl vzhledem k prudkému rozvoji AI?
  4. str.56 (pozn. 3) Jaký smysl mělo analyzovat situaci kdy znakující chyboval?
  5. Augmentace (str.72) - Škálování může takto fungovat, jen pokud je střed obrázku patou kolmice k ohnisku, stejně tak rotace. Jak se to projeví?

Grade proposed by reviewer: C

Reviewer’s report
Ing. Milan Chlada, Ph.D.

viz. posudek v PDF
File inserted by the reviewer Size
Posudek oponenta [.pdf] 63,24 kB

Responsibility: Mgr. et Mgr. Hana Odstrčilová