Přístupnostní navigace
E-application
Search Search Close
Master's Thesis
Author of thesis: Ing. Adam Rajko
Acad. year: 2025/2026
Supervisor: Ing. Igor Szőke, Ph.D.
Reviewer: Ing. Oldřich Plchot, Ph.D.
This thesis focuses on speech emotion and stress recognition using modern self-supervised speech foundation models. The theoretical part introduces Speech Emotion Recognition, speech signal processing, deep learning, Transformer architectures, and modern speech models such as Wav2Vec2, HuBERT, XLS-R, WavLM, and Whisper. The practical part focuses on the design of an experimental pipeline, dataset preparation and analysis, implementation of training procedures, and fine-tuning selected models for discrete emotion classification and arousal-valence regression tasks. The thesis also explores parameter-efficient fine-tuning using the LoRA technique. Experimental results demonstrate that modern self-supervised models provide robust speech representations suitable for Speech Emotion Recognition and achieve strong generalization capabilities even in low-resource scenarios.
speech emotion recognition, self-supervised learning, foundation models, Wav2Vec2, HuBERT, Whisper, WavLM, XLS-R, Transformer, speech processing, deep learning, LoRA, emotion classification, arousal, valence
Date of defence
22.06.2026
Result of the defence
Defended (thesis was successfully defended)
Grading
B
Process of defence
Student nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta a na další otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm B.
Topics for thesis defence
Language of thesis
Slovak
Faculty
Fakulta informačních technologií
Department
Department of Computer Graphics and Multimedia
Study programme
Information Technology and Artificial Intelligence (MITAI)
Specialization
Machine Learning (NMAL)
Composition of Committee
prof. Dr. Ing. Jan Černocký (předseda) prof. Ing. Martin Čadík, Ph.D. (místopředseda) doc. Ing. Vladimír Janoušek, Ph.D. (člen) doc. Ing. Michal Bidlo, Ph.D. (člen) doc. Ing. František Zbořil, Ph.D. (člen) Ing. Petr Veigend, Ph.D. (člen)
Supervisor’s reportIng. Igor Szőke, Ph.D.
Student pracoval průběžně a aktivně po celý akademický rok. Náročnější téma řešil se zájmem a proaktivně.
Jedná se o obtížnější zadání s dostatkem prostoru pro možné rozšíření. Zadání bylo splněno. Obtížnost shledávám v tématu, které není příliž prozkoumané a chybí k němu trénovací data. Cílem je průzkum tohoto tématu pro český jazyk a využití nově sezbíraného datasetu v rámci projektu PRINS. S výsledky práce jsem velmi spokojen. Studentovi se podařilo udělat analýzu nového datasetu, adaptaci a evaluaci modelů. Na těchto výsledcích můžeme v rámci výzkumné skupiny dále stavět.
Aktivita při dokončování nebyla pod stresem. Text byl dodán ke kontrole včas. Vedoucím byly doporučeny dílčí úpravy struktury a jazyková kontrola.
Práce byla prezentována na EXCEL@FIT.
Student literaturu získával samostatně a aktivně.
Student konzultoval práci po celou dobu akademického roku pravidelně cca 1x za 2 týdny. Byla vždy připraven a ukázal slušný pokrok. Práci řešil aktivně a samostatně.
Grade proposed by supervisor: A
Reviewer’s reportIng. Oldřich Plchot, Ph.D.
Práce je ve fázi přípravy dat a jejich analýzy velice dobře a detailně zpracována. Celkově bylo odvedeno velké množství práce, a to i na samotných algoritmech pro rozpoznávání emocí. Výsledky této práce jsou dále využitelné pro vědeckou komunitu. Celkově se mi práce líbila a doporučuji hodnocení velmi dobře (B).
Evaluation level: zadání splněno
Dle mého názoru je zadání splněno ve všech bodech.
Evaluation level: je v obvyklém rozmezí
Práce je v obvyklém rozmezí.
Jednotlivé kapitoly jsou informačně hodnotné, a detailně popisují celý proces od získání dat, jejich analýzy až po experimenty s předtrénovanými foundational modely jakožto extraktory příznaků pro klasifikaci. K samotnému textu, obrázkům a formulacím v rovnicích nemám námitky. Místy by se dal text možná optimalizovat. Například kapitoly o shodě mezi anotátory by se daly sloučit (3.3.3, 3.4).
Práce je psána slovensky a podle mého názoru na dobré úrovni. Nicméně jsem si místy jako český mluvčí nebyl jistý překladem některých zavedených termínů do slovenštiny. Práci tohoto typu, která má možnost oslovit i mezinárodní vědeckou komunitu, by slušela angličtina.
Ve většině textu jsou citace v pořádku. Nicméně v úvodní kapitole, kde se poprvé zmiňují různé varianty předtrénovaných modelů, které jsou později v práci využity, chybí citace zcela. Jinak jsou zdroje citovány správně v souladu s obvyklou praxí.
Práce je velice detailní, poskytuje ucelený záznam o tvorbě datasetu a poskytuje řadu důležitých analýz. Na práci si cením nejvíce právě práce při tvorbě a analýze anotací. Experimentální část nad daty je provedena také kvalitně. Zde bych ocenil pokus o vyhodnocení, zda jsou rozdíly v přesnosti klasifikátorů postavených nad různými modely statisticky signifikantní. Také bych uvítal jednoduchý baseline, který pracuje se standardními příznaky (například MFCC) a je postaven nad některou ze standardních neurálních architektur (například ResNet) nebo i mnohem jednodušší dopřednou neuronovou sítí.
Výsledky práce jsou dále využitelné jak pro budoucí vylepšení datové sady prostřednictvím zlepšení procesu anotace, tak i pro přímý vývoj algoritmů pro rozpoznávání emocí z řeči.
Evaluation level: obtížnější zadání
Zadání hodnotím jako obtížnější, protože student je postaven před nutnost od počátku navrhnout proces získání kvalitních zdrojových dat s cílem jejich anotace do tříd reprezentujících emoce. Po získání dat a koordinaci s lidskými anotátory následuje vyhodnocení samotných anotací, shody mezi anotacemi a potenciálních problémů. Pouze po zkompletování datové sady přicházejí na řadu návrh a trénování klasifikátoru a další analýzy.
Grade proposed by reviewer: B
Responsibility: Mgr. et Mgr. Hana Odstrčilová