Master's Thesis

Detection stress and emotions from speech

Final Thesis 4.21 MB

Author of thesis: Ing. Adam Rajko

Acad. year: 2025/2026

Supervisor: Ing. Igor Szőke, Ph.D.

Reviewer: Ing. Oldřich Plchot, Ph.D.

Abstract:

This thesis focuses on speech emotion and stress recognition using modern self-supervised speech foundation models. The theoretical part introduces Speech Emotion Recognition, speech signal processing, deep learning, Transformer architectures, and modern speech models such as Wav2Vec2, HuBERT, XLS-R, WavLM, and Whisper. The practical part focuses on the design of an experimental pipeline, dataset preparation and analysis, implementation of training procedures, and fine-tuning selected models for discrete emotion classification and arousal-valence regression tasks. The thesis also explores parameter-efficient fine-tuning using the LoRA technique. Experimental results demonstrate that modern self-supervised models provide robust speech representations suitable for Speech Emotion Recognition and achieve strong generalization capabilities even in low-resource scenarios.

Keywords:

speech emotion recognition, self-supervised learning, foundation models, Wav2Vec2, HuBERT, Whisper, WavLM, XLS-R, Transformer, speech processing, deep learning, LoRA, emotion classification, arousal, valence

Date of defence

22.06.2026

Result of the defence

Defended (thesis was successfully defended)

znamkaBznamka

Grading

B

Process of defence

Student nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta a na další otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm B.

Topics for thesis defence

  1. Jak byli anotátoři připraveni? Proběhl jejich společný trénink? Dokážete zhodnotit vliv společného tréninku nebo "kalibrace" anotátorů na jejich následnou shodu?

Language of thesis

Slovak

Faculty

Department

Study programme

Information Technology and Artificial Intelligence (MITAI)

Specialization

Machine Learning (NMAL)

Composition of Committee

prof. Dr. Ing. Jan Černocký (předseda)
prof. Ing. Martin Čadík, Ph.D. (místopředseda)
doc. Ing. Vladimír Janoušek, Ph.D. (člen)
doc. Ing. Michal Bidlo, Ph.D. (člen)
doc. Ing. František Zbořil, Ph.D. (člen)
Ing. Petr Veigend, Ph.D. (člen)

Supervisor’s report
Ing. Igor Szőke, Ph.D.

Student pracoval průběžně a aktivně po celý akademický rok. Náročnější téma řešil se zájmem a proaktivně.

Evaluation criteria Verbal classification
Informace k zadání

Jedná se o obtížnější zadání s dostatkem prostoru pro možné rozšíření. Zadání bylo splněno. Obtížnost shledávám v tématu, které není příliž prozkoumané a chybí k němu trénovací data. Cílem je průzkum tohoto tématu pro český jazyk a využití nově sezbíraného datasetu v rámci projektu PRINS. S výsledky práce jsem velmi spokojen. Studentovi se podařilo udělat analýzu nového datasetu, adaptaci a evaluaci modelů. Na těchto výsledcích můžeme v rámci výzkumné skupiny dále stavět.

Aktivita při dokončování

Aktivita při dokončování nebyla pod stresem. Text byl dodán ke kontrole včas. Vedoucím byly doporučeny dílčí úpravy struktury a jazyková kontrola.

Publikační činnost, ocenění

Práce byla prezentována na EXCEL@FIT.

Práce s literaturou

Student literaturu získával samostatně a aktivně.

Aktivita během řešení, konzultace, komunikace

Student konzultoval práci po celou dobu akademického roku pravidelně cca 1x za 2 týdny. Byla vždy připraven a ukázal slušný pokrok. Práci řešil aktivně a samostatně. 

Points proposed by supervisor: 90

Grade proposed by supervisor: A

Reviewer’s report
Ing. Oldřich Plchot, Ph.D.

Práce je ve fázi přípravy dat a jejich analýzy velice dobře a detailně zpracována. Celkově bylo odvedeno velké množství práce, a to i na samotných algoritmech pro rozpoznávání emocí. Výsledky této práce jsou dále využitelné pro vědeckou komunitu. Celkově se mi práce líbila a doporučuji hodnocení velmi dobře (B).

Evaluation criteria Verbal classification Points
Rozsah splnění požadavků zadání

Evaluation level: zadání splněno

Dle mého názoru je zadání splněno ve všech bodech.

Rozsah technické zprávy

Evaluation level: je v obvyklém rozmezí

Práce je v obvyklém rozmezí.

Prezentační úroveň technické zprávy

Jednotlivé kapitoly jsou informačně hodnotné, a detailně popisují celý proces od získání dat, jejich analýzy až po experimenty s předtrénovanými foundational modely jakožto extraktory příznaků pro klasifikaci. K samotnému textu, obrázkům a formulacím v rovnicích nemám námitky. Místy by se dal text možná optimalizovat. Například kapitoly o shodě mezi anotátory by se daly sloučit (3.3.3, 3.4).

90
Formální úprava technické zprávy

Práce je psána slovensky a podle mého názoru na dobré úrovni. Nicméně jsem si místy jako český mluvčí nebyl jistý překladem některých zavedených termínů do slovenštiny. Práci tohoto typu, která má možnost oslovit i mezinárodní vědeckou komunitu, by slušela angličtina.

85
Práce s literaturou

Ve většině textu jsou citace v pořádku. Nicméně v úvodní kapitole, kde se poprvé zmiňují různé varianty předtrénovaných modelů, které jsou později v práci využity, chybí citace zcela. Jinak jsou zdroje citovány správně v souladu s obvyklou praxí.

80
Realizační výstup

Práce je velice detailní, poskytuje ucelený záznam o tvorbě datasetu a poskytuje řadu důležitých analýz. Na práci si cením nejvíce právě práce při tvorbě a analýze anotací. Experimentální část nad daty je provedena také kvalitně. Zde bych ocenil pokus o vyhodnocení, zda jsou rozdíly v přesnosti klasifikátorů postavených nad různými modely statisticky signifikantní. Také bych uvítal jednoduchý baseline, který pracuje se standardními příznaky (například MFCC) a je postaven nad některou ze standardních neurálních architektur (například ResNet) nebo i mnohem jednodušší dopřednou neuronovou sítí.

80
Využitelnost výsledků

Výsledky práce jsou dále využitelné jak pro budoucí vylepšení datové sady prostřednictvím zlepšení procesu anotace, tak i pro přímý vývoj algoritmů pro rozpoznávání emocí z řeči.

Náročnost zadání

Evaluation level: obtížnější zadání

Zadání hodnotím jako obtížnější, protože student je postaven před nutnost od počátku navrhnout proces získání kvalitních zdrojových dat s cílem jejich anotace do  tříd reprezentujících emoce. Po získání dat a koordinaci s lidskými anotátory následuje vyhodnocení samotných anotací, shody mezi anotacemi a potenciálních problémů. Pouze po zkompletování datové sady přicházejí na řadu návrh a trénování klasifikátoru a další analýzy.

Topics for thesis defence:
  1. Jak byli anotátoři připraveni? Proběhl jejich společný trénink? Dokážete zhodnotit vliv společného tréninku nebo "kalibrace" anotátorů na jejich následnou shodu?
Points proposed by reviewer: 85

Grade proposed by reviewer: B

Responsibility: Mgr. et Mgr. Hana Odstrčilová