Master's Thesis

Utilizing acoustic representations from pre-trained models for the assessment of motor speech disorders

Final Thesis 2.32 MB Appendix 13.45 kB

Author of thesis: Ing. Tereza Beránková

Acad. year: 2025/2026

Abstract:

This master’s thesis focuses on the detection of Hypokinetic Dysarthria (HD) using acoustic models based on Self-Supervised Learning (SSL).

HD is a common manifestation of neurodegenerative diseases, and its early detection is crucial for monitoring disease progression. Current clinical diagnostics, however, often rely on subjective assessment, creating a need for objective and automated tools based on speech signal analysis.

The main objective of this thesis is to evaluate the applicability of acoustic embeddings extracted from pretrained models for the automatic detection of this pathology. The thesis includes a literature review of the current state of knowledge regarding the manifestations of HD, an analysis of encoder architectures, and the use of acoustic embeddings for HD detection. Based on the theoretical background, research questions are formulated and Python scripts are developed for embedding extraction, statistical aggregation, and classification. The obtained results are compared using classification metrics in order to determine the most suitable combination of classifier, aggregation method, and SSL model for the employed dataset.

A smaller dataset consisting of 53 healthy controls and 101 patients with Parkinson’s Disease (PD) was used for the experimental evaluation.

The experiments utilized Wav2Vec 2.0, Whisper, and HuBERT models in various size variants, together with the eXtreme Gradient Boosting (XGB), Support Vector Machine (SVM), and Multi-Layer Perceptron (MLP) classifiers.

The main outcome of the thesis is an evaluation of the effectiveness of selected models for the automatic classification of patients with HD. The best performance was achieved by the Whisper model, specifically Whisper Large combined with embedding aggregation using the mean and Standard Deviation (SD) together with the SVM classifier. This configuration achieved the best value of the evaluated metric Area Under the Receiver Operating Characteristic Curve (ROC--AUC). Very good results across the remaining evaluated metrics were also achieved by the Whisper Tiny and HuBERT XLarge models.

Keywords:

Hypokinetic Dysarthria, speech analysis, Self--Supervised learning, acoustic embeddings, Transformer, Wav2Vec 2.0, HuBERT, Whisper, encoder, embedding extraction, embedding aggregation, classification, eXtreme Gradient Boosting, Support Vector Machine, Multi-Layer Perceptron

Date of defence

11.06.2026

Result of the defence

Defended (thesis was successfully defended)

znamkaAznamka

Grading

Process of defence

Studentka prezentovala výsledky své práce a komise byla seznámena s posudky. Otázky oponenta a komise: Adresovali jste nějak doplňování nulami (zero padding) při agregaci vektorů? Pokud ano, jak? V práci reportujete nejlepší průměrnou agregační metodu jako kombinaci mezikvartilního intervalu a mediánu. Jak byste tento fakt interpretovala? Jaké nejvyšší úspěšnosti bylo při klasifikaci dosaženo? Studentka obhájila diplomovou práci a odpověděla na otázky členů komise a oponenta.

Language of thesis

Czech

Faculty

Fakulta elektrotechniky a komunikačních technologií

Department

Department of Telecommunications

Study programme

Audio Engineering (MPC-AUD)

Specialization

Audio Production and Recording (AUDM-ZVUK)

Composition of Committee

PhDr. Aleš Dvořák (člen)
prof. Ing. Jiří Mekyska, Ph.D. (předseda)
doc. Ing. MgA. Mgr. Dan Dlouhý, Ph.D. (místopředseda)
Ing. Miroslav Balík, Ph.D. (člen)
Ing. Michal Švento (člen)

Supervisor’s report
Ing. Kryštof Novotný

Studentka se ve své práci zabývala využitím akustických reprezentací z předtrénovaných modelů pro hodnocení motorických poruch řeči, konkrétně hypokinetické dysartrie. To obnášelo nastudování problematiky z několika oblastí (motorické poruchy řeči, metody zpracování nahrávek řeči pomocí předtrénovaných modelů, práce s extrahovanými latentními reprezentacemi...), návrh vlastních výzkumných otázek a souvisejících klasifikačních experimentů, přípravu kódu (statistika nad metadaty datasetu, extrakce a zpracování embeddingů, trénování a vyhodnocení pomocí klasifikátorů...) a závěrečnou evaluaci získaných výsledků. Tím byly naplněny všechny cíle práce.

Studentka během semestru aktivně komunikovala, pravidelně konzultovala výsledky a připomínky průběžně zapracovávala. Kladně hodnotím rozsah i reprodukovatelnost realizovaných experimentů porovnání více předtrénovaných modelů různých architektur i velikostí. Výstupy práce mohou sloužit jako solidní materiál pro uvedení do problematiky a zároveň jako kvalitní základ pro další experimenty.

Určité nedostatky vykazuje teoretická část, zejména v popisu enkodérových architektur, kde se místy objevuje nevhodné rozčlenění popisovaných prvků a méně vhodně zvolené příklady spíše z oblasti zpracování textu než audia. Zároveň je text místy rozvleklý a některé informace se opakují ve více částech práce. Jinak je ovšem celek po odborné stránce na velmi dobré úrovni. Studentka využívá relevantní odbornou literaturu a mimo zmiňované nedostatky se v základních principech orientuje dobře.

Formální stránka dokumentu mírně snižuje celkový dojem. Objevují se tabulky přesahující sazbu a opakované použití rastrové grafiky tam, kde by byla vhodnější grafika vektorová. Seznam literatury není zpracován zcela jednotně a zejména u online zdrojů plně neodpovídá požadované citační normě. Struktura elektronické přílohy mohla být navíc vhodněji začleněna do části věnované přílohám. Tyto nedostatky však nesnižují skutečnost, že zadání bylo splněno v plné míře a že se jedná o velmi kvalitně zpracovanou diplomovou práci. Points proposed by supervisor: 92

Grade proposed by supervisor: A

Reviewer’s report
Ing. Richard Ladislav

Diplomová práce se zabývá velice aktuálním tématem využití předtrénovaných modelů pro extrakci akustických reprezentací v úloze detekce hypokinetické dysartrie u pacientů trpících Parkinsonovou nemocí. Studentka v dostatečné míře zvládla nastudovat a popsat dvě náročná témata, a to projevy patologické řeči u neurodegenerativních onemocnění a problematiku předtrénovaných akustických modelů. Z formálního hlediska je práce dostatečná a ojedinělé typografické chyby se pohybují na hranici postřehnutelnosti. Z hlediska odbornosti je práce rovněž na dostatečné úrovni. Obzvlášť pozitivně hodnotím jasné vytyčení a následné adresování konkrétních výzkumných otázek. V práci je využívána kvalitní a koherentní metodologie. Studentka tedy splnila cíle práce v plné míře. Topics for thesis defence:

Adresovali jste nějak doplňování nulami (zero padding) při agregaci vektorů? Pokud ano, jak?
V práci reportujete nejlepší průměrnou agregační metodu jako kombinaci mezikvartilního intervalu a mediánu. Jak byste tento fakt interpretovala?

Points proposed by reviewer: 91

Grade proposed by reviewer: A

Responsibility: Mgr. et Mgr. Hana Odstrčilová

VUT

Faculties and university institutes

Parts

Utilizing acoustic representations from pre-trained models for the assessment of motor speech disorders