diplomová práce

Využití akustických reprezentací z předtrénovaných modelů pro hodnocení motorických poruch řeči

Text práce 2.32 MB Příloha 13.45 kB

Autor práce: Bc. Tereza Beránková

Ak. rok: 2025/2026

Vedoucí: Ing. Kryštof Novotný

Oponent: Ing. Richard Ladislav

Abstrakt:

Diplomová práce se věnuje detekci hypokinetické dysartrie (Hypokinetic Dysarthria, HD) s využitím akustických modelů se sebeřízeným učením (Self–Supervised Learning, SSL).

HD představuje častý projev neurodegenerativních onemocnění, jehož včasná detekce je klíčová pro sledování progrese nemoci. Současná klinická diagnostika je však často závislá na subjektivním hodnocení, což vytváří potřebu po objektivních, automatizovaných nástrojích založených na analýze řečového signálu.

Hlavním cílem práce je ověřit využitelnost akustických embeddingů (vektorových reprezentací řečového signálu) extrahovaných z předtrénovaných modelů pro automatickou detekci této patologie. Zpracování rešerše současného stavu poznání v oblasti projevů HD, analýza architektury enkodérů, využití akustických embeddingů pro detekci HD. Na základě teoretických poznatků určit výzkumné otázky a připravit Python skripty pro extrakci embeddingů, agregaci pomocí statistických metod a klasifikaci. Výsledky porovnat pomocí klasifikačních parametrů a určit nejvhodnější kombinaci klasifikátoru, agregace a SSL modelu pro používanou datovou sadu (dataset).

Pro potřeby výzkumných otázek byl využit menší dataset skládající se z 53 zdravých jedinců a 101 pacientů s Parkinsonovou chorobou (Parkinson’s Disease, PD).

Byly využity modely Wav2Vec 2.0, Whisper a HuBERT v různých velikostních variantách a klasifikátory eXtreme Gradient Boosting (XGB), Support Vector Machine (SVM) a Multi-Layer Perceptron (MLP).

Hlavním výstupem práce je zhodnocení účinnosti vybraných modelů pro automatickou klasifikaci pacientů s HD. Nejlepších výsledků dosáhl model Whisper, konkrétně Whisper Large v kombinaci s agregací embeddingů pomocí průměru a směrodatné odchylky (Standard Deviation, SD) a klasifikátorem SVM. Tato konfigurace dosáhla nejlepší hodnoty sledované metriky plochy pod křivkou relativní četnosti správných předpovědí (Area Under the Receiver Operating Characteristic Curve, ROC--AUC). Velmi dobrých výsledků v ostatních sledovaných metrikách dosahovaly rovněž modely Whisper Tiny a HuBERT XLarge.

Klíčová slova:

Hypokinetická dysartie, analýza řeči, sebeřízené učení, akustické embeddingy, Transformer, Wav2vec 2.0, HuBERT, Whisper, enkodér, extrakce embeddingů, agregace embeddingů, klasifikace, eXtreme Gradient Boosting, Support Vector Machine, Multi-Layer Perceptron

Termín obhajoby

11.06.2026

Výsledek obhajoby

obhájeno (práce byla úspěšně obhájena)

znamkaAznamka

Klasifikace

A

Průběh obhajoby

Studentka prezentovala výsledky své práce a komise byla seznámena s posudky. Otázky oponenta a komise: Adresovali jste nějak doplňování nulami (zero padding) při agregaci vektorů? Pokud ano, jak? V práci reportujete nejlepší průměrnou agregační metodu jako kombinaci mezikvartilního intervalu a mediánu. Jak byste tento fakt interpretovala? Jaké nejvyšší úspěšnosti bylo při klasifikaci dosaženo? Studentka obhájila diplomovou práci a odpověděla na otázky členů komise a oponenta.

Jazyk práce

čeština

Fakulta

Ústav

Studijní program

Audio inženýrství (MPC-AUD)

Specializace

Zvuková produkce a nahrávání (AUDM-ZVUK)

Složení komise

PhDr. Aleš Dvořák (člen)
prof. Ing. Jiří Mekyska, Ph.D. (předseda)
doc. Ing. MgA. Mgr. Dan Dlouhý, Ph.D. (místopředseda)
Ing. Miroslav Balík, Ph.D. (člen)
Ing. Michal Švento (člen)

Posudek vedoucího
Ing. Kryštof Novotný

Studentka se ve své práci zabývala využitím akustických reprezentací z předtrénovaných modelů pro hodnocení motorických poruch řeči, konkrétně hypokinetické dysartrie. To obnášelo nastudování problematiky z několika oblastí (motorické poruchy řeči, metody zpracování nahrávek řeči pomocí předtrénovaných modelů, práce s extrahovanými latentními reprezentacemi...), návrh vlastních výzkumných otázek a souvisejících klasifikačních experimentů, přípravu kódu (statistika nad metadaty datasetu, extrakce a zpracování embeddingů, trénování a vyhodnocení pomocí klasifikátorů...) a závěrečnou evaluaci získaných výsledků. Tím byly naplněny všechny cíle práce.

Studentka během semestru aktivně komunikovala, pravidelně konzultovala výsledky a připomínky průběžně zapracovávala. Kladně hodnotím rozsah i reprodukovatelnost realizovaných experimentů  porovnání více předtrénovaných modelů různých architektur i velikostí. Výstupy práce mohou sloužit jako solidní materiál pro uvedení do problematiky a zároveň jako kvalitní základ pro další experimenty.

Určité nedostatky vykazuje teoretická část, zejména v popisu enkodérových architektur, kde se místy objevuje nevhodné rozčlenění popisovaných prvků a méně vhodně zvolené příklady spíše z oblasti zpracování textu než audia. Zároveň je text místy rozvleklý a některé informace se opakují ve více částech práce. Jinak je ovšem celek po odborné stránce na velmi dobré úrovni. Studentka využívá relevantní odbornou literaturu a mimo zmiňované nedostatky se v základních principech orientuje dobře.

Formální stránka dokumentu mírně snižuje celkový dojem. Objevují se tabulky přesahující sazbu a opakované použití rastrové grafiky tam, kde by byla vhodnější grafika vektorová. Seznam literatury není zpracován zcela jednotně a zejména u online zdrojů plně neodpovídá požadované citační normě. Struktura elektronické přílohy mohla být navíc vhodněji začleněna do části věnované přílohám. Tyto nedostatky však nesnižují skutečnost, že zadání bylo splněno v plné míře a že se jedná o velmi kvalitně zpracovanou diplomovou práci. Výsledný počet bodů navržený vedoucím: 92

Známka navržená vedoucím: A

Posudek oponenta
Ing. Richard Ladislav

Diplomová práce se zabývá velice aktuálním tématem využití předtrénovaných modelů pro extrakci akustických reprezentací v úloze detekce hypokinetické dysartrie u pacientů trpících Parkinsonovou nemocí. Studentka v dostatečné míře zvládla nastudovat a popsat dvě náročná témata, a to projevy patologické řeči u neurodegenerativních onemocnění a problematiku předtrénovaných akustických modelů. Z formálního hlediska je práce dostatečná a ojedinělé typografické chyby se pohybují na hranici postřehnutelnosti. Z hlediska odbornosti je práce rovněž na dostatečné úrovni. Obzvlášť pozitivně hodnotím jasné vytyčení a následné adresování konkrétních výzkumných otázek. V práci je využívána kvalitní a koherentní metodologie. Studentka tedy splnila cíle práce v plné míře. Otázky k obhajobě:
  1. Adresovali jste nějak doplňování nulami (zero padding) při agregaci vektorů? Pokud ano, jak?
  2. V práci reportujete nejlepší průměrnou agregační metodu jako kombinaci mezikvartilního intervalu a mediánu. Jak byste tento fakt interpretovala?
Výsledný počet bodů navržený oponentem: 91

Známka navržená oponentem: A

Odpovědnost: Mgr. et Mgr. Hana Odstrčilová