diplomová práce

Automatická detekce hypokinetické dysartrie s využitím x-vektorů

Text práce 3.58 MB Příloha 464.42 kB

Autor práce: Bc. Josef Macek

Ak. rok: 2025/2026

Vedoucí: Ing. Daniel Kováč, Ph.D.

Oponent: Ing. Richard Ladislav

Abstrakt:

Cílem této diplomové práce je ověřit využitelnost interpretovatelných řečových biomarkerů a hlubokých řečových reprezentací pro automatickou klasifikaci osob s Parkinsonovou nemocí a zdravých kontrol. Práce vychází z předpokladu, že Parkinsonova nemoc
ovlivňuje řečovou produkci, zejména v souvislosti s hypokinetickou dysartrií, a že tyto
změny lze zachytit pomocí akustických a hlubokých řečových příznaků.
Experimentální část je založena na databázi spontánních monologů. Využity jsou upravené interpretovatelné řečové biomarkery a x-vektorové reprezentace extrahované pomocí
předtrénovaného modelu ECAPA-TDNN. Pro klasifikaci byly navrženy a porovnány tři
způsoby kombinace obou typů příznaků: pozdní fúze, časná fúze a hybridní fúze. Biomarkerové modely a modely časné a hybridní fúze využívají algoritmus XGBoost s laděním
hyperparametrů pomocí Optuny, zatímco x-vektorová větev a meta-model pozdní fúze
jsou založeny na logistické regresi. Finální vyhodnocení bylo provedeno metodou vynechání jednoho vzorku.
Dosažené výsledky ukazují, že x-vektorové reprezentace poskytují výraznější diskriminační
informaci než samostatné interpretovatelné biomarkery. Samostatný x-vektorový model
založený na logistické regresi dosáhl přesnosti 0,7519 a hodnoty AUC 0,8045, zatímco
biomarkerový model s algoritmem XGBoost dosáhl přesnosti 0,6589 a hodnoty AUC
0,6878. Fúzní přístupy umožnily propojit výkonnost hlubokých reprezentací s informací
obsaženou v interpretovatelných biomarkerech, jejich přínos však závisel na konkrétním
způsobu kombinace příznaků. Z fúzních přístupů byla nejúspěšnější hybridní fúze, která
dosáhla přesnosti 0,7597 a hodnoty AUC 0,8117. Výsledky potvrzují potenciál automatické analýzy řeči pro hodnocení řečových projevů Parkinsonovy nemoci, zároveň je
však nutné interpretovat je s ohledem na omezenou velikost datového souboru, použitý
validační protokol a možný vliv individuálních rozdílů mezi mluvčími.

Klíčová slova:

ECAPA-TDNN, fúze příznaků, hypokinetická dysartrie, Optuna, Parkinsonova nemoc, řečový biomarker, XGBoost, x-vektor

Termín obhajoby

11.06.2026

Výsledek obhajoby

obhájeno (práce byla úspěšně obhájena)

znamkaAznamka

Klasifikace

A

Průběh obhajoby

Student prezentoval výsledky své práce a komise byla seznámena s posudky. Student obhájil diplomovou práci a odpověděl na otázky členů komise a oponenta. Otázky oponenta: Čím si vysvětlujete zlepšení výsledků při využití principu hybridní fúze v porovnání s principy časné a pozdní fúze?

Jazyk práce

čeština

Fakulta

Ústav

Studijní program

Audio inženýrství (MPC-AUD)

Specializace

Zvuková produkce a nahrávání (AUDM-ZVUK)

Složení komise

prof. Ing. Zdeněk Smékal, CSc. (předseda)
Ing.MgA. Edgar Mojdl, Ph.D. (místopředseda)
Dr. Ing. Libor Husník (člen)
Ing. Václav Mach, Ph.D. (člen)
Ing. Matěj Ištvánek, Ph.D. (člen)

Posudek vedoucího
Ing. Daniel Kováč, Ph.D.

Student během řešení diplomové práce pracoval aktivně, pravidelně konzultoval postup řešení a průběžně reagoval na připomínky. Prokázal schopnost samostatně pracovat s odbornou literaturou a osvojit si metody z oblasti automatické analýzy řeči a strojového učení. Stanovené cíle práce byly splněny v plném rozsahu. Student provedl rešerši problematiky, navrhl a implementoval experimentální systém a realizoval rozsáhlé experimenty zaměřené na porovnání různých přístupů ke klasifikaci řečových nahrávek. Oceňuji zejména systematické vyhodnocení dosažených výsledků. Technická zpráva je přehledně strukturovaná a na velmi dobré odborné úrovni. Výsledky jsou prezentovány srozumitelně a vhodně diskutovány. V práci se místy objevují méně přesné formulace a některé části by si zasloužily podrobnější teoretické zdůvodnění, tyto nedostatky však nesnižují celkovou kvalitu předloženého řešení. Student prokázal schopnost samostatně řešit odborný problém a splnil požadavky kladené na diplomovou práci. Práci celkově hodnotím výborně. Výsledný počet bodů navržený vedoucím: 94

Známka navržená vedoucím: A

Posudek oponenta
Ing. Richard Ladislav

Téma diplomové práce, zaměřené na detekci hypokinetické dysartrie pomocí jednorozměrných hlubokých reprezentací řečového signálu, je velice aktuální. Text samotné technické zprávy je na vysoké jazykové úrovni, pracuje s aktuální literaturou a i po formální stránce je mu těžko co vytknout. Z metodologického hlediska student používá robustní a validní postupy. Obzvlášť oceňuji adresování problému zavádějících faktorů. Zajímavým postupem je také využití analýzy hlavních komponent pro navazující redukci rozměru latentního prostoru x-vektorů. Z výše uvedených důvodů proto usuzuji, že student splnil cíle práce v plné míře. Otázky k obhajobě:
  1. Čím si vysvětlujete zlepšení výsledků při využití principu hybridní fúze v porovnání s principy časné a pozdní fúze?
Výsledný počet bodů navržený oponentem: 93

Známka navržená oponentem: A

Odpovědnost: Mgr. et Mgr. Hana Odstrčilová