Přístupnostní navigace
E-přihláška
Vyhledávání Vyhledat Zavřít
diplomová práce
Autor práce: Bc. Tereza Beránková
Ak. rok: 2025/2026
Vedoucí: Ing. Kryštof Novotný
Oponent: Ing. Richard Ladislav
Diplomová práce se věnuje detekci hypokinetické dysartrie (Hypokinetic Dysarthria, HD) s využitím akustických modelů se sebeřízeným učením (Self–Supervised Learning, SSL). HD představuje častý projev neurodegenerativních onemocnění, jehož včasná detekce je klíčová pro sledování progrese nemoci. Současná klinická diagnostika je však často závislá na subjektivním hodnocení, což vytváří potřebu po objektivních, automatizovaných nástrojích založených na analýze řečového signálu. Hlavním cílem práce je ověřit využitelnost akustických embeddingů (vektorových reprezentací řečového signálu) extrahovaných z předtrénovaných modelů pro automatickou detekci této patologie. Zpracování rešerše současného stavu poznání v oblasti projevů HD, analýza architektury enkodérů, využití akustických embeddingů pro detekci HD. Na základě teoretických poznatků určit výzkumné otázky a připravit Python skripty pro extrakci embeddingů, agregaci pomocí statistických metod a klasifikaci. Výsledky porovnat pomocí klasifikačních parametrů a určit nejvhodnější kombinaci klasifikátoru, agregace a SSL modelu pro používanou datovou sadu (dataset). Pro potřeby výzkumných otázek byl využit menší dataset skládající se z 53 zdravých jedinců a 101 pacientů s Parkinsonovou chorobou (Parkinson’s Disease, PD). Byly využity modely Wav2Vec 2.0, Whisper a HuBERT v různých velikostních variantách a klasifikátory eXtreme Gradient Boosting (XGB), Support Vector Machine (SVM) a Multi-Layer Perceptron (MLP). Hlavním výstupem práce je zhodnocení účinnosti vybraných modelů pro automatickou klasifikaci pacientů s HD. Nejlepších výsledků dosáhl model Whisper, konkrétně Whisper Large v kombinaci s agregací embeddingů pomocí průměru a směrodatné odchylky (Standard Deviation, SD) a klasifikátorem SVM. Tato konfigurace dosáhla nejlepší hodnoty sledované metriky plochy pod křivkou relativní četnosti správných předpovědí (Area Under the Receiver Operating Characteristic Curve, ROC--AUC). Velmi dobrých výsledků v ostatních sledovaných metrikách dosahovaly rovněž modely Whisper Tiny a HuBERT XLarge.
Hypokinetická dysartie, analýza řeči, sebeřízené učení, akustické embeddingy, Transformer, Wav2vec 2.0, HuBERT, Whisper, enkodér, extrakce embeddingů, agregace embeddingů, klasifikace, eXtreme Gradient Boosting, Support Vector Machine, Multi-Layer Perceptron
Termín obhajoby
11.06.2026
Výsledek obhajoby
obhájeno (práce byla úspěšně obhájena)
Klasifikace
A
Průběh obhajoby
Studentka prezentovala výsledky své práce a komise byla seznámena s posudky. Otázky oponenta a komise: Adresovali jste nějak doplňování nulami (zero padding) při agregaci vektorů? Pokud ano, jak? V práci reportujete nejlepší průměrnou agregační metodu jako kombinaci mezikvartilního intervalu a mediánu. Jak byste tento fakt interpretovala? Jaké nejvyšší úspěšnosti bylo při klasifikaci dosaženo? Studentka obhájila diplomovou práci a odpověděla na otázky členů komise a oponenta.
Jazyk práce
čeština
Fakulta
Fakulta elektrotechniky a komunikačních technologií
Ústav
Ústav telekomunikací
Studijní program
Audio inženýrství (MPC-AUD)
Specializace
Zvuková produkce a nahrávání (AUDM-ZVUK)
Složení komise
PhDr. Aleš Dvořák (člen) prof. Ing. Jiří Mekyska, Ph.D. (předseda) doc. Ing. MgA. Mgr. Dan Dlouhý, Ph.D. (místopředseda) Ing. Miroslav Balík, Ph.D. (člen) Ing. Michal Švento (člen)
Posudek vedoucíhoIng. Kryštof Novotný
Známka navržená vedoucím: A
Posudek oponentaIng. Richard Ladislav
Známka navržená oponentem: A
Odpovědnost: Mgr. et Mgr. Hana Odstrčilová