diplomová práce

Využití jazykových reprezentací z předtrénovaných modelů pro hodnocení kognitivního stavu pacientů

Text práce 2.5 MB Příloha 116.31 kB

Autor práce: Bc. Jiří Vahalík

Ak. rok: 2025/2026

Vedoucí: Ing. Kryštof Novotný

Oponent: Ing. Richard Ladislav

Abstrakt:

Práce se zabývá využitím jazykových reprezentací z předtrénovaných enkodérových modelů pro hodnocení kognitivního stavu pacientů na základě přepisů spontánní řeči. Automatická transkripce se realizuje pomocí modelu Whisper large-v3, extrakce embeddingů pak modely RoBERTa, DistilBERT a DistilRoBERTa a klasifikace pomocí SVM, XGBoost a MLP.Jednotlivé kroky jsou spojeny do reprodukovatelného řetězce vyhodnoceného na databázi DementiaBank. Systematicky je zkoumán vliv volby klasifikátoru, embeddingového modelu a poolingové strategie na schopnost rozlišit subjekty s normální kondicí od osob s mírnou kognitivní poruchou. Nejlepší kombinace dosáhla průměrné AUC 0,737.

Klíčová slova:

zpracování řeči; embeddingy; sémantická podobnost; ASR; Alzheimerova choroba (AD); mírná kognitivní porucha (MCI); jazykové biomarkery; neurodegenerativní onemocnění; BERT; RoBERTa; DementiaBank; Support Vector Machine (SVM); XGBoost; Multilayer Perceptron (MLP)

Termín obhajoby

11.06.2026

Výsledek obhajoby

obhájeno (práce byla úspěšně obhájena)

znamkaAznamka

Klasifikace

A

Průběh obhajoby

Student prezentoval výsledky své práce a komise byla seznámena s posudky. Otázky oponenta a komise: V práci reportujete nejlepší průměrnou agregační metodu jako kombinaci mezikvartilního intervalu a mediánu. Jak byste tento fakt interpretovali? U algoritmu XGBoost je ve vaší práci možné pozorovat vysokou variabilitu výpočetního času. Který z hyperparametrů považujete za největší zdroj této nekonzistentnosti? Popište praktické provedení experimentů ve Vaší práci a Váš přínos (implementaci, strukturalizaci, testování...). Student obhájil diplomovou práci a odpověděl na otázky členů komise a oponenta.

Jazyk práce

čeština

Fakulta

Ústav

Studijní program

Audio inženýrství (MPC-AUD)

Specializace

Zvuková produkce a nahrávání (AUDM-ZVUK)

Složení komise

PhDr. Aleš Dvořák (člen)
prof. Ing. Jiří Mekyska, Ph.D. (předseda)
doc. Ing. MgA. Mgr. Dan Dlouhý, Ph.D. (místopředseda)
Ing. Miroslav Balík, Ph.D. (člen)
Ing. Michal Švento (člen)

Posudek vedoucího
Ing. Kryštof Novotný

Student se ve své práci zabýval využitím jazykových reprezentací z předtrénovaných modelů pro hodnocení kognitivního stavu pacientů. To obnášelo nastudování problematiky z několika oblastí (mírná kognitivní porucha a její projevy v řeči, metody zpracování textu pomocí předtrénovaných jazykových modelů, práce s extrahovanými latentními reprezentacemi...), návrh vlastních výzkumných otázek a souvisejících klasifikačních experimentů, přípravu kódu (automatická transkripce řečových nahrávek, extrakce a zpracování embeddingů, trénování a vyhodnocení pomocí klasifikátorů...) a závěrečnou evaluaci získaných výsledků. Tím byly naplněny všechny cíle práce.

Student během semestru aktivně komunikoval, pravidelně konzultoval výsledky a připomínky průběžně zapracovával. Kladně hodnotím jeho samostatnost, systematický návrh reprodukovatelných experimentů a skutečnost, že student v textu upozorňuje na limitace provedených analýz. Výstupy práce mohou sloužit jako výborný úvod do problematiky a zároveň jako kvalitní základ pro další výzkum.

Práce je po odborné stránce na velmi dobré úrovni. Student využívá relevantní odbornou literaturu a orientuje se v multidisciplinární problematice. Drobné nedostatky se týkají především formální stránky a stylu dokumentu. Text je místy rozvleklý, některé informace jsou opakovány ve více částech práce a dokument není zcela konzistentní v používání zkratek, tabulek a dodatečného formátování textu. Tyto nedostatky však nesnižují celkově vysokou úroveň práce. Výsledný počet bodů navržený vedoucím: 95

Známka navržená vedoucím: A

Posudek oponenta
Ing. Richard Ladislav

Diplomová práce se věnuje aktuálnímu, až emergentnímu tématu hodnocení kognitivního stavu pacientů trpících neurodegenerativními onemocněními s využitím reprezentací extrahovaných z předtrénovaných modelů. Student pracuje s aktuální literaturou v dostatečné míře, a tedy i technologie, se kterými pracuje, jsou vysoce aktuální a relevantní. Z formálního hlediska se v práci zřídka vyskytují mírné nedostatky, například špatné formátování tabulek apod. Text práce je celkově na vysoké jazykové úrovni, trpí však jistou redundancí a celkově by jeho čitelnosti prospěla jistá kondenzace textu. Taktéž se občas v textu objevuje nekonzistence používaných pojmů. Navzdory těmto nedostatkům je však technická zpráva jako celek koherentní a logicky uspořádaná. Z metodologického hlediska práci není co vytknout. Velkým plusem je jasné vymezení a zodpovězení konkrétních výzkumných otázek. Výsledky analýz jsou relevantní, dobře reportované a případné nedostatky jsou plně adresované v limitacích práce. Student tak splnil cíle práce v plné míře. Otázky k obhajobě:
  1. V práci reportujete nejlepší průměrnou agregační metodu jako kombinaci mezikvartilního intervalu a mediánu. Jak byste tento fakt interpretovali?
  2. U algoritmu XGBoost je ve vaší práci možné pozorovat vysokou variabilitu výpočetního času. Který z hyperparametrů považujete za největší zdroj této nekonzistentnosti?
Výsledný počet bodů navržený oponentem: 90

Známka navržená oponentem: A

Odpovědnost: Mgr. et Mgr. Hana Odstrčilová