Master's Thesis

Utilizing linguistic representations from pre-trained models for the assessment of patients' cognitive state

Final Thesis 2.5 MB Appendix 116.31 kB

Author of thesis: Ing. Jiří Vahalík

Acad. year: 2025/2026

Abstract:

This thesis investigates the use of linguistic representations extracted from
pre-trained encoder models for assessing the cognitive state of patients based on transcripts of spontaneous speech. Automatic speech recognition is using Whisper large-v3, embedding extraction via RoBERTa, DistilBERT and
DistilRoBERTa, and classification using SVM, XGBoost and MLP are combined into a reproducible pipeline evaluated on the DementiaBank corpus. The effect of the classifier, embedding model and pooling strategy on the ability to distinguish normal condition group from subjects with mild cognitive impairment is systematically examined. The best combination achieved an average AUC of 0.737.

Keywords:

speech processing; embeddings; semantic similarity; ASR; Alzheimer's disease (AD); Mild Cognitive Impairment (MCI); linguistic biomarkers; neurodegeneration; BERT; RoBERTa; DementiaBank; Support Vector Machine (SVM); XGBoost; Multilayer Perceptron (MLP)

Date of defence

11.06.2026

Result of the defence

Defended (thesis was successfully defended)

znamkaAznamka

Grading

Process of defence

Student prezentoval výsledky své práce a komise byla seznámena s posudky. Otázky oponenta a komise: V práci reportujete nejlepší průměrnou agregační metodu jako kombinaci mezikvartilního intervalu a mediánu. Jak byste tento fakt interpretovali? U algoritmu XGBoost je ve vaší práci možné pozorovat vysokou variabilitu výpočetního času. Který z hyperparametrů považujete za největší zdroj této nekonzistentnosti? Popište praktické provedení experimentů ve Vaší práci a Váš přínos (implementaci, strukturalizaci, testování...). Student obhájil diplomovou práci a odpověděl na otázky členů komise a oponenta.

Language of thesis

Czech

Faculty

Fakulta elektrotechniky a komunikačních technologií

Department

Department of Telecommunications

Study programme

Audio Engineering (MPC-AUD)

Specialization

Audio Production and Recording (AUDM-ZVUK)

Composition of Committee

PhDr. Aleš Dvořák (člen)
prof. Ing. Jiří Mekyska, Ph.D. (předseda)
doc. Ing. MgA. Mgr. Dan Dlouhý, Ph.D. (místopředseda)
Ing. Miroslav Balík, Ph.D. (člen)
Ing. Michal Švento (člen)

Supervisor’s report
Ing. Kryštof Novotný

Student se ve své práci zabýval využitím jazykových reprezentací z předtrénovaných modelů pro hodnocení kognitivního stavu pacientů. To obnášelo nastudování problematiky z několika oblastí (mírná kognitivní porucha a její projevy v řeči, metody zpracování textu pomocí předtrénovaných jazykových modelů, práce s extrahovanými latentními reprezentacemi...), návrh vlastních výzkumných otázek a souvisejících klasifikačních experimentů, přípravu kódu (automatická transkripce řečových nahrávek, extrakce a zpracování embeddingů, trénování a vyhodnocení pomocí klasifikátorů...) a závěrečnou evaluaci získaných výsledků. Tím byly naplněny všechny cíle práce.

Student během semestru aktivně komunikoval, pravidelně konzultoval výsledky a připomínky průběžně zapracovával. Kladně hodnotím jeho samostatnost, systematický návrh reprodukovatelných experimentů a skutečnost, že student v textu upozorňuje na limitace provedených analýz. Výstupy práce mohou sloužit jako výborný úvod do problematiky a zároveň jako kvalitní základ pro další výzkum.

Práce je po odborné stránce na velmi dobré úrovni. Student využívá relevantní odbornou literaturu a orientuje se v multidisciplinární problematice. Drobné nedostatky se týkají především formální stránky a stylu dokumentu. Text je místy rozvleklý, některé informace jsou opakovány ve více částech práce a dokument není zcela konzistentní v používání zkratek, tabulek a dodatečného formátování textu. Tyto nedostatky však nesnižují celkově vysokou úroveň práce. Points proposed by supervisor: 95

Grade proposed by supervisor: A

Reviewer’s report
Ing. Richard Ladislav

Diplomová práce se věnuje aktuálnímu, až emergentnímu tématu hodnocení kognitivního stavu pacientů trpících neurodegenerativními onemocněními s využitím reprezentací extrahovaných z předtrénovaných modelů. Student pracuje s aktuální literaturou v dostatečné míře, a tedy i technologie, se kterými pracuje, jsou vysoce aktuální a relevantní. Z formálního hlediska se v práci zřídka vyskytují mírné nedostatky, například špatné formátování tabulek apod. Text práce je celkově na vysoké jazykové úrovni, trpí však jistou redundancí a celkově by jeho čitelnosti prospěla jistá kondenzace textu. Taktéž se občas v textu objevuje nekonzistence používaných pojmů. Navzdory těmto nedostatkům je však technická zpráva jako celek koherentní a logicky uspořádaná. Z metodologického hlediska práci není co vytknout. Velkým plusem je jasné vymezení a zodpovězení konkrétních výzkumných otázek. Výsledky analýz jsou relevantní, dobře reportované a případné nedostatky jsou plně adresované v limitacích práce. Student tak splnil cíle práce v plné míře. Topics for thesis defence:

V práci reportujete nejlepší průměrnou agregační metodu jako kombinaci mezikvartilního intervalu a mediánu. Jak byste tento fakt interpretovali?
U algoritmu XGBoost je ve vaší práci možné pozorovat vysokou variabilitu výpočetního času. Který z hyperparametrů považujete za největší zdroj této nekonzistentnosti?

Points proposed by reviewer: 90

Grade proposed by reviewer: A

Responsibility: Mgr. et Mgr. Hana Odstrčilová

VUT

Faculties and university institutes

Parts

Utilizing linguistic representations from pre-trained models for the assessment of patients' cognitive state