Přístupnostní navigace
E-application
Search Search Close
Master's Thesis
Author of thesis: Bc. Matej Horník
Acad. year: 2024/2025
Supervisor: Ing. Alexander Polok
Reviewer: Ing. Martin Kocour
This master's thesis focuses on improving the training efficiency and performance of encoder-decoder transformer models for Automatic Speech Recognition (ASR). It investigates the impact of initialization strategies using pre-trained components (Wav2Vec2, BART), the role of convolutional adapters, and Parameter-Efficient Fine-tuning (PEFT) methods like LoRA and DoRA. Experiments on LibriSpeech and VoxPopuli datasets confirmed that full pre-trained initialization is crucial for best Word Error Rate (WER) and convergence. An optimal number of adapters improved performance, while PEFT (especially LoRA) significantly reduced trainable parameters with comparable accuracy. Domain-specific encoder pre-training proved beneficial, and the encoder-decoder model outperformed a CTC baseline in accuracy. Notably, an optimized configuration achieved a Word Error Rate of 8.85\% on the VoxPopuli English test set. These findings offer practical insights for efficient ASR training.
automatic speech recognition, deep learning, transformer models, encoder-decoder models, pre-trained models, parameter-efficient fine-tuning, PEFT, LoRA, DoRA, adapter layers, initialization strategies, Wav2Vec2, BART, word error rate, WER, sequence-to-sequence learning, self-supervised learning, cross-attention, fine-tuning, LibriSpeech, VoxPopuli, computational efficiency, neural networks, language models
Date of defence
24.06.2025
Result of the defence
Defended (thesis was successfully defended)
Grading
A
Process of defence
Student nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta a na další otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm A.
Topics for thesis defence
Language of thesis
English
Faculty
Fakulta informačních technologií
Department
Department of Computer Graphics and Multimedia
Study programme
Information Technology and Artificial Intelligence (MITAI)
Specialization
Machine Learning (NMAL)
Composition of Committee
prof. Dr. Ing. Jan Černocký (předseda) doc. Ing. Lukáš Burget, Ph.D. (člen) doc. Ing. Vladimír Janoušek, Ph.D. (člen) Ing. Michal Hradiš, Ph.D. (člen) Ing. Jaroslav Rozman, Ph.D. (člen) Ing. František Grézl, Ph.D. (člen)
Supervisor’s reportIng. Alexander Polok
Celkově jsem s provedenou diplomovou prací velmi spokojen. Student odvedl kvalitní výzkumnou práci, jejíž jádrem byly pečlivě navržené a provedené experimenty. Zejména oceňuji, že se mu podařilo překonat ESPnet baseline o 2,5 % absolutní hodnoty WER na datasetu VoxPopuli.
Tato diplomová práce měla výzkumný charakter a jednalo se o středně náročné zadání. Student úspěšně natrénoval sadu systémů pro automatické rozpoznávání řeči, analyzoval přístupy ke zefektivnění trénování s využitím minimálních výpočetních prostředků a vylepšil referenční systém ESPnet o 2,5 % absolutní hodnoty WER (referenční systém měl téměř dvojnásobný počet parametrů), což přesně odpovídalo zadání. Práce nenavazovala přímo na žádný existující projekt a představovala převážně samostatné výzkumné úsilí. S výsledky jsem celkově velmi spokojen.
První verze práce byla dokončena s bezmála měsíčním předstihem. Následně byly studentovi poskytnuty připomínky, které zapracoval, a téměř finální verze práce byla hotova přibližně dva týdny před oficiálním termínem odevzdání.
Není mi známo.
Student při řešení diplomové práce prokázal výraznou aktivitu v získávání a studiu relevantních materiálů. V práci cituje celkem 147 zdrojů (některé bohužel duplicitní). Šíře pokrytí je působivá, nicméně místy by bylo vhodnější zaměřit se hlouběji na vybrané klíčové práce.
Student byl během řešení diplomové práce velmi aktivní. Docházel na pravidelné konzultace, na které byl vždy výborně připraven a přinášel nové výsledky k diskusi. V případě nejasností sám inicioval konzultace a o průběhu práce průběžně informoval také prostřednictvím komunikační platformy Discord.
Grade proposed by supervisor: A
Reviewer’s reportIng. Martin Kocour
Jedná se o kvalitní práci, ve které student navrhl a implementoval několik různých přístupů k adaptaci předtrénovaných modelů na cílovou doménu. Experimentální část technické zprávy by však zasloužila několik úprav, které by práci dále zlepšily.
Evaluation level: zadání splněno
Zadání bylo splněno v plném rozsahu a práce v některých ohledech původní rámec i mírně překročila.
Evaluation level: je v obvyklém rozmezí
Práce je po formální stránce zpracována kvalitně. Je psána v LaTeXu, neobsahuje překlepy ani gramatické chyby. Jisté nedostatky se však vyskytují v oblasti citací:
Student cituje celkem 147 různých zdrojů, což je poměrně vysoké číslo pro diplomovou práci. Nicméně drtivá většina citací odkazuje na relevantní články z impaktovaných konferencí a prestižních publikací, což svědčí o pečlivém a rozsáhlém průzkumu dané problematiky.
Student vyvinul funkční technické řešení, které odpovídá cílům práce. Natrénované modely byly volně publikovány na platformě Hugging Face, kde jsou ihned dostupné k praktickému použití, například pro rozpoznávání parlamentních debat. Dokumentace k softwaru je dostatečná pro jeho využití i další rozvoj.
Práce se zabývá velmi aktuální a relevantní problematikou, konkrétně efektivním dotrénováním velkých předtrénovaných modelů na požadovanou doménu. Autor v experimentech předvádí různé přístupy k adaptaci těchto modelů a dosahuje zajímavých výsledků, které mohou být prakticky využitelné v oblasti zpracování řeči či přirozeného jazyka. Touto cestou bych rád autora motivoval k publikaci výsledků na odborné konferenci, i když současná podoba textu vyžaduje ještě určitou redakční úpravu.
Evaluation level: průměrně obtížné zadání
Zadání práce lze hodnotit jako průměrně náročné. Hlavní obtíž spočívala v nutnosti nastudovat odbornou literaturu z oblasti zpracování přirozeného jazyka a porozumět principům trénování hlubokých neuronových sítí. Tyto oblasti kladou důraz na teoretické porozumění a schopnost samostatně se zorientovat v moderních nástrojích strojového učení, i přes omezené praktické zkušenosti, které student v této fázi studia může mít.
Grade proposed by reviewer: A
Responsibility: Mgr. et Mgr. Hana Odstrčilová