Master's Thesis

Effective Training of Neural Networks for Automatic Speech Recognition

Final Thesis 2.33 MB

Author of thesis: Bc. Matej Horník

Acad. year: 2024/2025

Supervisor: Ing. Alexander Polok

Reviewer: Ing. Martin Kocour

Abstract:

This master's thesis focuses on improving the training efficiency and performance of encoder-decoder transformer models for Automatic Speech Recognition (ASR). It investigates the impact of initialization strategies using pre-trained components (Wav2Vec2, BART), the role of convolutional adapters, and Parameter-Efficient Fine-tuning (PEFT) methods like LoRA and DoRA. Experiments on LibriSpeech and VoxPopuli datasets confirmed that full pre-trained initialization is crucial for best Word Error Rate (WER) and convergence. An optimal number of adapters improved performance, while PEFT (especially LoRA) significantly reduced trainable parameters with comparable accuracy. Domain-specific encoder pre-training proved beneficial, and the encoder-decoder model outperformed a CTC baseline in accuracy. Notably, an optimized configuration achieved a Word Error Rate of 8.85\% on the VoxPopuli English test set. These findings offer practical insights for efficient ASR training.

Keywords:

automatic speech recognition, deep learning, transformer models, encoder-decoder models, pre-trained models, parameter-efficient fine-tuning, PEFT, LoRA, DoRA, adapter layers, initialization strategies, Wav2Vec2, BART, word error rate, WER, sequence-to-sequence learning, self-supervised learning, cross-attention, fine-tuning, LibriSpeech, VoxPopuli, computational efficiency, neural networks, language models

Date of defence

24.06.2025

Result of the defence

Defended (thesis was successfully defended)

znamkaAznamka

Grading

A

Process of defence

Student nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta a na další otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm A.

Topics for thesis defence

  1. V části 5.4.1 uvádíte, že při fine-tuningu předtrénovaných encoderů a decoderů používáte vyšší learning rate, zatímco při trénování from scratch nižší. Obecně se ale v literatuře doporučuje spíše opačný přístup, t.j. nízký learning rate při fine-tuningu a vyšší při trénování "from scratch". Můžete prosím vysvětlit, jaký je důvod tohoto nastavení a zda by nízký learning rate při trénování "from scratch" mohl vysvětlit slabší výsledky na datasetu LibriSpeech (Tabulka 5.2)?
  2. Mělo by smysl při porovnání dotrénovat menší modely na konkretní dataset?

Language of thesis

English

Faculty

Department

Study programme

Information Technology and Artificial Intelligence (MITAI)

Specialization

Machine Learning (NMAL)

Composition of Committee

prof. Dr. Ing. Jan Černocký (předseda)
doc. Ing. Lukáš Burget, Ph.D. (člen)
doc. Ing. Vladimír Janoušek, Ph.D. (člen)
Ing. Michal Hradiš, Ph.D. (člen)
Ing. Jaroslav Rozman, Ph.D. (člen)
Ing. František Grézl, Ph.D. (člen)

Supervisor’s report
Ing. Alexander Polok

Celkově jsem s provedenou diplomovou prací velmi spokojen. Student odvedl kvalitní výzkumnou práci, jejíž jádrem byly pečlivě navržené a provedené experimenty. Zejména oceňuji, že se mu podařilo překonat ESPnet baseline o 2,5 % absolutní hodnoty WER na datasetu VoxPopuli.

Evaluation criteria Verbal classification
Informace k zadání

Tato diplomová práce měla výzkumný charakter a jednalo se o středně náročné zadání. Student úspěšně natrénoval sadu systémů pro automatické rozpoznávání řeči, analyzoval přístupy ke zefektivnění trénování s využitím minimálních výpočetních prostředků a vylepšil referenční systém ESPnet o 2,5 % absolutní hodnoty WER (referenční systém měl téměř dvojnásobný počet parametrů), což přesně odpovídalo zadání. Práce nenavazovala přímo na žádný existující projekt a představovala převážně samostatné výzkumné úsilí. S výsledky jsem celkově velmi spokojen.

Aktivita při dokončování

První verze práce byla dokončena s bezmála měsíčním předstihem. Následně byly studentovi poskytnuty připomínky, které zapracoval, a téměř finální verze práce byla hotova přibližně dva týdny před oficiálním termínem odevzdání.

Publikační činnost, ocenění

Není mi známo.

Práce s literaturou

Student při řešení diplomové práce prokázal výraznou aktivitu v získávání a studiu relevantních materiálů. V práci cituje celkem 147 zdrojů (některé bohužel duplicitní). Šíře pokrytí je působivá, nicméně místy by bylo vhodnější zaměřit se hlouběji na vybrané klíčové práce.

Aktivita během řešení, konzultace, komunikace

Student byl během řešení diplomové práce velmi aktivní. Docházel na pravidelné konzultace, na které byl vždy výborně připraven a přinášel nové výsledky k diskusi. V případě nejasností sám inicioval konzultace a o průběhu práce průběžně informoval také prostřednictvím komunikační platformy Discord.

Points proposed by supervisor: 90

Grade proposed by supervisor: A

Reviewer’s report
Ing. Martin Kocour

Jedná se o kvalitní práci, ve které student navrhl a implementoval několik různých přístupů k adaptaci předtrénovaných modelů na cílovou doménu. Experimentální část technické zprávy by však zasloužila několik úprav, které by práci dále zlepšily.

Evaluation criteria Verbal classification Points
Rozsah splnění požadavků zadání

Evaluation level: zadání splněno

Zadání bylo splněno v plném rozsahu a práce v některých ohledech původní rámec i mírně překročila.

Rozsah technické zprávy

Evaluation level: je v obvyklém rozmezí

Prezentační úroveň technické zprávy
  • Teoretická část práce je dobře strukturovaná a srozumitelná – text se čte plynule a navazuje logicky.
  • Určitý problém však představuje rozvržení kapitol věnovaných experimentům. Student zvolil pojmenování kapitol podle chronologického pořadí jejich provedení („Experimental Setup 1, 2, …“), což ztěžuje orientaci a nenaznačuje jejich tematické zaměření. Vhodnější by bylo členění podle cílů experimentů, např. tvorba baselinu, efektivita extrakce příznaků, využití low-rank adaptací nebo dekódování na VoxPopuli.
  • Další výhrada se týká jednotné a poněkud umělé struktury jednotlivých experimentů (popis, design, výsledky, závěr), která působí šablonovitě a potlačuje přirozené plynutí textu. Uvolněnější a kontextovější prezentace by práci prospěla.
  • V experimentech zaměřených na extrakci příznaků student porovnává dopad přidávání dalších konvolučních vrstev. Tento experiment je především motivován tím, že modely BART a Wav2Vec mají odlišnou granularitu výstupů – zatímco výstup Wav2Vec reprezentuje přibližně 25 ms řeči, výstup BART modelu odpovídá zhruba čtyřem znakům (characterům). Proto bych ocenil, kdyby autor v tabulkách 5.7 a 5.8 doplnil sloupec s hodnotou výstupní frekvence (output rate) encoderu Wav2Vec. Toto by pomohlo lépe interpretovat výsledky a porovnat efektivitu jednotlivých vrstev vzhledem k časové granularitě vstupních reprezentací.
  • Celkově však formální stránka práce splňuje požadavky a text je srozumitelný i pro čtenáře, který není detailně obeznámen s tématem.
83
Formální úprava technické zprávy

Práce je po formální stránce zpracována kvalitně. Je psána v LaTeXu, neobsahuje překlepy ani gramatické chyby. Jisté nedostatky se však vyskytují v oblasti citací:

  • v odkaze [32] chybí název publikace od Marka Galesa a Steva Younga (The Application of Hidden Markov Models in Speech Recognition),
  • v odkazu [146] se vyskytují HTML tagy, které do názvu publikace nepatří. Tyto chyby by měly být při finální revizi odstraněny.
85
Práce s literaturou

Student cituje celkem 147 různých zdrojů, což je poměrně vysoké číslo pro diplomovou práci. Nicméně drtivá většina citací odkazuje na relevantní články z impaktovaných konferencí a prestižních publikací, což svědčí o pečlivém a rozsáhlém průzkumu dané problematiky.

95
Realizační výstup

Student vyvinul funkční technické řešení, které odpovídá cílům práce. Natrénované modely byly volně publikovány na platformě Hugging Face, kde jsou ihned dostupné k praktickému použití, například pro rozpoznávání parlamentních debat. Dokumentace k softwaru je dostatečná pro jeho využití i další rozvoj. 

95
Využitelnost výsledků

Práce se zabývá velmi aktuální a relevantní problematikou, konkrétně efektivním dotrénováním velkých předtrénovaných modelů na požadovanou doménu. Autor v experimentech předvádí různé přístupy k adaptaci těchto modelů a dosahuje zajímavých výsledků, které mohou být prakticky využitelné v oblasti zpracování řeči či přirozeného jazyka. Touto cestou bych rád autora motivoval k publikaci výsledků na odborné konferenci, i když současná podoba textu vyžaduje ještě určitou redakční úpravu.

Náročnost zadání

Evaluation level: průměrně obtížné zadání

Zadání práce lze hodnotit jako průměrně náročné. Hlavní obtíž spočívala v nutnosti nastudovat odbornou literaturu z oblasti zpracování přirozeného jazyka a porozumět principům trénování hlubokých neuronových sítí. Tyto oblasti kladou důraz na teoretické porozumění a schopnost samostatně se zorientovat v moderních nástrojích strojového učení, i přes omezené praktické zkušenosti, které student v této fázi studia může mít.

Topics for thesis defence:
  1. V části 5.4.1 uvádíte, že při fine-tuningu předtrénovaných encoderů a decoderů používáte vyšší learning rate, zatímco při trénování from scratch nižší. Obecně se ale v literatuře doporučuje spíše opačný přístup, t.j. nízký learning rate při fine-tuningu a vyšší při trénování "from scratch". Můžete prosím vysvětlit, jaký je důvod tohoto nastavení a zda by nízký learning rate při trénování "from scratch" mohl vysvětlit slabší výsledky na datasetu LibriSpeech (Tabulka 5.2)?
Points proposed by reviewer: 90

Grade proposed by reviewer: A

Responsibility: Mgr. et Mgr. Hana Odstrčilová