Bachelor's Thesis

Improving Bitrate Efficiency in Neural Audio Compression Systems

Final Thesis 19.41 MB

Author of thesis: Tristan Dobos

Acad. year: 2025/2026

Supervisor: Ing. Dominik Klement

Reviewer: Ing. Jan Brukner

Abstract:

This thesis compares NanoCodec and FocalCodec for neural speech coding at very low bitrates. It evaluates two bitrate reduction strategies: decreasing the token rate and decreasing the quantization capacity. The results show that reducing the quantization space too aggressively is more harmful than moderately reducing the token rate. NanoCodec achieves better results in most objective metrics and subjective listening comparisons. Additional experiments show that increasing model size improves reconstruction quality at 0.15 kpbs, while a deeper temporal structure does not.

Keywords:

neural audio codecs, neural compression, audio compression, low bitrate, deep learning, artificial intelligence, speech processing, FocalCodec, NanoCodec

Date of defence

17.06.2026

Result of the defence

Defended (thesis was successfully defended)

znamkaCznamka

Grading

C

Process of defence

Student nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta a na další otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm C.

Topics for thesis defence

  1. Jaká je rychlost inference v experimentu s vetším (200M) modelem oproti 12.5 Hz a 25 Hz baseline? Jaké to má důsledky pro kodek samotný nebo pro případné downstream aplikace například v řečových jazykových modelech (speech LM), které v práci zmiňujete?
  2. Jak funguje focal modulation, které je použité u FocalCodecu? Jaký je rozdíl oproti klasické self-attention?
  3. Provedl jste nějaké vylepšení existujíci metody?

Language of thesis

English

Faculty

Department

Study programme

Information Technology (BIT)

Composition of Committee

doc. Ing. Lukáš Burget, Ph.D. (předseda)
doc. RNDr. Milan Češka, Ph.D. (místopředseda)
Dr. Ing. Petr Peringer (člen)
Ing. Matěj Grégr, Ph.D. (člen)
Ing. Jakub Husa, Ph.D. (člen)

Supervisor’s report
Ing. Dominik Klement

Overall, I consider the topic of neural speech coding to be non-trivial and demanding to understand, as it requires studying a number of recent research publications as well as relevant deep learning literature.


Although the student’s activity was not exceptional, I must acknowledge that he implemented the proposed changes and successfully ran the experiments independently, without technical support from my side. He therefore demonstrated the ability to independently carry out the consulted steps.


For these reasons, I grade the thesis with 70 points, corresponding to “good” (C).

Evaluation criteria Verbal classification
Informace k zadání

The objective of the thesis was to explore and compare different approaches to low-bitrate neural audio coding using distinct neural audio codecs. In my view, the thesis assignment was challenging and above average compared to standard undergraduate thesis assignments.

The student met all points of the assignment. The results are not particularly novel or surprising, but they confirm our prior expectations. I particularly appreciate the inclusion of listening tests, as they help the reader understand the origin and nature of the compression errors and artifacts for different approaches to decreasing the speech coding bitrate.

Práce s literaturou

The student familiarized themselves with the literature I suggested; however, he did not proactively seek out or consult additional reading materials beyond the recommended sources.

Aktivita během řešení, konzultace, komunikace

The majority of the work and consultations took place during the summer semester, mainly because the student was enrolled in several demanding courses during the winter semester. We held multiple consultations in the summer semester, especially as the submission deadline approached, which is also when most of the work was completed.

During these meetings, the student usually presented new progress, and we jointly agreed on the next steps. Most of these tasks were typically completed before the following consultation.

Aktivita při dokončování

Unfortunately, the majority of the work was completed during the final three weeks before the submission deadline. This left limited room for broader exploration and for designing more elaborate or novel experiments.

Publikační činnost, ocenění

None.

Points proposed by supervisor: 70

Grade proposed by supervisor: C

Reviewer’s report
Ing. Jan Brukner

Při čtení se čtenáři vrací neodbytný pocit déjà vu – u některých pasáží má dojem, že stejný text už četl, a to i několikrát. Z práce je zřejmé, že vznikala v časovém tlaku, čímž utrpěla struktura a návaznost některých částí.
Teoretická část by měla jít více do hloubky alespoň v částech věnujících se konkrétním architekturám kodeků, které jsou následně použity pro experimenty. Zároveň je potřeba mít na zřeteli, že tato problematika je nová a je potřeba ji během práce nastudovat.
Experimentální část je naopak mírně nadprůměrná a vylepšuje celkový dojem z práce, i když nepřináší převratné objevy.

Evaluation criteria Verbal classification Points
Náročnost zadání

Evaluation level: průměrně obtížné zadání

Zadání vyžaduje nastudování moderních neurálních kodeků a jejich trénování, což není triviální tematika. Pro samotnou realizaci práce je ovšem potřeba „pouze" nainstalovat dva různé frameworky a spustit je se správnými parametry. Celkově tedy hodnotím zadání jako průměrně obtížné.

Prezentační úroveň technické zprávy

Práce je členěna do šesti kapitol (plus úvod a závěr) s velmi variabilní délkou. Čtyři kapitoly mají do čtyř stran a zbytek textu je soustředěn v kapitolách 4 (20 stran) a 7 (21 stran).
Samotná struktura kapitol je logická – od teoretických základů zpracování signálů, přes popis neurálních kodeků k experimentům.
Hlavně 4. kapitola trpí značným opakováním stejných informací. Na několika různých místech (více než pětkrát) se čtenář dozví o funkci enkodéru, kvantizéru a dekodéru bez konkrétních detailů. Velmi povrchně jsou popsány také ostatní teoretické komponenty, s čestnou výjimkou kvantizačních technik a objektivních funkcí neuronových sítí. Zde ovšem zase chybí výpočet bitrate pro FSQ kvantizaci.
Oba kodeky, které jsou jádrem práce, jsou opět popsány mělce. Hlavně u FocalCodecu chybí popis focal modulation, techniky, která dala kodeku název, je v práci pouze zmíněna jako používaná.

Konkrétní výtky:

  • 4.3 Popis neuronových sítí zahrnuje prakticky pouze konvoluční vrstvu, její parametry a residuální spojení. Další komponenty nejsou popsány nebo jsou roztroušeny po zbytku práce.
  • Spektrogramy v experimentální části jsou bez popisků os.
  • V některých částech si práce přímo odporuje – nejprve uvádí, že se bude pokračovat jen s NanoCodecem, a vzápětí pokračuje i s FocalCodecem.
60
Formální úprava technické zprávy

Typograficky je práce v pořádku. Místy se objevuje špatné zalamování řádků, případně drobné překlepy: server (serve) us, wavform, spectogram.

80
Realizační výstup

Experimentální část je rozsahem i provedením poměrně kvalitní. Bylo provedeno několik sad experimentů s cílem analyzovat vliv snížení datového toku na kvalitu dvou vybraných kodeků. Při popisu nastavení trénování poněkud chybí určení, jaké hyperparametry byly použity.
Vyhodnocení výsledků je věnováno poměrně dost prostoru. Pouze jednou je ale zmíněno, že směrodatná odchylka u word error rate je vysoká – přitom to platilo u všech experimentů, což snižuje výpovědní hodnotu této metriky. V textu je uvedeno, že testovací sada obsahovala 40 minut audia, z diskuze ale vyplynulo, že se k vyhodnocení použilo pouze 30 nahrávek. To by vysokou směrodatnou odchylku mohlo vysvětlit.

70
Využitelnost výsledků

Jak experimenty se snižováním tokenové frekvence, tak experimenty se zmenšováním velikosti kódové knihy dopadly podle očekávání – že menší datový tok při zachování ostatních parametrů kodeku sníží kvalitu. Oceňuji zveřejnění negativního výsledku se zhoršením kvality při zvětšení hloubky modelu. Poslední experiment se zvětšením počtu parametrů modelu naopak přinesl zlepšení kvality oproti baseline se stejným datovým tokem.
Celkově práce nepřináší podstatná nová zjištění, ale potvrzuje intuitivní chování obou architektur neurálních kodeků. To je validní výstup bakalářské práce.

Rozsah splnění požadavků zadání

Evaluation level: zadání splněno

Všech pět bodů zadání je splněno. Body 1–4 (teorie kódování řeči, neuronové techniky, srovnání dvou kodeků standardními metrikami, vyhodnocení snižování bitrate přes velikost kódové knihy a tokenovou frekvenci) jsou pokryty; bod 5 (vylepšení kvality řeči při nízkém datovém toku) je naplněn dokonce dvěma experimenty – hloubkou hierarchie (7.4, negativní výsledek) a velikostí modelu (7.5, zlepšení). Oceňuji poctivé reportování negativního výsledku.

Rozsah technické zprávy

Evaluation level: je v obvyklém rozmezí

Práce je v obvyklém rozsahu. Hlavně kapitola 4 trpí velkým opakováním stejných informací. I po zhutnění by ale práce dosahovala požadované délky.

Práce s literaturou

Zdroje použité v práci jsou aktuální a relevantní; práce má dohromady 57 bibliografických záznamů. Výtky bodově:

  • Zdroje 10 a 11, stejně jako 25 a 26, jsou duplicitní.
  • Zdroj 4 (Biswas) není původním zdrojem pro GAN (Goodfellow), jak je v práci citováno.
  • Technika feature matching byla zavedena již před citovaným zdrojem YourTTS.
  • Multi-scale discriminator byl zaveden už ve vokodéru MelGAN, nikoli v citovaném HiFi-GANu.
  • Rozpis zkratky WavLM jako Waveform Language Model je nesprávný.
79
Topics for thesis defence:
  1. Jak funguje focal modulation, které je použité u FocalCodecu? Jaký je rozdíl oproti klasické self-attention?
  2. Jaká je rychlost inference v experimentu s vetším (200M) modelem oproti 12.5 Hz a 25 Hz baseline? Jaké to má důsledky pro kodek samotný nebo pro případné downstream aplikace například v řečových jazykových modelech (speech LM), které v práci zmiňujete?
Points proposed by reviewer: 70

Grade proposed by reviewer: C

Responsibility: Mgr. et Mgr. Hana Odstrčilová