Přístupnostní navigace
E-application
Search Search Close
Bachelor's Thesis
Author of thesis: Tristan Dobos
Acad. year: 2025/2026
Supervisor: Ing. Dominik Klement
Reviewer: Ing. Jan Brukner
This thesis compares NanoCodec and FocalCodec for neural speech coding at very low bitrates. It evaluates two bitrate reduction strategies: decreasing the token rate and decreasing the quantization capacity. The results show that reducing the quantization space too aggressively is more harmful than moderately reducing the token rate. NanoCodec achieves better results in most objective metrics and subjective listening comparisons. Additional experiments show that increasing model size improves reconstruction quality at 0.15 kpbs, while a deeper temporal structure does not.
neural audio codecs, neural compression, audio compression, low bitrate, deep learning, artificial intelligence, speech processing, FocalCodec, NanoCodec
Date of defence
17.06.2026
Result of the defence
Defended (thesis was successfully defended)
Grading
C
Process of defence
Student nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta a na další otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm C.
Topics for thesis defence
Language of thesis
English
Faculty
Fakulta informačních technologií
Department
Department of Computer Graphics and Multimedia
Study programme
Information Technology (BIT)
Composition of Committee
doc. Ing. Lukáš Burget, Ph.D. (předseda) doc. RNDr. Milan Češka, Ph.D. (místopředseda) Dr. Ing. Petr Peringer (člen) Ing. Matěj Grégr, Ph.D. (člen) Ing. Jakub Husa, Ph.D. (člen)
Supervisor’s reportIng. Dominik Klement
Overall, I consider the topic of neural speech coding to be non-trivial and demanding to understand, as it requires studying a number of recent research publications as well as relevant deep learning literature.
Although the student’s activity was not exceptional, I must acknowledge that he implemented the proposed changes and successfully ran the experiments independently, without technical support from my side. He therefore demonstrated the ability to independently carry out the consulted steps.
For these reasons, I grade the thesis with 70 points, corresponding to “good” (C).
The objective of the thesis was to explore and compare different approaches to low-bitrate neural audio coding using distinct neural audio codecs. In my view, the thesis assignment was challenging and above average compared to standard undergraduate thesis assignments.
The student met all points of the assignment. The results are not particularly novel or surprising, but they confirm our prior expectations. I particularly appreciate the inclusion of listening tests, as they help the reader understand the origin and nature of the compression errors and artifacts for different approaches to decreasing the speech coding bitrate.
The student familiarized themselves with the literature I suggested; however, he did not proactively seek out or consult additional reading materials beyond the recommended sources.
The majority of the work and consultations took place during the summer semester, mainly because the student was enrolled in several demanding courses during the winter semester. We held multiple consultations in the summer semester, especially as the submission deadline approached, which is also when most of the work was completed.
During these meetings, the student usually presented new progress, and we jointly agreed on the next steps. Most of these tasks were typically completed before the following consultation.
Unfortunately, the majority of the work was completed during the final three weeks before the submission deadline. This left limited room for broader exploration and for designing more elaborate or novel experiments.
None.
Grade proposed by supervisor: C
Reviewer’s reportIng. Jan Brukner
Při čtení se čtenáři vrací neodbytný pocit déjà vu – u některých pasáží má dojem, že stejný text už četl, a to i několikrát. Z práce je zřejmé, že vznikala v časovém tlaku, čímž utrpěla struktura a návaznost některých částí.Teoretická část by měla jít více do hloubky alespoň v částech věnujících se konkrétním architekturám kodeků, které jsou následně použity pro experimenty. Zároveň je potřeba mít na zřeteli, že tato problematika je nová a je potřeba ji během práce nastudovat.Experimentální část je naopak mírně nadprůměrná a vylepšuje celkový dojem z práce, i když nepřináší převratné objevy.
Evaluation level: průměrně obtížné zadání
Zadání vyžaduje nastudování moderních neurálních kodeků a jejich trénování, což není triviální tematika. Pro samotnou realizaci práce je ovšem potřeba „pouze" nainstalovat dva různé frameworky a spustit je se správnými parametry. Celkově tedy hodnotím zadání jako průměrně obtížné.
Práce je členěna do šesti kapitol (plus úvod a závěr) s velmi variabilní délkou. Čtyři kapitoly mají do čtyř stran a zbytek textu je soustředěn v kapitolách 4 (20 stran) a 7 (21 stran).Samotná struktura kapitol je logická – od teoretických základů zpracování signálů, přes popis neurálních kodeků k experimentům.Hlavně 4. kapitola trpí značným opakováním stejných informací. Na několika různých místech (více než pětkrát) se čtenář dozví o funkci enkodéru, kvantizéru a dekodéru bez konkrétních detailů. Velmi povrchně jsou popsány také ostatní teoretické komponenty, s čestnou výjimkou kvantizačních technik a objektivních funkcí neuronových sítí. Zde ovšem zase chybí výpočet bitrate pro FSQ kvantizaci.Oba kodeky, které jsou jádrem práce, jsou opět popsány mělce. Hlavně u FocalCodecu chybí popis focal modulation, techniky, která dala kodeku název, je v práci pouze zmíněna jako používaná.
Konkrétní výtky:
Typograficky je práce v pořádku. Místy se objevuje špatné zalamování řádků, případně drobné překlepy: server (serve) us, wavform, spectogram.
Experimentální část je rozsahem i provedením poměrně kvalitní. Bylo provedeno několik sad experimentů s cílem analyzovat vliv snížení datového toku na kvalitu dvou vybraných kodeků. Při popisu nastavení trénování poněkud chybí určení, jaké hyperparametry byly použity.Vyhodnocení výsledků je věnováno poměrně dost prostoru. Pouze jednou je ale zmíněno, že směrodatná odchylka u word error rate je vysoká – přitom to platilo u všech experimentů, což snižuje výpovědní hodnotu této metriky. V textu je uvedeno, že testovací sada obsahovala 40 minut audia, z diskuze ale vyplynulo, že se k vyhodnocení použilo pouze 30 nahrávek. To by vysokou směrodatnou odchylku mohlo vysvětlit.
Jak experimenty se snižováním tokenové frekvence, tak experimenty se zmenšováním velikosti kódové knihy dopadly podle očekávání – že menší datový tok při zachování ostatních parametrů kodeku sníží kvalitu. Oceňuji zveřejnění negativního výsledku se zhoršením kvality při zvětšení hloubky modelu. Poslední experiment se zvětšením počtu parametrů modelu naopak přinesl zlepšení kvality oproti baseline se stejným datovým tokem.Celkově práce nepřináší podstatná nová zjištění, ale potvrzuje intuitivní chování obou architektur neurálních kodeků. To je validní výstup bakalářské práce.
Evaluation level: zadání splněno
Všech pět bodů zadání je splněno. Body 1–4 (teorie kódování řeči, neuronové techniky, srovnání dvou kodeků standardními metrikami, vyhodnocení snižování bitrate přes velikost kódové knihy a tokenovou frekvenci) jsou pokryty; bod 5 (vylepšení kvality řeči při nízkém datovém toku) je naplněn dokonce dvěma experimenty – hloubkou hierarchie (7.4, negativní výsledek) a velikostí modelu (7.5, zlepšení). Oceňuji poctivé reportování negativního výsledku.
Evaluation level: je v obvyklém rozmezí
Práce je v obvyklém rozsahu. Hlavně kapitola 4 trpí velkým opakováním stejných informací. I po zhutnění by ale práce dosahovala požadované délky.
Zdroje použité v práci jsou aktuální a relevantní; práce má dohromady 57 bibliografických záznamů. Výtky bodově:
Grade proposed by reviewer: C
Responsibility: Mgr. et Mgr. Hana Odstrčilová