bakalářská práce

Audio dekvantizace s použitím banky filtrů

Text práce 3.49 MB Příloha 13.4 MB

Autor práce: Adrian Szabó

Ak. rok: 2025/2026

Vedoucí: Ing. Vojtěch Kovanda

Oponent: prof. Mgr. Pavel Rajmic, Ph.D.

Abstrakt:

Práca sa zaoberá dekvantizáciou audio signálu z dvoch rôzne kvantizovaných pásmových pozorovaní získaných pomocou vlnkovej banky filtrov. Vstupný signál je rozdelený jednoúrovňovou diskrétnou waveletovou transformáciou na aproximačnú a detailovú vetvu, ktoré sú po decimácii kvantizované odlišnými bitovými hĺbkami. Cieľom práce je navrhnúť a overiť metódu rekonštrukcie, ktorá využíva informáciu z oboch vetiev a znižuje skreslenie spôsobené kvantizáciou. Navrhnutý postup je prezentovaný ako konvexná optimalizačná úloha, v ktorej sa kombinujú podmienky konzistentnosti s kvantizačnými intervalmi oboch vetiev a regularizačný člen podporujúci riedkosť časovo-frekvenčnej reprezentácie signálu. Na riešenie tejto úlohy je použitý Condat–Vũ algoritmus, ktorý umožňuje efektívne pracovať s viacerými nehladkými členmi a projekciami na prípustné množiny.

Metóda bola implementovaná v prostredí MATLAB a testovaná na databáze monofónnych nahrávok hudobných nástrojov. Experimenty boli vykonané pre rôzne kombinácie bitových hĺbok aproximačnej a detailovej vetvy, pre viaceré typy Daubechies waveletových filtrov a doplnkovo aj experimentom pre rôznu hĺbku waveletovej dekompozície. Kvalita rekonštrukcie bola hodnotená pomocou objektívnych metrík Signal-to-Distortion Ratio a Objective Difference Grade. Navrhnutá metóda bola porovnaná s priamou rekonštrukciou pomocou inverznej diskrétnej waveletovej transformácie a s jednokanálovou dekvantizáciou, kde bol použitý Chambolle--Pock algoritmus. Výsledky ukázali, že navrhnutá metóda vo väčšine testovaných kombinácií zlepšuje rekonštrukciu oproti priamej rekonštrukcii, najmä podľa metriky Signal-to-Distortion Ratio. Pri vhodnom zvolení bitových hĺbok pre aproximačnú a detailovú vetvu dosahuje metóda lepšie výsledky než jednokanálová referenčná dekvantizácia pri porovnateľnej efektívnej bitovej hĺbke. Pomocou doplnkových experimentov sa zistilo, že filter db4 predstavuje kompromis medzi kvalitou rekonštrukcie, jednoduchosťou a stabilitou spracovania. Výsledkami sa potvrdilo, že pásmové spracovanie signálu v kombinácii s konvexnou optimalizáciou je použiteľným postupom pre audio dekvantizáciu.

Klíčová slova:

Audio signál, banka filtrov, bitová hĺbka, Condat–Vũ algoritmus, dekvantizácia, diskrétna waveletová transformácia, kvantizácia, Objective Difference Grade, Signal-to-Distortion Ratio

Termín obhajoby

18.06.2026

Výsledek obhajoby

obhájeno (práce byla úspěšně obhájena)

znamkaCznamka

Klasifikace

C

Průběh obhajoby

Student prezentoval výsledky své práce a komise byla seznámena s posudky. Student obhájil bakalářskou práci s výhradami a odpověděl na otázky členů komise a oponenta. Otázky: Na straně 25 konstatujete, že délka okna u STFT ovlivňuje rozlišení na frekvenční a časové ose. Mohl byste vysvětlit, co přesně jste pojmem rozlišení myslel? Dovedete si představit navržený systém v praxi jako součást netradičního A/D převodníku? Z čeho by se takové zařízení skládalo? Jak byla vytvořena samotná databáze zvuků? Kde v práci byla popsána využitá databáze?

Jazyk práce

slovenština

Fakulta

Ústav

Studijní program

Audio inženýrství (BPC-AUD)

Specializace

Zvuková produkce a nahrávání (AUDB-ZVUK)

Složení komise

Ing.MgA. Edgar Mojdl, Ph.D. (místopředseda)
doc. Ing. David Kubánek, Ph.D. (člen)
Ing. Vojtěch Kovanda (člen)
Ing. Jiří Přinosil, Ph.D. (člen)
prof. Ing. Zdeněk Smékal, CSc. (předseda)

Posudek vedoucího
Ing. Vojtěch Kovanda

Práce se zabývá problematikou kvantizace a dekvantizace audio signálů s využitím vlnkové banky filtrů. Autor zpracoval základní teoretický přehled, implementoval navržené řešení v prostředí Matlab a provedl jeho experimentální ověření na vytvořené databázi audio signálů.
Zadání bylo z větší části splněno. Přestože byla navržená metoda implementována a vyhodnocena pomocí objektivních metrik, některé části textu působí poměrně povrchně a postrádají hlubší rozbor dosažených výsledků (například souvislost vstupních signálů s kvantizací v různých větvích vlnkové transformace). Za nejvýznamnější nedostatek považuji absenci experimentů s vyšší hloubkou vlnkové dekompozice, kde autor srovnává pouze kvantizované porovnání bez možnosti dekvantizace. Rozsah práce odpovídá náročnosti problematiky.
Student svoji práci pravidelně konzultoval, jeho postup byl ale relativně pomalý, což se podepsalo na absenci dílčích cílů práce.
Přes uvedené výhrady práce představuje algoritmus dekvantizace s výsledky, které potvrzující funkčnost navrženého přístupu. I vzhledem k náročnosti problematiky navrhuji práci k obhajobě, 72/C. Výsledný počet bodů navržený vedoucím: 72

Známka navržená vedoucím: C

Bakalářská práce pana Adriana Szabó je zaměřena na originální myšlenku vícevětvového kvantizeru, respektive na proces rekonstrukce signálu z takových kvantovaných pozorování.

Struktura práce je nečekaná, autor zvolil dělení na pouze tři kapitoly. Přehlednosti by podle mého názoru prospělo podrobnější členění. Z metodického hlediska působí matoucím dojmem, když se v kapitole návrhu mluví o konkrétních matlabovských funkcích. Základům konvexní optimalizace, operátorům, framům, bázím, ortogonalitě či krátkodobé Fourierově tranformaci se autor nevěnuje, přestože je v pozdějších částech díla používá jako standardní stavební prvky svého algoritmu.

Pasáže textového charakteru vyznívají obstojně a oceňuji, že autor ve většině případů staví na korektních argumentech. Jakmile však práce přejde k matematice a zpracování signálů, je patrné, že autorovo pochopení problematiky zůstalo spíše na povrchu (byť je nutné respektovat, že zvolené téma není jednoduché). U některých klíčových rozhodnutí mi chybí hlubší diskuze; volba parametrů či postupů tak občas působí ad hoc.

Grafickou stránku práce považuji za průměrnou. Grafy jsou vhodně zpracovány, nicméně výkladu by prospělo další ilustrace přidat (např. u vlnkové transformace s hloubkou vyšší než J=1). V práci se vyskytují velká prázdná místa. Typografie je vyloženě na nízké úrovni.

Konkrétnější připomínky:
* Rekonstrukční úloha je sice formulována pro libovolnou hloubku dekompozice, avšak algoritmické ověření proběhlo pouze pro hloubku J=1.
* Zcela chybí matematická definice množin Gama, přičemž ty jsou pro celou práci klíčové.
* Použitý toolbox LTFAT není citovaný.
* Moreau identita se objevuje pozdě, až na str. 37.

Celkově lze konstatovat, že student splnil zadání (až na zahrnutí vyšších hloubek dekompozice). Vhled autora do problematiky je spíše povrchní, nicméně výsledky jsou prezentovány a diskutovány logicky a pro nově navrženou metodu vycházejí pozitivně. Otázky k obhajobě:
  1. Na straně 25 konstatujete, že délka okna u STFT ovlivňuje rozlišení na frekvenční a časové ose. Mohl byste vysvětlit, co přesně jste pojmem rozlišení myslel?
  2. Dovedete si představit navržený systém v praxi jako součást netradičního A/D převodníku? Z čeho by se takové zařízení skládalo?
Výsledný počet bodů navržený oponentem: 70

Známka navržená oponentem: C

Odpovědnost: Mgr. et Mgr. Hana Odstrčilová