Master's Thesis

Real-time audio signal dropout correction using a neural network

Final Thesis 3.82 MB Appendix 7.89 MB

Author of thesis: Bc. Radim Pařízek

Acad. year: 2025/2026

Supervisor: Ing. Ondřej Mokrý, Ph.D.

Reviewer: prof. Mgr. Pavel Rajmic, Ph.D.

Abstract:

This thesis addresses Packet Loss Concealment (PLC) methods for musical signals in Networked Music Performance applications. The fundamental principles of PLC algorithms, available datasets, and metrics for evaluating reconstruction quality are presented. An autoregressive prediction model is proposed, employing the Levinson–Durbin algorithm with optimizations for real-time processing. The autoregressive model achieves usable reconstruction quality at low computational cost, particularly when compared to simple PLC methods. Furthermore, two hybrid residual models inspired by PARCnet are proposed: AR-SSM, based on State Space Models with modified S4D blocks, and AR-GCRN, which combines a convolutional encoder/decoder structure with a recurrent bottleneck operating on frequency-domain features. The AR-SSM model is not investigated further, as it fails to meet the real-time processing requirements. Both models are evaluated on the Medley-solos-DB dataset using time-domain, spectral, and psychoacoustic metrics, and compared against the PARCnet reference model. The results show that the proposed AR-GCRN model achieves performance comparable to the reference model, surpasses it in spectral and psychoacoustic metrics, and meets the specified requirements for real-time inference.

Keywords:

packet loss concealment, PLC, networked music performance, autoregressive model, neural network, convolutional-recurrent neural network, SSM, PARCnet, linear prediction

Date of defence

11.06.2026

Result of the defence

Defended (thesis was successfully defended)

znamkaBznamka

Grading

B

Process of defence

Student prezentoval výsledky své práce a komise byla seznámena s posudky. Student obhájil diplomovou práci a odpověděl na otázky členů komise a oponenta. Otázky: 1) Mohl byste prezentovat přesný pravděpodobnostní model výpadků signálu a ukázat několik masek, které z takových simulací vzešly?

Language of thesis

Czech

Faculty

Department

Study programme

Audio Engineering (MPC-AUD)

Specialization

Audio Production and Recording (AUDM-ZVUK)

Composition of Committee

Ing. Jaromír Mačák, Ph.D. (člen)
Doc.Ing.MgA. Ondřej Urban, Ph.D. (předseda)
doc. Ing. Jiří Schimmel, Ph.D. (místopředseda)
RNDr. Lubor Přikryl (člen)
Ing. Ondřej Mokrý, Ph.D. (člen)

Supervisor’s report
Ing. Ondřej Mokrý, Ph.D.

Práce představuje metodu pro opravu hudebních audio signálů poškozených (simulovanou) ztrátou paketů při přenosu. Dle zadání se jedná o modifikaci hybridní metody kombinující autoregresní predikci s neuronovou sítí, konkrétně jsou navrženy jiné podoby neuronové větve a tyto modely natrénovány. V práci chybí hlubší diskuze subjektivní kvality výsledků, jedná se však pouze o drobný nedostatek a mimo to bylo zadání práce splněno.

Student pracoval průběžně a samostatně.

Struktura práce je logická, text je psaný čtivě, někdy však na úkor širších souvislostí. Místy se objevuje nevhodná úroveň detailu, např. velmi technický popis LSTM vrstvy v rovnicích (3.8)–(3.13) bez ilustrace či intuitivního pochopení. Text práce vykazuje drobné formální nedostatky: Nejednotná sazba při zavádění zkratek, chybná sazba procent, desetinná tečka, chybná forma přivlastňovacích přídavných jmen, nejednotné používání matematické notace (suma čtverců v (1.5) a (1.6), ale norma v (1.8)) a další. Obrázky a ukázky výstupů by byly lepší ve vektorovém formátu a s použitím většího písma.

V přiložených zdrojových kódech postrádám přesnější návod ke spuštění či k nastavení cest k souborům tak, aby byla možná snadná reprodukce prezentovaných výsledků.

Vzhledem k uvedenému práci doporučuji k obhajobě a navrhuji známku B. Points proposed by supervisor: 85

Grade proposed by supervisor: B

Reviewer’s report
prof. Mgr. Pavel Rajmic, Ph.D.

Diplomová práce Bc. Radima Pařízka se věnuje opravě výpadků audio signálů v reálném čase, což je téma na pomezí digitálního zpracování signálů a hlubokého učení. Student splnil zadání, jelikož prokazatelně nastudoval problematiku Packet Loss Concealment (PLC) a sepsal teoretické základy autoregresních modelů i neuronových sítí. Dále navrhl a implementoval vlastní architektury AR-SSM (využívající stavové modely s bloky S4D) a AR-GCRN (využívající konvolučně-rekurentní strukturu s frekvenčními příznaky), modely natrénoval a porovnal je s referenční metodou PARCnet. V práci však zcela chybí subjektivní zhodnocení kvality a autor čtenáři neposkytuje možnost poslechnout si ukázky rekonstrukcí.

Je zřejmé, že autor musel nastudovat rozsáhlé množství látky a naučit se zacházet s neurálními modely v praxi. Z textu je však patrné, že autor zůstal spíše v roli uživatele – mnoho pasáží indikuje, že hlubší porozumění tomu, proč věci (ne)fungují, mu zůstalo vzdáleno.

Práce je logicky členěná, avšak z popisu je obtížné rozlišit, co přesně je studentova vlastní práce a co bylo převzato z (citovaných) zdrojů. Jazyk je ve velké části textu neobratný, místy se zbytečnou snahou o pseudoodbornost vykoupenou velkým množstvím cizích pojmů, anglicismů. Občas se vyskytne překlep. Typografie a grafická úprava jsou spíše na nižší úrovni. Místy textu schází logická návaznost; například termín „burst“ se objevuje v celé práci, aniž by byl kdekoli vysvětlen, podobně „režim burst-only“ v praktické části.

I přes uvedené výhrady student prokázal schopnost samostatné inženýrské činnosti. Práci doporučuji k obhajobě s navrhovaným hodnocením C. Topics for thesis defence:
  1. Mohl byste prezentovat přesný pravděpodobnostní model výpadků signálu a ukázat několik masek, které z takových simulací vzešly?
Points proposed by reviewer: 70

Grade proposed by reviewer: C

Responsibility: Mgr. et Mgr. Hana Odstrčilová