Master's Thesis

Style transfer of audio recording processing using neural networks

Final Thesis 3.24 MB Appendix 53.36 kB

Author of thesis: Bc. Jan Mostecký

Acad. year: 2025/2026

Abstract:

This master's thesis addresses the problem of audio production style transfer using neural networks. The objective is to design and implement a~model capable of applying a~chain of audio effects to a~raw recording so that the resulting sound matches the character of a~reference track. The theoretical section focuses on the principles of neural networks and their application in audio signal processing, provides an overview of audio style transfer methods, and describes three key audio effects for the mastering process -- parametric equalizer, compressor, and saturator -- including their mathematical models and implementation possibilities.

The practical section describes the design of a~system based on differentiable effects implemented in the PyTorch library, including experimental validation of its functionality on test audio datasets. The results demonstrate that by optimizing the effect parameters, a~partial transfer of the reference recording's character can be achieved. Furthermore, the limitations of machine learning for this specific problem are discussed, alongside potential avenues for future development.

Keywords:

Equiliser, Compressor, Saturator, Neural network, Mashine Learning, Style Transfer

Date of defence

11.06.2026

Result of the defence

Defended (thesis was successfully defended)

znamkaBznamka

Grading

Process of defence

Student prezentoval výsledky své práce a komise byla seznámena s posudky. Student obhájil diplomovou práci a odpověděl na otázky členů komise a oponenta. Otázky oponenta diplomové práce: Jak by bylo možné architekturu modelu upravit tak, aby lépe zachycovala dynamické vlastnosti komprese? Jak by bylo možné navržený systém doplnit o subjektivní poslechové hodnocení? Jaký přínos má modulární trénování jednotlivých expertů oproti trénování celého efektového řetězce najednou? Jaká byla velikost datasetu? Jak dlouho trvalo trénování systému?

Language of thesis

Czech

Faculty

Fakulta elektrotechniky a komunikačních technologií

Department

Department of Telecommunications

Study programme

Audio Engineering (MPC-AUD)

Specialization

Audio Production and Recording (AUDM-ZVUK)

Composition of Committee

prof. Ing. Zdeněk Smékal, CSc. (předseda)
Ing.MgA. Edgar Mojdl, Ph.D. (místopředseda)
Dr. Ing. Libor Husník (člen)
Ing. Václav Mach, Ph.D. (člen)
Ing. Matěj Ištvánek, Ph.D. (člen)

Supervisor’s report
Ing. Štěpán Miklánek, Ph.D.

Diplomová práce se zabývá aktuální a náročnou problematikou automatizovaného přenosu stylu zpracování zvukových nahrávek pomocí neuronových sítí a diferencovatelných modelů. Zadání práce vyžadovalo studium metod audio style transferu i návrh a implementaci vlastního systému v prostředí PyTorch. Teoretická část práce poskytuje přehled problematiky neuronových sítí, digitálního zpracování signálu a masteringových procesů. Praktická část představuje návrh a implementaci experimentálního systému založeného na diferencovatelných modelech ekvalizéru, kompresoru a saturátoru. Student před zahájením práce neměl prakticky žádné předchozí zkušenosti se strojovým učením ani pokročilejším programováním v prostředí Python. Přesto se studentovi podařilo nastudovat problematiku neuronových sítí, diferencovatelného DSP i frameworku PyTorch a vytvořit funkční experimentální systém.
Navržený systém vykazuje schopnost aproximovat parametry efektových procesorů a částečně přenášet charakter referenčních nahrávek. Současně je však patrné, že zejména při aplikaci na odlišný hudební materiál se projevují omezení generalizační schopnosti modelu a natrénovaný systém zatím nedokáže dostatečně robustně provádět reálný přenos stylu mezi různými nahrávkami. Myslím si, že pro dosažení lepších výsledků by byla nutná hlubší zkušenost s návrhem a trénováním neuronových sítí, rozsáhlejší experimentování s architekturou modelu a pokročilejší optimalizační postupy. Za určitý nedostatek práce považuji absenci přiložených zvukových ukázek demonstrujících chování systému na reálných nahrávkách. Přestože subjektivní poslechové testování nebylo explicitní součástí zadání, možnost přímého poslechu výsledků by usnadnila praktické posouzení kvality dosaženého přenosu stylu. Student však po odevzdání práce poskytl dodatečně zvukové ukázky.
Po formální stránce je práce zpracována na dobré úrovni, obsahuje však větší množství drobných typografických a jazykových nedostatků. V textu se objevuje nekonzistentní používání pomlček a em dash znaků v české sazbě, místy dochází k přetečení sazebního obrazce a v některých případech zůstávají jednopísmenné předložky a spojky na konci řádku. Vyskytují se také drobné překlepy a terminologické nekonzistence. I přes uvedené nedostatky práci hodnotím 85 body/B. Points proposed by supervisor: 85

Grade proposed by supervisor: B

Reviewer’s report
Ing. Matěj Ištvánek, Ph.D.

Předložená diplomová práce se zabývá přenosem stylu zpracování zvukových nahrávek s využitím neuronových sítí. Téma je technicky náročné a propojuje oblast zpracování zvuku, masteringu, diferenciovatelných efektů a strojového učení. Pozitivně hodnotím, že autor vytvořil vlastní implementaci systému založeného na diferencovatelných DSP blocích. Práce obsahuje návrh a implementaci parametrického ekvalizéru, kompresoru a saturátoru, včetně trénovacího procesu a diagnostického testování jednotlivých částí. Oceňuji také kapitolu srovnávající navržený přístup s jinými metodami, protože pomáhá lépe zasadit výsledky práce do širšího kontextu.
Výsledky ukazují, že zvolený přístup je částečně funkční, zejména v případě ekvalizačního experta. Naopak kompresní expert vykazuje výrazná omezení a model obecně dosahuje lepších výsledků na syntetických datech než při přenosu stylu mezi reálnými nahrávkami. Autor tato omezení v práci poměrně otevřeně diskutuje, ale výsledný systém nelze považovat za plně funkční nástroj pro praktický automatický masteringový přenos stylu. Jde spíše o experimentální implementaci a ověření možností i limitů zvoleného přístupu. Formální stránka práce je celkově přijatelná, ale obsahuje nedostatky. V textu se vyskytují občasné překlepy, zvláštní odsazení a přetečení textu nebo neunifikované anglické výrazy. Obrázky 2.1 a 2.2 jsou zbytečně velké vzhledem k jejich informační hodnotě. Kód v elektronické příloze je funkční jen částečně a neobsahuje dostatečnou dokumentaci.
Celkově práci hodnotím jako povedenou. Hlavními nedostatky jsou omezená funkčnost části modelu, zejména kompresního experta, menší rozsah ověření na reálných nahrávkách, které by práci výrazně pomohly, a některé formální nedostatky. Práci doporučuji k obhajobě, 86/B. Topics for thesis defence:

Jak by bylo možné architekturu modelu upravit tak, aby lépe zachycovala dynamické vlastnosti komprese?
Jak by bylo možné navržený systém doplnit o subjektivní poslechové hodnocení?
Jaký přínos má modulární trénování jednotlivých expertů oproti trénování celého efektového řetězce najednou?

Points proposed by reviewer: 86

Grade proposed by reviewer: B

Responsibility: Mgr. et Mgr. Hana Odstrčilová

VUT

Faculties and university institutes

Parts

Style transfer of audio recording processing using neural networks