Master's Thesis

Modeling of sound effects with nonlinear transfer characteristics using machine learning

Final Thesis 31.99 MB

Author of thesis: Bc. Václav Bařinka

Acad. year: 2025/2026

Supervisor: Ing. Benjamin Nimmerrichter

Reviewer: prof. Ing. Kamil Říha, Ph.D.

Abstract:

This diploma thesis presents the design, implementation, and evaluation of a system for real-time neural emulation of nonlinear audio effects. The proposed HybridAmpModel architecture follows a hybrid structured black-box approach with an L-NL-L topology physically motivated by the signal chain of a guitar amplifier. It consists of a trainable front-end FIR filter, a nonlinear core based on a Temporal Convolutional Network (TCN) with exponentially dilated causal convolutions, and FiLM (Feature-wise Linear Modulation) conditioning on the gain parameter using the Snake activation function. The model is trained on real recordings of two target devices — the digital plugin SGA1566 and the analog tube guitar amplifier Laney Ironheart — using a combined loss function comprising ESR (Error-to-Signal Ratio) and MR-STFT (Multi-Resolution Short-Time Fourier Transform) with a pre-emphasis filter. Four depth variants of the architecture were trained (5, 7, 8, and 10 layers). The trained models are exported using the RTNeural library and deployed as functional VST3 plugins built on the JUCE 8 framework with zero algorithmic latency. The best objective results were achieved by the SGA1566 10L variant (validation ESR 8.7\%) and the Laney Ironheart 8L variant (ESR 53.8\%). A subjective online listening test (29 respondents, MUSHRA, ABX, and paired preference methods) achieved an average MUSHRA score of 55.4 points. The preference test results showed that the overall preference for the original recording (56.2\%) was not statistically distinguishable from random selection. Moreover, for the SGA1566 8L and Laney 5L variants, respondents actually preferred the model's prediction over the original. The generated sound, despite measurable deviations, possesses high aesthetic value and is perceived by listeners as musical and practically usable.

Keywords:

Neural networks, guitar amplifier emulation, temporal convolutional network, FiLM conditioning, Snake activation function, VST3 plugin, RTNeural, MUSHRA listening test.

Date of defence

11.06.2026

Result of the defence

Defended (thesis was successfully defended)

znamkaAznamka

Grading

A

Process of defence

Otázky oponenta: Jak by se změnila architektura modelu při požadavku na současné zpracování více parametrů efektu (např. gain, tone, presence) namísto jediného parametru gain? Jaké hlavní důvody vedly k výrazně horším hodnotám ESR u modelování analogového zesilovače Laney Ironheart oproti digitálnímu pluginu SGA1566? Student prezentoval výsledky své práce a komise byla seznámena s posudky. Student obhájil diplomovou práci a odpověděl na otázky členů komise a oponenta.

Language of thesis

Czech

Faculty

Department

Study programme

Audio Engineering (MPC-AUD)

Specialization

Audio Production and Recording (AUDM-ZVUK)

Composition of Committee

prof. Ing. Kamil Říha, Ph.D. (předseda)
MgA. Michal Indrák, Ph.D. (místopředseda)
MgA. et Mgr. Ondřej Jirásek, Ph.D. (člen)
Ing. Šimon Skvaril (člen)
Mgr. Tomáš Staudek, Ph.D. (člen)

Supervisor’s report
Ing. Benjamin Nimmerrichter

Student v diplomové práci úspěšně splnil všechny body zadání, vytvořil metodiku pro trénování neuronové sítě k modelování nelineárních parametrických setrvačných efektů a implementoval ji jako funkční VST rozšíření s výpočtem v reálném čase. Výsledné řešení komplexně vyhodnotil pomocí objektivních i subjektivních metrik (poslechový test prokázal věrnost zvuku) a výsledky byly publikovány na konferenci EEICT. Prezentační, jazyková i formální úroveň technické zprávy je velmi dobrá, rozsah je přiměřený a text vhodně doplňují grafy. Mezi drobné nedostatky patří předložky na koncích řádků, anglické názvy podkapitol s dostupným českým překladem (například podkapitola 4.4.1), malá velikost textu u některých obrázků (například obrázek 8.1) a citace neodpovídající citační normě ISO 690 (autor pravděpodobně použil starší verzi z roku 2010). Elektronická příloha se zdrojovými kódy je přehledně komentovaná. Student pracoval po celý rok velmi aktivně, pravidelně chodil na konzultace a v práci jasně prokázal znalosti programování, audioinženýrství i strojového učení. Points proposed by supervisor: 92

Grade proposed by supervisor: A

Reviewer’s report
prof. Ing. Kamil Říha, Ph.D.

Student v práci prokázal schopnost orientace v oblasti digitálního zpracování signálů, neuronových sítí i moderních metod audio modelování. Teoretická část vhodně shrnuje principy analogových efektů, neuronových sítí a architektur používaných pro audio aplikace. Praktická část obsahuje návrh vlastní architektury HybridAmpModel, realizaci trénovací pipeline i implementaci funkčního VST3 pluginu. Pozitivně hodnotím zejména rozsah experimentů, realizaci subjektivních poslechových testů a propojení teoretických poznatků s praktickou implementací.
Práce je zpracována na velmi dobré technické úrovni, text je přehledný a vhodně doplněný grafy, schématy a výsledky měření. Přestože některé části mohly být stručnější a detailněji diskutovat limity navrženého řešení, celkově práce splňuje zadání v plném rozsahu a přináší kvalitní výsledky využitelné v praxi.
Vzhledem k uvedenému doporučuji práci hodnotit 95 body, tedy klasifikačním stupněm A. Topics for thesis defence:
  1. Jak by se změnila architektura modelu při požadavku na současné zpracování více parametrů efektu (např. gain, tone, presence) namísto jediného parametru gain?
  2. Jaké hlavní důvody vedly k výrazně horším hodnotám ESR u modelování analogového zesilovače Laney Ironheart oproti digitálnímu pluginu SGA1566?
Points proposed by reviewer: 95

Grade proposed by reviewer: A

Responsibility: Mgr. et Mgr. Hana Odstrčilová