Bachelor's Thesis

Experimental music effect using a neural network

Final Thesis 4.53 MB Appendix 14.11 MB

Author of thesis: Kristian Major

Acad. year: 2025/2026

Supervisor: Ing. Peter Balušík

Reviewer: Ing. David Leitgeb

Abstract:

This bachelor's thesis focuses on the design and implementation of experimental music effects using a neural network. The theoretical section introduces and compares frameworks for differentiable digital signal processing (DDSP and NablAFx). Based on the literature review, the DDSP framework was selected for the practical implementation. The core of the thesis consists of the implementation of a custom autoencoder class, into which six musical effects were programmed (Pitch Shifter, LD-Chopper, Noiser, Z-LFO, Timbre Freeze, and Harmonizer). These effects manipulate the fundamental frequency, amplitude envelope, or latent timbre prior to (or during) resynthesis. The functionality and range of sound modifications of the entire model were successfully tested and visually demonstrated on sound databases of solo violin and clarinet recordings. The work demonstrates the usefulness of grey-box models in the field of audio effects design and sound design.

Keywords:

Audio effects, DDSP, Grey-box modeling, Neural networks

Date of defence

18.06.2026

Result of the defence

Defended (thesis was successfully defended)

znamkaAznamka

Grading

A

Process of defence

Student prezentoval výsledky své práce a komise byla seznámena s posudky. Student obhájil bakalářskou práci a odpověděl na otázky členů komise a oponenta. Jak náročné by bylo rozšíření současné podoby modelu o uživatelské prostředí a možnost běhu v reálném čase, jak naznačujete v závěru práce? Zkoušel jste pomocí natrénovaného modelu zpracovat i jiné typy zvuků než ty, které byly použity při trénování? Jaký vliv lze v takovém případě očekávat na výstupní signál? Můžete uvést příklad? Jak je ve schématech uvedených v práci znázorněna neuronová síť? Student dostatečně vystvětlil otázky.

Language of thesis

Czech

Faculty

Department

Study programme

Audio Engineering (BPC-AUD)

Specialization

Audio Production and Recording (AUDB-ZVUK)

Composition of Committee

prof. Ing. Jiří Mekyska, Ph.D. (předseda)
RNDr. Lubor Přikryl (místopředseda)
Ing. Ladislav Káňa (člen)
Ing. Benjamin Nimmerrichter (člen)
Ing. Štěpán Miklánek, Ph.D. (člen)

Supervisor’s report
Ing. Peter Balušík

Bakalárska práca sa zaoberá experimentálnym návrhom hudobných efektov, ktoré pracujú na základe úpravy latentných parametrov neurónovej siete. Práca má 52 strán a po jazykovej a typografickej stránke obsahuje minimum chýb. Použitá literatúra je dostatočne citovaná.

V práci študent prispôsobil autoenkóder dostupný z literatúry tak, aby umožnil úpravu jeho troch latentných parametrov: základnej frekvencie, hlasitosti a farby zvuku. Pomocou ich rôznych modifikácií vytvoril šesť hudobných efektov. Každý z efektov sa zameriava na úpravu vždy len jedného latentného parametru. Efekty sú voliteľné a kombinovateľné. Výsledky úspešne demonštroval na nahrávkach huslí a klarinetu. Zadanie práce preto považujem za splnené.

Moja drobná výhrada smeruje k fáze testovania, kde študent mohol efekty overiť na širšom spektre databáz. Taktiež mohol navrhnúť komplexnejší efekt využívajúci úpravu viacerých latentných parametrov naraz. To však čiastočne kompenzuje možnosťou vzájomnej kombinácie efektov. Vyzdvihnúť musím jeho celkovú aktivitu počas semestra. Študent k práci pristupoval s veľkým úsilím, pracoval systematicky a pravidelne konzultoval. Prácu celkovo hodnotím 91 bodmi. Points proposed by supervisor: 91

Grade proposed by supervisor: A

Reviewer’s report
Ing. David Leitgeb

Cílem bakalářské práce byl návrh několika experimentálních hudebních efektů umožňujících změnu latentních parametrů získaných ze vstupního signálu. Toho bylo dosaženo pomocí autoenkodéru, který byl převzat z doporučené literatury a pro účely této práce dále upraven. Součástí práce je také srovnání dvou různých knihoven a zdůvodnění, proč byla pro implementaci zvolena starší knihovna DDSP. Funkčnost implementovaných efektů je demonstrována na několika grafických i zvukových ukázkách. Cíle stanovené v zadání práce považuji za splněné.

Text práce je vhodně členěn do jednotlivých kapitol a je napsán srozumitelně. Po formální stránce je práce téměř zcela v pořádku a splňuje základní typografická pravidla. Mezi slabší stránky patří pouze drobné jazykové nedostatky, občasné nevhodně zvolené formulace a u některých grafických ukázek také menší velikost písma či použití rastrového formátu místo vektorového.

Oceňuji kapitoly zaměřené na představení obou doporučených knihoven a jejich srovnání společně s odůvodněním výběru starší knihovny DDSP. Student v textu uvádí příklady několika problémů, které se během implementace objevily. Zmiňuje také ošetření některých problémů, které by se mohly při běhu kódu vyskytnout, což dokládá, že se nad implementací zamýšlel. V praktické části práce bych však ocenil otestování navržených hudebních efektů na větším počtu signálů, případně vytvoření komplexnějšího efektu, který by kladl ještě větší důraz na experimentálnost požadovanou v zadání práce. Topics for thesis defence:
  1. Jak náročné by bylo rozšíření současné podoby modelu o uživatelské prostředí a možnost běhu v reálném čase, jak naznačujete v závěru práce?
  2. Zkoušel jste pomocí natrénovaného modelu zpracovat i jiné typy zvuků než ty, které byly použity při trénování? Jaký vliv lze v takovém případě očekávat na výstupní signál? Můžete uvést příklad?
Points proposed by reviewer: 90

Grade proposed by reviewer: A

Responsibility: Mgr. et Mgr. Hana Odstrčilová