bakalářská práce

Experimentální hudební efekt s využitím neuronové sítě

Text práce 4.53 MB Příloha 14.11 MB

Autor práce: Kristian Major

Ak. rok: 2025/2026

Vedoucí: Ing. Peter Balušík

Oponent: Ing. David Leitgeb

Abstrakt:

Tato bakalářská práce se zabývá návrhem a implementací experimentálních hudebních efektů s využitím neuronové sítě. Teoretická část představuje a srovnává knihovny pro diferencovatelné číslicové zpracování signálů (DDSP a NablAFx). Pro praktickou realizaci byla na základě rešerše zvolena knihovna DDSP. Jádro celé práce pak tvoří implementace vlastní třídy autoenkodéru, do které bylo naprogramováno šest hudebních efektů (Pitch Shifter, LD-Chopper, Noiser, Z-LFO, Timbre Freeze a Harmonizer). Tyto efekty manipulují se základní frekvencí, amplitudovou obálkou či latentní barvou zvuku před samotnou resyntézou (nebo během ní). Funkčnost a šíře zvukových úprav celého modelu byla úspěšně otestována a vizuálně demonstrována na zvukových databázích sólových nahrávek houslí a klarinetu. Práce prokazuje využitelnost grey-box modelů v oblasti návrhu zvukových efektů a zvukového designu.

Klíčová slova:

DDSP, Grey-box modelování, Hudební efekty, Neuronové sítě

Termín obhajoby

18.06.2026

Výsledek obhajoby

obhájeno (práce byla úspěšně obhájena)

znamkaAznamka

Klasifikace

A

Průběh obhajoby

Student prezentoval výsledky své práce a komise byla seznámena s posudky. Student obhájil bakalářskou práci a odpověděl na otázky členů komise a oponenta. Jak náročné by bylo rozšíření současné podoby modelu o uživatelské prostředí a možnost běhu v reálném čase, jak naznačujete v závěru práce? Zkoušel jste pomocí natrénovaného modelu zpracovat i jiné typy zvuků než ty, které byly použity při trénování? Jaký vliv lze v takovém případě očekávat na výstupní signál? Můžete uvést příklad? Jak je ve schématech uvedených v práci znázorněna neuronová síť? Student dostatečně vystvětlil otázky.

Jazyk práce

čeština

Fakulta

Ústav

Studijní program

Audio inženýrství (BPC-AUD)

Specializace

Zvuková produkce a nahrávání (AUDB-ZVUK)

Složení komise

prof. Ing. Jiří Mekyska, Ph.D. (předseda)
RNDr. Lubor Přikryl (místopředseda)
Ing. Ladislav Káňa (člen)
Ing. Benjamin Nimmerrichter (člen)
Ing. Štěpán Miklánek, Ph.D. (člen)

Posudek vedoucího
Ing. Peter Balušík

Bakalárska práca sa zaoberá experimentálnym návrhom hudobných efektov, ktoré pracujú na základe úpravy latentných parametrov neurónovej siete. Práca má 52 strán a po jazykovej a typografickej stránke obsahuje minimum chýb. Použitá literatúra je dostatočne citovaná.

V práci študent prispôsobil autoenkóder dostupný z literatúry tak, aby umožnil úpravu jeho troch latentných parametrov: základnej frekvencie, hlasitosti a farby zvuku. Pomocou ich rôznych modifikácií vytvoril šesť hudobných efektov. Každý z efektov sa zameriava na úpravu vždy len jedného latentného parametru. Efekty sú voliteľné a kombinovateľné. Výsledky úspešne demonštroval na nahrávkach huslí a klarinetu. Zadanie práce preto považujem za splnené.

Moja drobná výhrada smeruje k fáze testovania, kde študent mohol efekty overiť na širšom spektre databáz. Taktiež mohol navrhnúť komplexnejší efekt využívajúci úpravu viacerých latentných parametrov naraz. To však čiastočne kompenzuje možnosťou vzájomnej kombinácie efektov. Vyzdvihnúť musím jeho celkovú aktivitu počas semestra. Študent k práci pristupoval s veľkým úsilím, pracoval systematicky a pravidelne konzultoval. Prácu celkovo hodnotím 91 bodmi. Výsledný počet bodů navržený vedoucím: 91

Známka navržená vedoucím: A

Posudek oponenta
Ing. David Leitgeb

Cílem bakalářské práce byl návrh několika experimentálních hudebních efektů umožňujících změnu latentních parametrů získaných ze vstupního signálu. Toho bylo dosaženo pomocí autoenkodéru, který byl převzat z doporučené literatury a pro účely této práce dále upraven. Součástí práce je také srovnání dvou různých knihoven a zdůvodnění, proč byla pro implementaci zvolena starší knihovna DDSP. Funkčnost implementovaných efektů je demonstrována na několika grafických i zvukových ukázkách. Cíle stanovené v zadání práce považuji za splněné.

Text práce je vhodně členěn do jednotlivých kapitol a je napsán srozumitelně. Po formální stránce je práce téměř zcela v pořádku a splňuje základní typografická pravidla. Mezi slabší stránky patří pouze drobné jazykové nedostatky, občasné nevhodně zvolené formulace a u některých grafických ukázek také menší velikost písma či použití rastrového formátu místo vektorového.

Oceňuji kapitoly zaměřené na představení obou doporučených knihoven a jejich srovnání společně s odůvodněním výběru starší knihovny DDSP. Student v textu uvádí příklady několika problémů, které se během implementace objevily. Zmiňuje také ošetření některých problémů, které by se mohly při běhu kódu vyskytnout, což dokládá, že se nad implementací zamýšlel. V praktické části práce bych však ocenil otestování navržených hudebních efektů na větším počtu signálů, případně vytvoření komplexnějšího efektu, který by kladl ještě větší důraz na experimentálnost požadovanou v zadání práce. Otázky k obhajobě:
  1. Jak náročné by bylo rozšíření současné podoby modelu o uživatelské prostředí a možnost běhu v reálném čase, jak naznačujete v závěru práce?
  2. Zkoušel jste pomocí natrénovaného modelu zpracovat i jiné typy zvuků než ty, které byly použity při trénování? Jaký vliv lze v takovém případě očekávat na výstupní signál? Můžete uvést příklad?
Výsledný počet bodů navržený oponentem: 90

Známka navržená oponentem: A

Odpovědnost: Mgr. et Mgr. Hana Odstrčilová