diplomová práce

Ovladatelná wavetable syntéza na základě sémantických značek

Text práce 3.95 MB Příloha 1.79 MB

Autor práce: Bc. Kristína Niková

Ak. rok: 2025/2026

Vedoucí: Ing. Michal Švento

Oponent: Ing. David Leitgeb

Abstrakt:

Diplomová práca sa zaoberá problematikou intuitívneho ovládania wavetable syntézy prostredníctvom sémantických atribútov, ktoré nahrádzajú tradičné technické parametre zrozumiteľnejšími psychoakustickými pojmami. Hlavným cieľom práce je rozšírenie existujúceho modelu založeného na podmienenom variačnom autoenkodéri o nové sémantické značky, čím sa rozširuje možnosť ovládania syntetizátora. Teoretická časť práce analyzuje princípy wavetable syntézy, architektúry hlbokého učenia a ich schopnosť učiť sa latentné reprezentácie zvukových signálov. V praktickej časti bol navrhnutý a realizovaný proces tvorby novej dátovej sady, ktorá integruje špecifické psychoakustické príznaky priradené k jednotlivým vlnovým priebehom. Model bol následne natrénovaný na týchto dátach tak, aby dokázal generovať vlnové tabuľky zodpovedajúce zadaným atribútom. Funkčnosť a efektivita navrhnutého systému boli overené subjektívnym posluchovým testom, ktorého výsledky potvrdzujú koreláciu medzi zvolenými sémantickými atribútmi a subjektívnym vnímaním generovaného zvuku. Práca prináša príspevok v oblasti inteligentných rozhraní pre hudobnú produkciu a zvukový dizajn, pričom demonštruje potenciál neurónových sietí pri premosťovaní technickej a umeleckej stránky tvorby zvuku.

Klíčová slova:

wavetable syntéza, podmienený variačný autoenkodér, sémantické značky, psychoakustické príznaky, hlboké učenie, spracovanie zvukových signálov, zvukový dizajn

Termín obhajoby

11.06.2026

Výsledek obhajoby

obhájeno (práce byla úspěšně obhájena)

znamkaAznamka

Klasifikace

A

Průběh obhajoby

Studentka prezentovala výsledky své práce a komise byla seznámena s posudky. Otázky oponenta a komise: Syntezátor z původního zdroje je dostupný také jako zásuvný modul pracující v reálném čase. Jak náročné by bylo převést současnou verzi navrženého modelu do této podoby a jaká omezení by případně bylo nutné řešit? V teoretickém úvodu práce je zmíněno, že délka vlnových tabulek je často volena jako mocnina dvou z důvodu efektivity operace modulo. Použitý dataset však obsahuje vlnové tabulky o délce 600 vzorků. Může mít tato volba znatelný dopad na výpočetní náročnost nebo výslednou kvalitu generovaného signálu? Studentka obhájila diplomovou práci a odpověděla na otázky členů komise a oponenta.

Jazyk práce

slovenština

Fakulta

Ústav

Studijní program

Audio inženýrství (MPC-AUD)

Specializace

Zvuková produkce a nahrávání (AUDM-ZVUK)

Složení komise

PhDr. Aleš Dvořák (člen)
prof. Ing. Jiří Mekyska, Ph.D. (předseda)
doc. Ing. MgA. Mgr. Dan Dlouhý, Ph.D. (místopředseda)
Ing. Miroslav Balík, Ph.D. (člen)
Ing. Michal Švento (člen)

Posudek vedoucího
Ing. Michal Švento

Diplomová práca bakalárky Kristíny Nikovej sa zaoberá problematikou používateľsky prívetivého ovládania syntetizátorov pomocou sémantických značiek s využitím wavetable syntézy. Práca má 63 strán, je dobre členená a jej text sa číta veľmi dobre. Obsahuje len malé množstvo chýb a nepresností.

Študentka v teoretickej časti opisuje základy wavetable syntézy a modelov hlbokého učenia. Teoretickú časť podporuje množstvom vlastných diagramov, ktoré zvyšujú kvalitu práce. V praktickej časti detailne opisuje popis siete, ktorú trénuje a problémy, ktoré sa vyskytli počas jej tréningu. Oceňujem najmä analýzu datasetu, ktorú študentka vykonala a na základe ktorej navrhla zlepšenia. Tie následne aplikovala pri ďalšom tréningu, čo umožnilo rozšíriť počet ovládateľných parametrov. Následne navrhla posluchový test a analýzovala ho. Výsledky posluchového testu by bolo vhodné doplniť o štatistickú analýzu, ktorá by poskytla silnejšiu oporu pre prezentované závery, čo v texte chýba.

S prácou študentky som bol počas celého roka veľmi spokojný, pretože pracovala samostatne a sama prichádzala s nápadmi a návrhmi na zlepšenie, ktoré so mnou pravidelne konzultovala. Chválim taktiež prezentáciu príspevku na študentskej konferencii EEICT. Zadanie považujem za splnené a prácu hodnotím 95 bodmi/A. Výsledný počet bodů navržený vedoucím: 95

Známka navržená vedoucím: A

Posudek oponenta
Ing. David Leitgeb

Cílem diplomové práce bylo rozšíření existujícího wavetable syntezátoru, jehož ovládací prvky umožňují uživateli měnit vlastnosti generovaného signálu na základě sémantických značek. Jednotlivé cíle stanovené v zadání práce považuji za splněné a celkově k práci nemám téměř žádné výhrady.

Text práce je na velmi dobré odborné úrovni, je logicky členěný a obsahuje řadu grafických ukázek, které vhodně doplňují popisovanou problematiku. V práci se vyskytují pouze drobné nedostatky, které však nijak zásadně nenarušují její srozumitelnost ani celkovou úroveň.

Oceňuji teoretickou část práce, která čtenáři pomáhá zorientovat se v řešené problematice a je podložena řadou relevantních zdrojů. Pozitivně hodnotím také část zaměřenou na analýzu a odstranění nedostatků zvoleného datasetu, což by mělo vést ke zvýšení přesnosti trénovaného modelu. Součástí práce je rovněž poslechový test s vlastním interaktivním prostředím, pomocí něhož byla získána data od několika respondentů. Výsledky tohoto testu jsou diskutovány v závěrečné části práce. Veškeré zdrojové kódy k implementaci provedené v rámci diplomové práce jsou kromě přílohy dostupné také v repozitářích na platformě GitHub. Při pokusu o spuštění zdrojového kódu se nicméně i při dodržení pokynů uvedených v popisu repozitáře objevil problém s kompatibilitou některých použitých knihoven. Vzhledem k tomu, že verze těchto knihoven jsou přesně definovány v konfiguračním souboru, však tento problém nepovažuji za nedostatek práce studentky. Celkově je z odevzdané práce patrné, že jejímu zpracování studentka věnovala značné úsilí. Otázky k obhajobě:
  1. Syntezátor z původního zdroje je dostupný také jako zásuvný modul pracující v reálném čase. Jak náročné by bylo převést současnou verzi navrženého modelu do této podoby a jaká omezení by případně bylo nutné řešit?
  2. V teoretickém úvodu práce je zmíněno, že délka vlnových tabulek je často volena jako mocnina dvou z důvodu efektivity operace modulo. Použitý dataset však obsahuje vlnové tabulky o délce 600 vzorků. Může mít tato volba znatelný dopad na výpočetní náročnost nebo výslednou kvalitu generovaného signálu?
Výsledný počet bodů navržený oponentem: 95

Známka navržená oponentem: A

Odpovědnost: Mgr. et Mgr. Hana Odstrčilová