Master's Thesis

Controllable wavetable synthesis based on semantic labels

Final Thesis 3.95 MB Appendix 1.79 MB

Author of thesis: Bc. Kristína Niková

Acad. year: 2025/2026

Supervisor: Ing. Michal Švento

Reviewer: Ing. David Leitgeb

Abstract:

The master's thesis addresses the issue of intuitive control of wavetable synthesis through semantic attributes, which replace traditional technical parameters with more accessible psychoacoustic terms. The main objective of the research is to extend an existing model based on a conditional variational autoencoder with new semantic labels, thereby expanding the control capabilities of the synthesizer. The theoretical part of the thesis analyzes the principles of wavetable synthesis, deep learning architectures, and their capacity to learn latent representations of audio signals. In the practical part, a process for creating a new dataset was designed and implemented, integrating specific psychoacoustic features assigned to individual waveforms. The model was subsequently trained on this data to generate wavetables corresponding to the specified attributes. The functionality and effectiveness of the proposed system were verified by a subjective listening test, the results of which confirm a correlation between the chosen semantic labels and the subjective perception of the generated sound. The thesis contributes to the field of intelligent interfaces for music production and sound design, demonstrating the potential of neural networks in bridging the technical and artistic aspects of sound creation.

Keywords:

wavetable synthesis, conditional variational autoencoder, semantic labels, psychoacoustic features, deep learning, audio signal processing, sound design

Date of defence

11.06.2026

Result of the defence

Defended (thesis was successfully defended)

znamkaAznamka

Grading

A

Process of defence

Studentka prezentovala výsledky své práce a komise byla seznámena s posudky. Otázky oponenta a komise: Syntezátor z původního zdroje je dostupný také jako zásuvný modul pracující v reálném čase. Jak náročné by bylo převést současnou verzi navrženého modelu do této podoby a jaká omezení by případně bylo nutné řešit? V teoretickém úvodu práce je zmíněno, že délka vlnových tabulek je často volena jako mocnina dvou z důvodu efektivity operace modulo. Použitý dataset však obsahuje vlnové tabulky o délce 600 vzorků. Může mít tato volba znatelný dopad na výpočetní náročnost nebo výslednou kvalitu generovaného signálu? Studentka obhájila diplomovou práci a odpověděla na otázky členů komise a oponenta.

Language of thesis

Slovak

Faculty

Department

Study programme

Audio Engineering (MPC-AUD)

Specialization

Audio Production and Recording (AUDM-ZVUK)

Composition of Committee

PhDr. Aleš Dvořák (člen)
prof. Ing. Jiří Mekyska, Ph.D. (předseda)
doc. Ing. MgA. Mgr. Dan Dlouhý, Ph.D. (místopředseda)
Ing. Miroslav Balík, Ph.D. (člen)
Ing. Michal Švento (člen)

Supervisor’s report
Ing. Michal Švento

Diplomová práca bakalárky Kristíny Nikovej sa zaoberá problematikou používateľsky prívetivého ovládania syntetizátorov pomocou sémantických značiek s využitím wavetable syntézy. Práca má 63 strán, je dobre členená a jej text sa číta veľmi dobre. Obsahuje len malé množstvo chýb a nepresností.

Študentka v teoretickej časti opisuje základy wavetable syntézy a modelov hlbokého učenia. Teoretickú časť podporuje množstvom vlastných diagramov, ktoré zvyšujú kvalitu práce. V praktickej časti detailne opisuje popis siete, ktorú trénuje a problémy, ktoré sa vyskytli počas jej tréningu. Oceňujem najmä analýzu datasetu, ktorú študentka vykonala a na základe ktorej navrhla zlepšenia. Tie následne aplikovala pri ďalšom tréningu, čo umožnilo rozšíriť počet ovládateľných parametrov. Následne navrhla posluchový test a analýzovala ho. Výsledky posluchového testu by bolo vhodné doplniť o štatistickú analýzu, ktorá by poskytla silnejšiu oporu pre prezentované závery, čo v texte chýba.

S prácou študentky som bol počas celého roka veľmi spokojný, pretože pracovala samostatne a sama prichádzala s nápadmi a návrhmi na zlepšenie, ktoré so mnou pravidelne konzultovala. Chválim taktiež prezentáciu príspevku na študentskej konferencii EEICT. Zadanie považujem za splnené a prácu hodnotím 95 bodmi/A. Points proposed by supervisor: 95

Grade proposed by supervisor: A

Reviewer’s report
Ing. David Leitgeb

Cílem diplomové práce bylo rozšíření existujícího wavetable syntezátoru, jehož ovládací prvky umožňují uživateli měnit vlastnosti generovaného signálu na základě sémantických značek. Jednotlivé cíle stanovené v zadání práce považuji za splněné a celkově k práci nemám téměř žádné výhrady.

Text práce je na velmi dobré odborné úrovni, je logicky členěný a obsahuje řadu grafických ukázek, které vhodně doplňují popisovanou problematiku. V práci se vyskytují pouze drobné nedostatky, které však nijak zásadně nenarušují její srozumitelnost ani celkovou úroveň.

Oceňuji teoretickou část práce, která čtenáři pomáhá zorientovat se v řešené problematice a je podložena řadou relevantních zdrojů. Pozitivně hodnotím také část zaměřenou na analýzu a odstranění nedostatků zvoleného datasetu, což by mělo vést ke zvýšení přesnosti trénovaného modelu. Součástí práce je rovněž poslechový test s vlastním interaktivním prostředím, pomocí něhož byla získána data od několika respondentů. Výsledky tohoto testu jsou diskutovány v závěrečné části práce. Veškeré zdrojové kódy k implementaci provedené v rámci diplomové práce jsou kromě přílohy dostupné také v repozitářích na platformě GitHub. Při pokusu o spuštění zdrojového kódu se nicméně i při dodržení pokynů uvedených v popisu repozitáře objevil problém s kompatibilitou některých použitých knihoven. Vzhledem k tomu, že verze těchto knihoven jsou přesně definovány v konfiguračním souboru, však tento problém nepovažuji za nedostatek práce studentky. Celkově je z odevzdané práce patrné, že jejímu zpracování studentka věnovala značné úsilí. Topics for thesis defence:
  1. Syntezátor z původního zdroje je dostupný také jako zásuvný modul pracující v reálném čase. Jak náročné by bylo převést současnou verzi navrženého modelu do této podoby a jaká omezení by případně bylo nutné řešit?
  2. V teoretickém úvodu práce je zmíněno, že délka vlnových tabulek je často volena jako mocnina dvou z důvodu efektivity operace modulo. Použitý dataset však obsahuje vlnové tabulky o délce 600 vzorků. Může mít tato volba znatelný dopad na výpočetní náročnost nebo výslednou kvalitu generovaného signálu?
Points proposed by reviewer: 95

Grade proposed by reviewer: A

Responsibility: Mgr. et Mgr. Hana Odstrčilová