Přístupnostní navigace
E-application
Search Search Close
Master's Thesis
Author of thesis: Bc. Kristína Niková
Acad. year: 2025/2026
Supervisor: Ing. Michal Švento
Reviewer: Ing. David Leitgeb
The master's thesis addresses the issue of intuitive control of wavetable synthesis through semantic attributes, which replace traditional technical parameters with more accessible psychoacoustic terms. The main objective of the research is to extend an existing model based on a conditional variational autoencoder with new semantic labels, thereby expanding the control capabilities of the synthesizer. The theoretical part of the thesis analyzes the principles of wavetable synthesis, deep learning architectures, and their capacity to learn latent representations of audio signals. In the practical part, a process for creating a new dataset was designed and implemented, integrating specific psychoacoustic features assigned to individual waveforms. The model was subsequently trained on this data to generate wavetables corresponding to the specified attributes. The functionality and effectiveness of the proposed system were verified by a subjective listening test, the results of which confirm a correlation between the chosen semantic labels and the subjective perception of the generated sound. The thesis contributes to the field of intelligent interfaces for music production and sound design, demonstrating the potential of neural networks in bridging the technical and artistic aspects of sound creation.
wavetable synthesis, conditional variational autoencoder, semantic labels, psychoacoustic features, deep learning, audio signal processing, sound design
Date of defence
11.06.2026
Result of the defence
Defended (thesis was successfully defended)
Grading
A
Process of defence
Studentka prezentovala výsledky své práce a komise byla seznámena s posudky. Otázky oponenta a komise: Syntezátor z původního zdroje je dostupný také jako zásuvný modul pracující v reálném čase. Jak náročné by bylo převést současnou verzi navrženého modelu do této podoby a jaká omezení by případně bylo nutné řešit? V teoretickém úvodu práce je zmíněno, že délka vlnových tabulek je často volena jako mocnina dvou z důvodu efektivity operace modulo. Použitý dataset však obsahuje vlnové tabulky o délce 600 vzorků. Může mít tato volba znatelný dopad na výpočetní náročnost nebo výslednou kvalitu generovaného signálu? Studentka obhájila diplomovou práci a odpověděla na otázky členů komise a oponenta.
Language of thesis
Slovak
Faculty
Fakulta elektrotechniky a komunikačních technologií
Department
Department of Telecommunications
Study programme
Audio Engineering (MPC-AUD)
Specialization
Audio Production and Recording (AUDM-ZVUK)
Composition of Committee
PhDr. Aleš Dvořák (člen) prof. Ing. Jiří Mekyska, Ph.D. (předseda) doc. Ing. MgA. Mgr. Dan Dlouhý, Ph.D. (místopředseda) Ing. Miroslav Balík, Ph.D. (člen) Ing. Michal Švento (člen)
Supervisor’s reportIng. Michal Švento
Grade proposed by supervisor: A
Reviewer’s reportIng. David Leitgeb
Grade proposed by reviewer: A
Responsibility: Mgr. et Mgr. Hana Odstrčilová