Master's Thesis

Voice and music separation tool for speech transcription purposes

Final Thesis 5.03 MB Appendix 2.13 MB

Author of thesis: Bc. Roman Křivánek

Acad. year: 2025/2026

Supervisor: doc. Ing. Tomáš Frýza, Ph.D.

Abstract:

This diploma thesis presents the design, implementation, and evaluation of a software application for audio source separation and speech transcription. The application integrates advanced separation methods, including Spleeter, Demucs, and Open-Unmix, with speech transcription backends such as Whisper, Wav2Vec2, and Vosk. A modular backend architecture with a graphical user interface allows local execution, user configuration, and support for pre-trained models. Evaluation using the MUSDB18-hq dataset demonstrates that Demucs achieves the highest separation performance, while Spleeter offers computational efficiency. The work provides a functional, extensible platform for further development, including specialized speech transcription and cross-platform deployment.

Keywords:

audio source separation, speech transcription, deep learning, Python, MUSDB18-hq, Spleeter, Demucs, Open-Unmix, Whisper, Wav2Vec2, Vosk

Date of defence

09.06.2026

Result of the defence

Defended (thesis was successfully defended)

znamkaAznamka

Grading

Process of defence

Student prezentuje výsledky a postupy řešení závěrečné práce. Následně odpovídá na dotazy vedoucího a oponenta práce a na dotazy členů zkušební komise.

Language of thesis

English

Faculty

Fakulta elektrotechniky a komunikačních technologií

Department

Department of Radio Electronics

Study programme

Electronics and Communication Technologies (MPC-EKT)

Composition of Committee

doc. Ing. Tomáš Frýza, Ph.D. (předseda)
doc. Ing. Ladislav Polák, Ph.D. (místopředseda)
Ing. Tomáš Urbanec, Ph.D. (člen)
doc. Ing. Jan Mikulka, Ph.D. (člen)
doc. Ing. Patrik Kamencay, Ph.D. (člen)

Supervisor’s report
doc. Ing. Tomáš Frýza, Ph.D.

Student Roman Křivánek pracoval na tématu--původně zadaném z Filozofické fakulty Masarykovy univerzity v Brně (Ústav románských jazyků a literatur)--které slouží k separaci vokální stopy z hudebních nahrávek; konkrétně z francouzského rapu. Ve své práci vytvořil nástroj v jazyce Python, využívající dostupné aplikace pro separaci, kódování a transkripci audio signálů (konkrétně Spleeter, Demucs, Open-Unmix, Whisper, Wav2Vec2 a Vosk). Primárně pro platformu Windows.

Během letního semestru student pravidelně (každé 2 týdny) konzultoval svůj pokrok, včetně praktických ukázek. Oceňuji jeho otevřenost vůči dalším nápadům a jeho schopnost zapracovávat dílčí vylepšení a samostatně řešit praktické problémy spojené se softwarovým vývojem. Některé části textové dokumentace mohly být dopracovány detailněji, ale hlavní popis funkcionalit a testování samotného nástroje je kvalitní.

Vytvořený open-source nástroj je dostupný na veřejném GitHub repozitáři (https://github.com/krivanekroman76/DiplomaThesis/) a představuje užitečnou pomůcku, která bude využita ve výzkumu románských jazyků na FF MUNI v Brně. Points proposed by supervisor: 96

Grade proposed by supervisor: A

Reviewer’s report
doc. Ing. Roman Jarina, PhD.

Posudek, viz příloha. Topics for thesis defence:

In your opinion, to what extent is the quality of automatic transcription limited by the quality of vocal separation itself, and to what extent by the characteristics of the ASR model used? Did you observe cases where better source separation did not lead to better transcription accuracy? If so, how would you explain this phenomenon?
What changes would be required to integrate a new audio source separation or transcription model into the application?

Points proposed by reviewer: 98

Grade proposed by reviewer: A

File inserted by the reviewer	Size
Posudek oponenta [.pdf]	25,75 kB

Responsibility: Mgr. et Mgr. Hana Odstrčilová

VUT

Faculties and university institutes

Parts

Voice and music separation tool for speech transcription purposes