diplomová práce

Nástroj pro separaci hlasu a hudby pro účely přepisu řeči

Text práce 5.03 MB Příloha 2.13 MB

Autor práce: Bc. Roman Křivánek

Ak. rok: 2025/2026

Abstrakt:

Tato diplomová práce představuje návrh, implementaci a vyhodnocení softwarové aplikace pro separaci zdrojů zvuku a přepis řeči. Aplikace integruje pokročilé metody separace, včetně nástrojů Spleeter, Demucs a Open-Unmix, s nástroji pro přepis řeči, jako jsou Whisper, Wav2Vec2 a Vosk. Modulární architektura backendu s grafickým uživatelským rozhraním umožňuje lokální spouštění, uživatelskou konfiguraci a podporu předtrénovaných modelů. Vyhodnocení pomocí datové sady MUSDB18-hq ukazuje, že Demucs dosahuje nejvyšší kvality separace, zatímco Spleeter nabízí vysokou výpočetní efektivitu. Práce poskytuje funkční a rozšiřitelnou platformu pro další vývoj, včetně specializovaného přepisu řeči a multiplatformního nasazení.

Klíčová slova:

separace zdrojů zvuku, přepis řeči, hluboké učení, Python, MUSDB18-hq, Spleeter, Demucs, Open-Unmix, Whisper, Wav2Vec2, Vosk

Termín obhajoby

09.06.2026

Výsledek obhajoby

obhájeno (práce byla úspěšně obhájena)

znamkaAznamka

Klasifikace

Průběh obhajoby

Student prezentuje výsledky a postupy řešení závěrečné práce. Následně odpovídá na dotazy vedoucího a oponenta práce a na dotazy členů zkušební komise.

Jazyk práce

angličtina

Fakulta

Fakulta elektrotechniky a komunikačních technologií

Ústav

Ústav radioelektroniky

Studijní program

Elektronika a komunikační technologie (MPC-EKT)

Složení komise

doc. Ing. Tomáš Frýza, Ph.D. (předseda)
doc. Ing. Ladislav Polák, Ph.D. (místopředseda)
Ing. Tomáš Urbanec, Ph.D. (člen)
doc. Ing. Jan Mikulka, Ph.D. (člen)
doc. Ing. Patrik Kamencay, Ph.D. (člen)

Posudek vedoucího
doc. Ing. Tomáš Frýza, Ph.D.

Student Roman Křivánek pracoval na tématu--původně zadaném z Filozofické fakulty Masarykovy univerzity v Brně (Ústav románských jazyků a literatur)--které slouží k separaci vokální stopy z hudebních nahrávek; konkrétně z francouzského rapu. Ve své práci vytvořil nástroj v jazyce Python, využívající dostupné aplikace pro separaci, kódování a transkripci audio signálů (konkrétně Spleeter, Demucs, Open-Unmix, Whisper, Wav2Vec2 a Vosk). Primárně pro platformu Windows.

Během letního semestru student pravidelně (každé 2 týdny) konzultoval svůj pokrok, včetně praktických ukázek. Oceňuji jeho otevřenost vůči dalším nápadům a jeho schopnost zapracovávat dílčí vylepšení a samostatně řešit praktické problémy spojené se softwarovým vývojem. Některé části textové dokumentace mohly být dopracovány detailněji, ale hlavní popis funkcionalit a testování samotného nástroje je kvalitní.

Vytvořený open-source nástroj je dostupný na veřejném GitHub repozitáři (https://github.com/krivanekroman76/DiplomaThesis/) a představuje užitečnou pomůcku, která bude využita ve výzkumu románských jazyků na FF MUNI v Brně. Výsledný počet bodů navržený vedoucím: 96

Známka navržená vedoucím: A

Posudek oponenta
doc. Ing. Roman Jarina, PhD.

Posudek, viz příloha. Otázky k obhajobě:

In your opinion, to what extent is the quality of automatic transcription limited by the quality of vocal separation itself, and to what extent by the characteristics of the ASR model used? Did you observe cases where better source separation did not lead to better transcription accuracy? If so, how would you explain this phenomenon?
What changes would be required to integrate a new audio source separation or transcription model into the application?

Výsledný počet bodů navržený oponentem: 98

Známka navržená oponentem: A

Soubor vložený oponentem	Velikost
Posudek oponenta [.pdf]	25,75 kB

Odpovědnost: Mgr. et Mgr. Hana Odstrčilová

VUT

Fakulty a vysokoškolské ústavy

Součásti

Nástroj pro separaci hlasu a hudby pro účely přepisu řeči