Detail předmětu

Zpracování řeči

FEKT-MPC-ZREAk. rok: 2024/2025

Předmět podává ucelený pohled na různé současné oblasti zpracování řečových signálů, které se ve verbální komunikaci objevují. Nejprve je uveden způsob tvorby řeči a její vnímání a je popsáno sluchové ústrojí člověka a proces slyšení. Potom jsou probrány segmentální a suprasegmentální parametry, které se při analýze řeči nejvíce používají. Dále pak jsou zmíněny všechny důležité oblasti zpracování řeči, především analýza řeči, rozpoznávání vzoru, syntéza a kódování řeči. S tím jsou spojené metody analýzy základního tónu řeči, modelování prozodie, emoční analýza, analýza řečových patologií, de-identifikace řeči, vodoznační řeči atd. Dále je pozornost věnována jednokanálovým a vícekanálovým metodám zvýraznění řeči a potlačení šumu. Nakonec jsou popsány objektivní a subjektivní metody posuzování kvality a srozumitelnosti řeči.

Jazyk výuky

čeština

Počet kreditů

6

Vstupní znalosti

Jsou požadovány znalosti na úrovni bakalářského studia. Dále je požadována znalost metod a algoritmů číslicového zpracování signálu. Navíc by měli mít studenti základy programování v prostředí Matlab. Práce v laboratoři je podmíněna platnou kvalifikací „osoby znalé pro samostatnou činnost“, kterou musí studenti získat před zahájením výuky. Informace k této kvalifikaci jsou uvedeny ve Směrnici děkana Seznámení studentů s bezpečnostními předpisy.

Pravidla hodnocení a ukončení předmětu

Pro úspěšné ukončení předmětu je nutné absolvovat povinně počítačová cvičení a získat zápočet. Z počítačových laboratoří mohou studenti získat 30 bodů ze 100. Zbylých 70 bodů mohou získat úspěšným složením závěrečné písemné zkoušky.
Vymezení kontrolované výuky a způsob jejího provádění stanoví každoročně aktualizovaná vyhláška garanta předmětu.

Učební cíle

Cílem je poskytnout ucelený pohled na systémy řečové komunikace v informačních a telekomunikačních systémech. Je určen studentům, kteří si chtějí osvojit základní a pokročilé techniky analýzy, kódování a syntézy řeči. Mimo základních principů ověřování mluvčího se studenti seznámí s problematikou jednokanálové a vícekanálové separace řeči z hlučného pozadí, principy automatického rozpoznávání řeči a aplikacemi v oblasti zdravotnictví. Kromě toho studenti budou v počítačových laboratořích analyzovat řečový signál v reálném čase.
Absolvent předmětu je schopen:
- popsat hlasové a sluchové ústrojí, způsob tvorby řeči a její vnímání
- analyzovat řeč pomocí nejpoužívanějších segmentálních a suprasegmentálních parametrů
- využívat kepstrální a lineární predikční analýzu
- využívat strojové učení v oblasti zpracování řeči (rozpoznávání řeči, rozpoznávání řečníků, identifikace řečových patologií, identifikace emocí řečníka atd.)
- navrhnout a realizovat systém TTS (text-to-speech) založený na konkatenační syntéze
- modelovat hlasový trakt a provádět kódování řeči
- používat objektivní a subjektivní testy kvality a srozumitelnosti řeči
- zvýrazňovat řeč jednokanálovými a vícekanálovými metodami
- navrhnout systém vodoznačení a de-identifikace řeči
- zpracovávat/analyzovat řečové signály v prostředí Matlab

Základní literatura

SMÉKAL, Z. Zpracování řeči. Brno: Vysoké učení technické v Brně, 2012. s. 1-171. ISBN: 978-80-214-4896-4. (CS)
PSUTKA, J.; MÜLLER, L.; MATOUŠEK, J.; RADOVÁ, V. Mluvíme s počítačem česky. 1. vyd. Praha: Academia, 2006. ISBN 978-80-200-1309-5. (CS)

Zařazení předmětu ve studijních plánech

  • Program MPC-TIT magisterský navazující, 1. ročník, letní semestr, povinně volitelný

  • Program MPC-AUD magisterský navazující

    specializace AUDM-TECH , 2. ročník, letní semestr, povinně volitelný
    specializace AUDM-ZVUK , 2. ročník, letní semestr, povinně volitelný

Typ (způsob) výuky

 

Přednáška

26 hod., nepovinná

Vyučující / Lektor

Osnova

1. Způsob tvorby řeči a její vnímání. Sluchové ústrojí a proces slyšení
2. Analýza řečových signálů, segmentální a suprasegmentální parametry I, analýza základního tónu řeči
3. Analýza řečových signálů, segmentální a suprasegmentální parametry II
4. Analýza řečových signálů III, rozpoznávání vzoru (klasifikace založená na vzdálenostech)
5. Rozpoznávání vzoru (statistické klasifikátory)
6. Syntéza řeči a systémy typu TTS, modelování prozodie
7. Kódování řeči a její přenos
8. Objektivní a subjektivní metody posuzování kvality řeči a její srozumitelnosti
9. Jednokanálové a vícekanálové metody zvýrazňování řeči
10. Analýza emocí a její aplikace
11. Analýza neurodegenerativních onemocnění
12. Vodoznační řeči, de-identifikace řeči  

Laboratorní cvičení

39 hod., povinná

Vyučující / Lektor

Osnova

1. Fonetická a akustická analýza prvků řeči. Předzpracování řečových signálů.
2. Suprasegmentální rysy
3. Lineární predikční analýza řeči
4. Kepstrální analýza řeči
5. Rozpoznávání vzoru
6. Klasifikátory. Redukce příznakového prostoru.
7. Systémy TTS
8. Registrace projektů a písemný test
9. Práce na projektech
10. Práce na projektech
11. Práce na projektech
12. Odevzdávání a obhajoba projektů