Detail předmětu

Moderní metody zpracování řeči

FIT-MZDAk. rok: 2017/2018

Od jednoduchých systémů k rozpoznávání ke statistickému modelování. Skryté Markovovy modely (HMM). Rozpoznávání souvislé řeči s velkým slovníkem. Jazykové modely. Tvorba řeči. Slyšení řeči: čas a frekvence. Metody pro odvození příznaků pro rozpoznávání založené na datech. Řečové databáze. Buzení v kódování řeči, CELP. Identifikace mluvčího.

Okruhy otázek k SDZ

Základní pojmy z rozpoznávání řeči: reprezentace signálu, struktura rozpoznávacího systému.
Extrakce řečových příznaků: MFCC a PLP koeficienty, redukce dimenzionality, příznaky založené na neuronových sítích.
Skryté Markovovy modely pro rozpoznávání, základní definice - stav, přechod, vysílací hustoty pravděpodobnosti, přechodové pravděpodobnosti, sekvence stavů, Baum-Welchova a Viterbiho věrohodnost.
Rozpoznávání s HMM systémem a reprezentace výstupu - 1-best, N-best, lattices. Rozpoznávací systém založený na kompozici konečných stavových automatů.
Trénování HMM systému - maximum likelihood a diskriminativní trénování.
Jazykové modelování - n-gramy, principy aproximace neznámých pravděpodobností.
Detekce klíčových slov - pojem proti-modelu a poměru věrohodností.
Rozpoznávání jazyka - akustický a fototaktický přístup, omezení vlivu nerelevantní informace.
Rozpoznávání mluvčího - základní přístupy, přístupy založené na zpracování nízko-rozměrných vektorů v reprezentativním pod-prostoru.
Využití neuronových sítí v rozpoznávání řeči: tandemová a hybridní struktura, jazykové modely založené na NN, extrakce parametrů pomocí NN.

Jazyk výuky

čeština, angličtina

Garant předmětu

prof. Dr. Ing. Jan Černocký

Zajišťuje ústav

Ústav počítačové grafiky a multimédií (UPGM)

Výsledky učení předmětu

Absolvování předmětu umožní posluchači realizovat jednoduché aplikace jako např. hlasové ovládání programu, ale především se zapojit do vývoje komplexních systémů pro rozpoznávání a kódování řeči využívajících moderní metody, a to v akademické i průmyslové sféře.

Prerekvizity

základní znalost číslicového zpracování signálů, absolvování základního kursu o zpracování řeči je výhodou.

Způsob a kritéria hodnocení

Hodnocení studia je založeno na bodovacím systému. Pro úspěšné absolvování předmětu je nutno dosáhnout 50 bodů.

Osnovy výuky

Osnova přednášek:

Základní pojmy: signálové vektory a matice parametrů, statistiky.
Statistické modelování parametrů, modelování času stavovými sekvencemi.
Skryté Markovovy modely (HMM), struktura, trénování.
Rozpoznávání řeči pomocí HMM: Viterbiho algoritmus, předávání žetonů (token passing).
ýslovnostní slovníky a jazykové modely.
Tvorba řeči a odvozené parametry: LPC, log area ratios (LAR), line spectral pairs (LSP).
Slyšení řeči a odvozené parametry - Mel-frekvenční cepstrální koeficienty, Perceptual linear prediction (PLP).
Časové vlastnosti sluchu - RASTA filtrování.
Trénování výpočtu příznaků na datech: lineární diskriminační analýza.
Řečové databáze: standardy, obsah, mluvčí, anotace.
Vokodéry a modelování jejich buzení, multipulsní a statistické modelování (GSM kódování).
CELP kódování: dlouhodobý prediktor, kódové knihy. Kódování s velmi malým bitovým tokem.
Současné metody identifikace a ověřování mluvčího.

Učební cíle

Zmíníme se o metodách v současnosti implementovaných v průmyslových aplikacích (jako GSM telefony nebo komerčně dostupné rozpoznávače), ale neopomeneme ani perspektivní metody existující zatím pouze ve výzkumných laboratořích. Zvláštní pozornost bude věnována postupům odvozeným na řečových datech a využití poznatků o tvorbě a slyšení řeči lidmi.

Vymezení kontrolované výuky a způsob jejího provádění a formy nahrazování zameškané výuky

výuka není kontrolována, předmět je hodnocen na základě zkoušky nebo závěrečné zprávy

Základní literatura

Psutka, J.: Komunikace s s počítačem mluvenou řečí. Academia, Praha, 1995 Gold, B., Morgan, N.: Speech and audio signal processing, John Wiley & Sons, 2000 Texty z http://www.fit.vutbr.cz/~cernocky/speech/

Doporučená literatura

Moore, B.C.J., : An introduction to the psychology of hearing, Academic Press, 1989 Jelinek, F.: Statistical Methods for Speech Recognition, MIT Press, 1998 Fukunaga, K.: Introduction to Statistical Pattern Recognition, Academic Press, 1990 Vapnik, V. N.: Statistical Learning Theory, Wiley-Interscience, 1998 Dutoit, T.: An Introduction to Text-To-Speech Synthesis, Kluwer Academic Publishers, 1997

Zařazení předmětu ve studijních plánech

Program VTI-DR-4 doktorský
obor DVI4 , 0 ročník, zimní semestr, volitelný

Typ (způsob) výuky

Přednáška

39 hod., nepovinná

Vyučující / Lektor

prof. Dr. Ing. Jan Černocký

Osnova

Základní pojmy: signálové vektory a matice parametrů, statistiky.
Statistické modelování parametrů, modelování času stavovými sekvencemi.
Skryté Markovovy modely (HMM), struktura, trénování.
Rozpoznávání řeči pomocí HMM: Viterbiho algoritmus, předávání žetonů (token passing).
ýslovnostní slovníky a jazykové modely.
Tvorba řeči a odvozené parametry: LPC, log area ratios (LAR), line spectral pairs (LSP).
Slyšení řeči a odvozené parametry - Mel-frekvenční cepstrální koeficienty, Perceptual linear prediction (PLP).
Časové vlastnosti sluchu - RASTA filtrování.
Trénování výpočtu příznaků na datech: lineární diskriminační analýza.
Řečové databáze: standardy, obsah, mluvčí, anotace.
Vokodéry a modelování jejich buzení, multipulsní a statistické modelování (GSM kódování).
CELP kódování: dlouhodobý prediktor, kódové knihy. Kódování s velmi malým bitovým tokem.
Současné metody identifikace a ověřování mluvčího.

VUT

Fakulty a vysokoškolské ústavy

Součásti

Moderní metody zpracování řeči

Typ (způsob) výuky