dizertační práce

Zvyšování robustnosti systémů pro rozpoznávání mluvčích pomocí diskriminativních technik

Autor práce: Ing. Ondřej Novotný, Ph.D.

Ak. rok: 2021/2022

Abstrakt:

Tato práce pojednává o využití diskriminativních technik v oblasti rozpoznávání mluvčích za účelem získání větší robustnosti těchto systémů vůči vlivům negativně ovlivňující jejich výkonnost. Mezi tyto vlivy řadíme šum, reverberaci nebo přenosový kanál.

Práce je rozdělena do dvou hlavních částí. V první části se věnujeme teoretickému úvodu do problematiky rozpoznávání mluvčích. Popsány jsou jednotlivé kroky rozpoznávacího systému od extrakce akustických příznaků, extrakce vektorových reprezentací nahrávek, až po tvorbu finálního rozpoznávacího skóre. Zvláštní důraz je věnován technikám extrakce vektorové reprezentace nahrávky, kdy popisujeme dvě rozdílná paradigmata možného přístupu, i-vektory a x-vektory.

Druhá část práce se již více věnuje diskriminativním technikám pro zvýšení robustnosti. Techniky jsou organizovány tak, aby odpovídaly postupnému průchodu nahrávky rozpoznávacím systémem. Nejdříve je věnována pozornost předzpracování signálu pomocí neuronové sítě pro odšumění a obohacení signálu řeči jako univerzální technice, která je nezávislá na následně použitém rozpoznávacím systému. Dále se zameřujeme na využití diskriminativního přístupu při extrakci příznaků a extrakci vektorových reprezentací nahrávek.

Práce rovněž pokrývá přechod od generativního paradigmatu k plně diskriminativnímu přístupu v systémech pro rozpoznávání mluvčích. Veškeré techniky jsou následně vždy experimentálně ověřeny a zhodnocen jejich přínos. V práci je navrženo několik přístupů, které se osvědčily jak u generativního přístupu v podobě i-vektorů, tak i u diskriminativních x-vektorů, a díky nim bylo dosaženo významného zlepšení.

Pro úplnost jsou, v oblasti problematiky robustnosti, do práce zařazeny i další techniky, jako je normalizace skóre, či více-scénářové trénování systémů.
Závěrem se práce zabývá problematikou robustnosti diskriminativních systému z pohledu dat využitých při jejich trénování.

Klíčová slova:

Rozpoznávání mluvčího, generativní trénování, diskriminativní trénování, obohacování řečového signálu, i-vektor, x-vektor, robustnost, šum, reverberace, neuronové sítě.

Termín obhajoby

03.12.2021

Výsledek obhajoby

obhájeno (práce byla úspěšně obhájena)

znamkaPznamka

Průběh obhajoby

Student přednesl cíle a výsledky, kterých v rámci řešení disertační práce dosáhl. V rozpravě student odpověděl na otázky komise a oponentů a hostů. Diskuze je zaznamenána na diskuzních lístcích, které jsou přílohou protokolu. Počet diskuzních lístků: 1 Komise se v závěru jednomyslně usnesla, že student splnil podmínky pro udělení akademického titulu doktor.

Jazyk práce

angličtina

Fakulta

Fakulta informačních technologií

Ústav

Ústav počítačové grafiky a multimédií

Studijní program

Výpočetní technika a informatika (VTI-DR-4)

Studijní obor

Výpočetní technika a informatika (DVI4)

Složení komise

prof. Ing. Martin Drahanský, Ph.D. (předseda)
prof. Ing. Adam Herout, Ph.D. (člen)
doc. RNDr. Aleš Horák, Ph.D. (člen)
doc. Ing. Radim Kolář, Ph.D. (člen)
doc. Ing. Petr Pollák, CSc. (člen)

Posudek vedoucího
prof. Dr. Ing. Jan Černocký

Soubor vložený vedoucím	Velikost
Hodnocení školitele [.pdf]	72,27 kB

Posudek oponenta
Luciana Ferrer

Soubor vložený oponentem	Velikost
Posudek oponenta [.pdf]	75,35 kB

Posudek oponenta
Petr Pollák

Soubor vložený oponentem	Velikost
Posudek oponenta [.pdf]	48,35 kB

Odpovědnost: Mgr. et Mgr. Hana Odstrčilová

VUT

Fakulty

Vysokoškolské ústavy

Součásti

Zvyšování robustnosti systémů pro rozpoznávání mluvčích pomocí diskriminativních technik