Přístupnostní navigace
E-přihláška
Vyhledávání Vyhledat Zavřít
dizertační práce
Autor práce: Ing. Ondřej Novotný, Ph.D.
Ak. rok: 2021/2022
Vedoucí: prof. Dr. Ing. Jan Černocký
Oponenti: Luciana Ferrer, Petr Pollák
Tato práce pojednává o využití diskriminativních technik v oblasti rozpoznávání mluvčích za účelem získání větší robustnosti těchto systémů vůči vlivům negativně ovlivňující jejich výkonnost. Mezi tyto vlivy řadíme šum, reverberaci nebo přenosový kanál.Práce je rozdělena do dvou hlavních částí. V první části se věnujeme teoretickému úvodu do problematiky rozpoznávání mluvčích. Popsány jsou jednotlivé kroky rozpoznávacího systému od extrakce akustických příznaků, extrakce vektorových reprezentací nahrávek, až po tvorbu finálního rozpoznávacího skóre. Zvláštní důraz je věnován technikám extrakce vektorové reprezentace nahrávky, kdy popisujeme dvě rozdílná paradigmata možného přístupu, i-vektory a x-vektory. Druhá část práce se již více věnuje diskriminativním technikám pro zvýšení robustnosti. Techniky jsou organizovány tak, aby odpovídaly postupnému průchodu nahrávky rozpoznávacím systémem. Nejdříve je věnována pozornost předzpracování signálu pomocí neuronové sítě pro odšumění a obohacení signálu řeči jako univerzální technice, která je nezávislá na následně použitém rozpoznávacím systému. Dále se zameřujeme na využití diskriminativního přístupu při extrakci příznaků a extrakci vektorových reprezentací nahrávek.Práce rovněž pokrývá přechod od generativního paradigmatu k plně diskriminativnímu přístupu v systémech pro rozpoznávání mluvčích. Veškeré techniky jsou následně vždy experimentálně ověřeny a zhodnocen jejich přínos. V práci je navrženo několik přístupů, které se osvědčily jak u generativního přístupu v podobě i-vektorů, tak i u diskriminativních x-vektorů, a díky nim bylo dosaženo významného zlepšení. Pro úplnost jsou, v oblasti problematiky robustnosti, do práce zařazeny i další techniky, jako je normalizace skóre, či více-scénářové trénování systémů. Závěrem se práce zabývá problematikou robustnosti diskriminativních systému z pohledu dat využitých při jejich trénování.
Rozpoznávání mluvčího, generativní trénování, diskriminativní trénování, obohacování řečového signálu, i-vektor, x-vektor, robustnost, šum, reverberace, neuronové sítě.
Termín obhajoby
03.12.2021
Výsledek obhajoby
obhájeno (práce byla úspěšně obhájena)
Průběh obhajoby
Student přednesl cíle a výsledky, kterých v rámci řešení disertační práce dosáhl. V rozpravě student odpověděl na otázky komise a oponentů a hostů. Diskuze je zaznamenána na diskuzních lístcích, které jsou přílohou protokolu. Počet diskuzních lístků: 1 Komise se v závěru jednomyslně usnesla, že student splnil podmínky pro udělení akademického titulu doktor.
Jazyk práce
angličtina
Fakulta
Fakulta informačních technologií
Ústav
Ústav počítačové grafiky a multimédií
Studijní program
Výpočetní technika a informatika (VTI-DR-4)
Studijní obor
Výpočetní technika a informatika (DVI4)
Složení komise
prof. Ing. Martin Drahanský, Ph.D. (předseda) prof. Ing. Adam Herout, Ph.D. (člen) doc. RNDr. Aleš Horák, Ph.D. (člen) doc. Ing. Radim Kolář, Ph.D. (člen) doc. Ing. Petr Pollák, CSc. (člen)
Posudek vedoucíhoprof. Dr. Ing. Jan Černocký
Posudek oponentaLuciana Ferrer
Posudek oponentaPetr Pollák
Odpovědnost: Mgr. et Mgr. Hana Odstrčilová