Přístupnostní navigace
E-přihláška
Vyhledávání Vyhledat Zavřít
dizertační práce
Autor práce: Federico Nicolás Landini, Ph.D.
Ak. rok: 2023/2024
Vedoucí: doc. Ing. Lukáš Burget, Ph.D.
Oponenti: Herve Bredin, Ph.D., Sriram Ganapathy
Diarizace mluvčího se obvykle popisuje jako úloha, která určuje, "kdo kdy mluvil" v nahrávce. Ještě před několika lety byly všechny konkurenceschopné přístupy modulární, tj. detekce hlasové aktivity, segmentace, extrakce embeddingů, shlukování a detekce a zpracování překrývající se řeči byly řešeny různými subsystémy a aplikovány jeden po druhém. Takto konstruované systémy dosahovaly ve většině scénářů nejlepších výsledků, ale měly velké potíže vypořádat se s překrývající se řečí. V poslední době vzbudil velkou pozornost nástup end-to-end modelů, které jsou schopny řešit všechny aspekty diarizace mluvčího pomocí jediného modelu a mají lepší úspěšnost, pokud jde o překrývající se řeč. Tato práce vznikla v období koexistence těchto dvou trendů. Popisujeme systém založený na bayesovském skrytém Markovově modelu používaném ke shlukování x-vektorů (embeddingů mluvčích získaných pomocí neuronové sítě), známý jako VBx, který prokázal pozoruhodnou úspěšnost na různých souborech dat a evaluačních v různých kampaních. Popíšeme jeho výhody a omezení a vyhodnotíme výsledky na různých relevantních korpusech. Poté přejdeme k metodám end-to-end neuronové diarizace (EEND). Vzhledem k potřebě velkých trénovacích sad pro trénování těchto modelů a nedostatku ručně anotovaných diarizačních dat v dostatečném množství spočívá kompromisní řešení v umělém generování trénovacích dat. Popíšeme přístup ke generování syntetických dat, která se z hlediska změn a překryvů mluvčích podobají skutečným rozhovorům. Ukážeme, jak tato metoda generování simulovaných konverzací umožňuje dosáhnout lepší úspěšnosti než dříve navržená metoda vytváření simulovaných směsí při trénování populárního EEND s enkodér-dekodér atraktory (EEND-EDA). Navrhneme také nový model založený na EEND, který nazýváme DiaPer, a ukážeme, že může dosáhnout lepších výsledků než EEND-EDA, zejména při práci s mnoha mluvčími a při zpracování překrývající se řeči.Nakonec porovnáváme oba systémy, VBx i DiaPer, na široké škále datových sad a prodiskutejeme výhody každého z nich.
Diarizace mluvčího, VBx, neuronová diarizace end-to-end, simulované rozhovory, DiaPer.
Termín obhajoby
27.06.2024
Výsledek obhajoby
obhájeno (práce byla úspěšně obhájena)
Průběh obhajoby
Student přednesl cíle a výsledky, kterých v rámci řešení disertační práce dosáhl. V rozpravě student odpověděl na otázky komise a oponentů a hostů. Diskuze je zaznamenána na diskuzních lístcích, které jsou přílohou protokolu. Počet diskuzních lístků: 7 Komise se v závěru jednomyslně usnesla, že student splnil podmínky pro udělení akademického titulu doktor. Komise jednomyslně doporučuje, aby studentovi byla udělena cena za výjimečně kvalitní disertační práci. The student presented the goals and results, which he achieved within the solution of the dissertation. The student has competently answered the questions of the committee members and reviewers and guests. The discussion is recorded on the discussion sheets, which are attached to the protocol. Number of discussion sheets: 7 The committee has agreed unanimously that the student has fulfilled requirements for being awarded the academic title Ph.D. The committee recommends awarding the thesis the deans prize.
Jazyk práce
angličtina
Fakulta
Fakulta informačních technologií
Ústav
Ústav počítačové grafiky a multimédií
Studijní program
Výpočetní technika a informatika (VTI-DR-4)
Studijní obor
Výpočetní technika a informatika (DVI4)
Složení komise
doc. Ing. Jan Kořenek, Ph.D. (předseda) doc. Ing. Zdeněk Žabokrtský, Ph.D. (člen) doc. Mgr. Hana Rudová, Ph.D. (člen) prof. Ing. Hynek Heřmanský, Dr. Eng. (člen) Assoc. Prof. Sriram Ganapathy, PhD. (člen)
Posudek vedoucíhodoc. Ing. Lukáš Burget, Ph.D.
Posudek oponentaHerve Bredin, Ph.D.
Posudek oponentaSriram Ganapathy
Odpovědnost: Mgr. et Mgr. Hana Odstrčilová