diplomová práce

Vision transformery pro rozpoznávání tváří

Autor práce: Ing. Šimon Strýček

Ak. rok: 2023/2024

Abstrakt:

Tato práce se zabývá aplikací architektur neuronových sítí na bázi vision transformer (ViT) v oblasti rozpoznávání tváří. Práce se soustředí na průzkum existujících moderních ViT architektur. To zahrnuje experimenty s existujícími implementacemi, alternativními druhy dat a hledání optimálních parametrů pro trénink. Cílem této práce je prokázat potenciál vision transformerů konkurovat již dlouho dominujícím konvolučním neuronovým sítím právě v tomto oboru. Výstupem je analýza provedených experimentů, demonstrace kladů a záporů moderních architektur ViT a nalezení optimálních podmínek pro jejich využití v úlohách rozpoznávání tváří.

Klíčová slova:

rozpoznávání tváří, vision transformer, zpracování obrazu, neuronové sítě

Termín obhajoby

18.06.2024

Výsledek obhajoby

obhájeno (práce byla úspěšně obhájena)

znamkaCznamka

Klasifikace

Průběh obhajoby

Student nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta a na další otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm C.

Otázky k obhajobě

Jak je relevantní textový embedding v rámci výstupu?
Prováděl jste srovnání výstupů použitých modelů?

Jazyk práce

čeština

Fakulta

Fakulta informačních technologií

Ústav

Ústav počítačové grafiky a multimédií

Studijní program

Informační technologie a umělá inteligence (MITAI)

Specializace

Počítačové vidění (NVIZ)

Složení komise

prof. Ing. Adam Herout, Ph.D. (předseda)
doc. Ing. Michal Španěl, Ph.D. (člen)
prof. Ing. Tomáš Vojnar, Ph.D. (člen)
doc. Ing. Vítězslav Beran, Ph.D. (člen)
doc. Ing. Peter Chudý, Ph.D., MBA (člen)
Ing. David Bařina, Ph.D. (člen)

Posudek vedoucího
Ing. Jakub Špaňhel, Ph.D.

Student se zhostil zadaného úkoly svědomitě. Nastudoval si dostupné architektury a přístupy využitelné pro rozpoznávání tváří pomocí vision transformerů. V průběhu řešení DP provedl řadu experimentů a dosáhl výsledků srovnatelných se současným state of the art. Vzhledem k výše uvedenému a jeho účasti na konferenci Excel@FIT hodnotím práci stupněm A.

Kritérium hodnocení	Slovní hodnocení
Informace k zadání	Zadání práce se zaměřuje na využití arcihtektury neuronových sítí typu vision transformer pro úlohu rozpoznávání tváří, kde dosud dominovali konvoluční neuronové sítě. Student měl za úkol vybrat vhodné modely/architektury, experimentovat s nimi a modely vyhodnotit na úloze verifikace identity osoby na základě rozpoznání tváře. Obecně se jedná o těžší zadání se značným množstvím samostudia a dlouhými experimentačními cykly.
Aktivita při dokončování	Práce byla dokončována s dostatečnou časovou rezervou. Text práce byl průběžně konzultován. Finální verze práce byla k dispozici ke kontrole před odevzdáním.
Publikační činnost, ocenění	Student se zúčastnil studentské konference Excel@FIT.
Práce s literaturou	Student si sám dohledal veškeré potřebné zdroje a další literaturu.
Aktivita během řešení, konzultace, komunikace	Student byl aktivní po celou dobu řešení diplomové práce. Průběžně sdílel výsledky i mimo domluvené konzultace. Na konzultace byl vždy řádně nachystaný.

Výsledný počet bodů navržený vedoucím: 95

Známka navržená vedoucím: A

Posudek oponenta
Ing. Martin Kišš

Dle mého názoru se jedná o práci s nedostatky především v prezentační a formální úpravě technické zprávy a některými nepříliš vhodně zvolenými kroky při experimentování. Celkově však bylo v práci vykonáno poměrně velké množství experimentů a srovnání se state-of-the-art, což hodnotím kladně.

Kritérium hodnocení	Slovní hodnocení	Body
Rozsah splnění požadavků zadání	Stupeň hodnocení: zadání splněno
Rozsah technické zprávy	Stupeň hodnocení: je v obvyklém rozmezí Technická zpráva je v obvyklém rozsahu.
Prezentační úroveň technické zprávy	První polovina technické zprávy je strukturována poměrně dobře, druhá polovina již méně. Výhrady mám k odkazování se na výsledky provedených experimentů již v kapitole tři, která popisuje různé architektury neuronových sítí pro rozpoznávání tváří. V této kapitole by se naopak měl také nacházet popis modelu CLIP, který je však popsán až v kapitole s experimenty. Dále zde chybí ucelený pohled na všechny provedené experimenty a použité datové sady.	75
Formální úprava technické zprávy	V technické zprávě se nacházejí pouze rastrové obrázky, které nepůsobí příliš dobře. Jako rastrové obrázky jsou zde i grafy a také tabulka (obrázek 2.1). Vykreslené grafy nemají konzistentní popisy - někdy jsou použity české, jindy anglické texty. Výhrady mám také k umisťování obrázků uprostřed textu, namísto nahoru, nebo dolů na stránce. Nevhodně působí použití některých seznamů, použití písmene 'x' místo symbolu krát, nebo text v rovnici v části 4.1.2. Po jazykové stránce mám výhrady k některým formulacím, které neodpovídají stylu odborného textu, a podivným souslovím (např. testovací trénování, architektura patřila mezi ty optimálnější, architektura dosáhla svého optima rekordně již v 5. epoše trénování, accuracy činila rekordních 0,98).	70
Práce s literaturou	V technické zprávě je citováno celkem 31 zdrojů. Pět z těchto zdrojů jsou webové stránky, jako jsou Wikipedie nebo Medium. U většiny citovených vědeckých článků chybí bibliografické údaje.	65
Realizační výstup	Odevzdané zdrojové kódy sice neobsahují komentáře, avšak i bez nich se lze v kódu poměrně jednoduše zorientovat.	95
Využitelnost výsledků	V rámci práce student provedl poměrně velké množství experimentů, ve kterých zkoušel různé modely založené na Vision Transformerech pro rozpoznávání tváří. Experimentoval také s multi-task učením a různými datovými sadami. Výhrady mám k některým zvoleným krokům, jako jsou omezení datové sady pouze na obrázky určité velikosti, omezení celkového počtu trénovacích dat, nebo výběr a váhování jednotlivých úloh multi-task učení. Také vyhodnocení by mělo být dle mého názoru konzistentnější s ohledem na metriky - někdy jsou prezentovány hodnoty F1, někdy Accuracy, jindy zase AUC. Celkově byly experimenty zaměřeny dost obecně a pro konkrétní využití v praktické aplikaci by bylo nejspíše potřeba dalších experimentů.
Náročnost zadání	Stupeň hodnocení: obtížnější zadání Jedná se o obtížnější zadání využívající state-of-the-art modely založené na Vision Transformerech pro rozpoznávání tváří.

Výsledný počet bodů navržený oponentem: 75

Známka navržená oponentem: C

Odpovědnost: Mgr. et Mgr. Hana Odstrčilová

VUT

Fakulty a vysokoškolské ústavy

Součásti

Vision transformery pro rozpoznávání tváří