diplomová práce

Vision transformery pro rozpoznávání tváří

Text práce 6.37 MB

Autor práce: Ing. Šimon Strýček

Ak. rok: 2023/2024

Vedoucí: Ing. Jakub Špaňhel, Ph.D.

Oponent: Ing. Martin Kišš

Abstrakt:

Tato práce se zabývá aplikací architektur neuronových sítí na bázi vision transformer (ViT) v oblasti rozpoznávání tváří. Práce se soustředí na průzkum existujících moderních ViT architektur. To zahrnuje experimenty s existujícími implementacemi, alternativními druhy dat a hledání optimálních parametrů pro trénink. Cílem této práce je prokázat potenciál vision transformerů konkurovat již dlouho dominujícím konvolučním neuronovým sítím právě v tomto oboru. Výstupem je analýza provedených experimentů, demonstrace kladů a záporů moderních architektur ViT a nalezení optimálních podmínek pro jejich využití v úlohách rozpoznávání tváří.

Klíčová slova:

rozpoznávání tváří, vision transformer, zpracování obrazu, neuronové sítě

Termín obhajoby

18.06.2024

Výsledek obhajoby

obhájeno (práce byla úspěšně obhájena)

znamkaCznamka

Klasifikace

C

Průběh obhajoby

Student nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta a na další otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm C.

Otázky k obhajobě

  1. Jak je relevantní textový embedding v rámci výstupu?
  2. Prováděl jste srovnání výstupů použitých modelů?

Jazyk práce

čeština

Fakulta

Ústav

Studijní program

Informační technologie a umělá inteligence (MITAI)

Specializace

Počítačové vidění (NVIZ)

Složení komise

prof. Ing. Adam Herout, Ph.D. (předseda)
doc. Ing. Michal Španěl, Ph.D. (člen)
prof. Ing. Tomáš Vojnar, Ph.D. (člen)
doc. Ing. Vítězslav Beran, Ph.D. (člen)
doc. Ing. Peter Chudý, Ph.D., MBA (člen)
Ing. David Bařina, Ph.D. (člen)

Posudek vedoucího
Ing. Jakub Špaňhel, Ph.D.

Student se zhostil zadaného úkoly svědomitě. Nastudoval si dostupné architektury a přístupy využitelné pro rozpoznávání tváří pomocí vision transformerů. V průběhu řešení DP provedl řadu experimentů a dosáhl výsledků srovnatelných se současným state of the art. Vzhledem k výše uvedenému a jeho účasti na konferenci Excel@FIT hodnotím práci stupněm A.

Kritérium hodnocení Slovní hodnocení
Informace k zadání

Zadání práce se zaměřuje na využití arcihtektury neuronových sítí typu vision transformer pro úlohu rozpoznávání tváří, kde dosud dominovali konvoluční neuronové sítě. Student měl za úkol vybrat vhodné modely/architektury, experimentovat s nimi a modely vyhodnotit na úloze verifikace identity osoby na základě rozpoznání tváře. Obecně se jedná o těžší zadání se značným množstvím samostudia a dlouhými experimentačními cykly.

Aktivita při dokončování

Práce byla dokončována s dostatečnou časovou rezervou. Text práce byl průběžně konzultován. Finální verze práce byla k dispozici ke kontrole před odevzdáním.

Publikační činnost, ocenění

Student se zúčastnil studentské konference Excel@FIT.

Práce s literaturou

Student si sám dohledal veškeré potřebné zdroje a další literaturu.

Aktivita během řešení, konzultace, komunikace

Student byl aktivní po celou dobu řešení diplomové práce. Průběžně sdílel výsledky i mimo domluvené konzultace. Na konzultace byl vždy řádně nachystaný.

Výsledný počet bodů navržený vedoucím: 95

Známka navržená vedoucím: A

Posudek oponenta
Ing. Martin Kišš

Dle mého názoru se jedná o práci s nedostatky především v prezentační a formální úpravě technické zprávy a některými nepříliš vhodně zvolenými kroky při experimentování. Celkově však bylo v práci vykonáno poměrně velké množství experimentů a srovnání se state-of-the-art, což hodnotím kladně.

Kritérium hodnocení Slovní hodnocení Body
Rozsah splnění požadavků zadání

Stupeň hodnocení: zadání splněno

Rozsah technické zprávy

Stupeň hodnocení: je v obvyklém rozmezí

Technická zpráva je v obvyklém rozsahu.

Prezentační úroveň technické zprávy

První polovina technické zprávy je strukturována poměrně dobře, druhá polovina již méně. Výhrady mám k odkazování se na výsledky provedených experimentů již v kapitole tři, která popisuje různé architektury neuronových sítí pro rozpoznávání tváří. V této kapitole by se naopak měl také nacházet popis modelu CLIP, který je však popsán až v kapitole s experimenty. Dále zde chybí ucelený pohled na všechny provedené experimenty a použité datové sady.

75
Formální úprava technické zprávy

V technické zprávě se nacházejí pouze rastrové obrázky, které nepůsobí příliš dobře. Jako rastrové obrázky jsou zde i grafy a také tabulka (obrázek 2.1). Vykreslené grafy nemají konzistentní popisy - někdy jsou použity české, jindy anglické texty. Výhrady mám také k umisťování obrázků uprostřed textu, namísto nahoru, nebo dolů na stránce. Nevhodně působí použití některých seznamů, použití písmene 'x' místo symbolu krát, nebo text v rovnici v části 4.1.2. 

Po jazykové stránce mám výhrady k některým formulacím, které neodpovídají stylu odborného textu, a podivným souslovím (např. testovací trénování, architektura patřila mezi ty optimálnější, architektura dosáhla svého optima rekordně již v 5. epoše trénování, accuracy činila rekordních 0,98).

70
Práce s literaturou

V technické zprávě je citováno celkem 31 zdrojů. Pět z těchto zdrojů jsou webové stránky, jako jsou Wikipedie nebo Medium. U většiny citovených vědeckých článků chybí bibliografické údaje.

65
Realizační výstup

Odevzdané zdrojové kódy sice neobsahují komentáře, avšak i bez nich se lze v kódu poměrně jednoduše zorientovat.

95
Využitelnost výsledků

V rámci práce student provedl poměrně velké množství experimentů, ve kterých zkoušel různé modely založené na Vision Transformerech pro rozpoznávání tváří. Experimentoval také s multi-task učením a různými datovými sadami.

Výhrady mám k některým zvoleným krokům, jako jsou omezení datové sady pouze na obrázky určité velikosti, omezení celkového počtu trénovacích dat, nebo výběr a váhování jednotlivých úloh multi-task učení. Také vyhodnocení by mělo být dle mého názoru konzistentnější s ohledem na metriky - někdy jsou prezentovány hodnoty F1, někdy Accuracy, jindy zase AUC.

Celkově byly experimenty zaměřeny dost obecně a pro konkrétní využití v praktické aplikaci by bylo nejspíše potřeba dalších experimentů.

Náročnost zadání

Stupeň hodnocení: obtížnější zadání

Jedná se o obtížnější zadání využívající state-of-the-art modely založené na Vision Transformerech pro rozpoznávání tváří.

Výsledný počet bodů navržený oponentem: 75

Známka navržená oponentem: C

Odpovědnost: Mgr. et Mgr. Hana Odstrčilová