Přístupnostní navigace
E-přihláška
Vyhledávání Vyhledat Zavřít
diplomová práce
Autor práce: Ing. Šimon Strýček
Ak. rok: 2023/2024
Vedoucí: Ing. Jakub Špaňhel, Ph.D.
Oponent: Ing. Martin Kišš
Tato práce se zabývá aplikací architektur neuronových sítí na bázi vision transformer (ViT) v oblasti rozpoznávání tváří. Práce se soustředí na průzkum existujících moderních ViT architektur. To zahrnuje experimenty s existujícími implementacemi, alternativními druhy dat a hledání optimálních parametrů pro trénink. Cílem této práce je prokázat potenciál vision transformerů konkurovat již dlouho dominujícím konvolučním neuronovým sítím právě v tomto oboru. Výstupem je analýza provedených experimentů, demonstrace kladů a záporů moderních architektur ViT a nalezení optimálních podmínek pro jejich využití v úlohách rozpoznávání tváří.
rozpoznávání tváří, vision transformer, zpracování obrazu, neuronové sítě
Termín obhajoby
18.06.2024
Výsledek obhajoby
obhájeno (práce byla úspěšně obhájena)
Klasifikace
C
Průběh obhajoby
Student nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta a na další otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm C.
Otázky k obhajobě
Jazyk práce
čeština
Fakulta
Fakulta informačních technologií
Ústav
Ústav počítačové grafiky a multimédií
Studijní program
Informační technologie a umělá inteligence (MITAI)
Specializace
Počítačové vidění (NVIZ)
Složení komise
prof. Ing. Adam Herout, Ph.D. (předseda) doc. Ing. Michal Španěl, Ph.D. (člen) prof. Ing. Tomáš Vojnar, Ph.D. (člen) doc. Ing. Vítězslav Beran, Ph.D. (člen) doc. Ing. Peter Chudý, Ph.D., MBA (člen) Ing. David Bařina, Ph.D. (člen)
Posudek vedoucíhoIng. Jakub Špaňhel, Ph.D.
Student se zhostil zadaného úkoly svědomitě. Nastudoval si dostupné architektury a přístupy využitelné pro rozpoznávání tváří pomocí vision transformerů. V průběhu řešení DP provedl řadu experimentů a dosáhl výsledků srovnatelných se současným state of the art. Vzhledem k výše uvedenému a jeho účasti na konferenci Excel@FIT hodnotím práci stupněm A.
Zadání práce se zaměřuje na využití arcihtektury neuronových sítí typu vision transformer pro úlohu rozpoznávání tváří, kde dosud dominovali konvoluční neuronové sítě. Student měl za úkol vybrat vhodné modely/architektury, experimentovat s nimi a modely vyhodnotit na úloze verifikace identity osoby na základě rozpoznání tváře. Obecně se jedná o těžší zadání se značným množstvím samostudia a dlouhými experimentačními cykly.
Práce byla dokončována s dostatečnou časovou rezervou. Text práce byl průběžně konzultován. Finální verze práce byla k dispozici ke kontrole před odevzdáním.
Student se zúčastnil studentské konference Excel@FIT.
Student si sám dohledal veškeré potřebné zdroje a další literaturu.
Student byl aktivní po celou dobu řešení diplomové práce. Průběžně sdílel výsledky i mimo domluvené konzultace. Na konzultace byl vždy řádně nachystaný.
Známka navržená vedoucím: A
Posudek oponentaIng. Martin Kišš
Dle mého názoru se jedná o práci s nedostatky především v prezentační a formální úpravě technické zprávy a některými nepříliš vhodně zvolenými kroky při experimentování. Celkově však bylo v práci vykonáno poměrně velké množství experimentů a srovnání se state-of-the-art, což hodnotím kladně.
Stupeň hodnocení: zadání splněno
Stupeň hodnocení: je v obvyklém rozmezí
Technická zpráva je v obvyklém rozsahu.
První polovina technické zprávy je strukturována poměrně dobře, druhá polovina již méně. Výhrady mám k odkazování se na výsledky provedených experimentů již v kapitole tři, která popisuje různé architektury neuronových sítí pro rozpoznávání tváří. V této kapitole by se naopak měl také nacházet popis modelu CLIP, který je však popsán až v kapitole s experimenty. Dále zde chybí ucelený pohled na všechny provedené experimenty a použité datové sady.
V technické zprávě se nacházejí pouze rastrové obrázky, které nepůsobí příliš dobře. Jako rastrové obrázky jsou zde i grafy a také tabulka (obrázek 2.1). Vykreslené grafy nemají konzistentní popisy - někdy jsou použity české, jindy anglické texty. Výhrady mám také k umisťování obrázků uprostřed textu, namísto nahoru, nebo dolů na stránce. Nevhodně působí použití některých seznamů, použití písmene 'x' místo symbolu krát, nebo text v rovnici v části 4.1.2.
Po jazykové stránce mám výhrady k některým formulacím, které neodpovídají stylu odborného textu, a podivným souslovím (např. testovací trénování, architektura patřila mezi ty optimálnější, architektura dosáhla svého optima rekordně již v 5. epoše trénování, accuracy činila rekordních 0,98).
V technické zprávě je citováno celkem 31 zdrojů. Pět z těchto zdrojů jsou webové stránky, jako jsou Wikipedie nebo Medium. U většiny citovených vědeckých článků chybí bibliografické údaje.
Odevzdané zdrojové kódy sice neobsahují komentáře, avšak i bez nich se lze v kódu poměrně jednoduše zorientovat.
V rámci práce student provedl poměrně velké množství experimentů, ve kterých zkoušel různé modely založené na Vision Transformerech pro rozpoznávání tváří. Experimentoval také s multi-task učením a různými datovými sadami.
Výhrady mám k některým zvoleným krokům, jako jsou omezení datové sady pouze na obrázky určité velikosti, omezení celkového počtu trénovacích dat, nebo výběr a váhování jednotlivých úloh multi-task učení. Také vyhodnocení by mělo být dle mého názoru konzistentnější s ohledem na metriky - někdy jsou prezentovány hodnoty F1, někdy Accuracy, jindy zase AUC.
Celkově byly experimenty zaměřeny dost obecně a pro konkrétní využití v praktické aplikaci by bylo nejspíše potřeba dalších experimentů.
Stupeň hodnocení: obtížnější zadání
Jedná se o obtížnější zadání využívající state-of-the-art modely založené na Vision Transformerech pro rozpoznávání tváří.
Známka navržená oponentem: C
Odpovědnost: Mgr. et Mgr. Hana Odstrčilová