Master's Thesis

Vision Transformers for Facial Recognition

Final Thesis 6.37 MB

Author of thesis: Ing. Šimon Strýček

Acad. year: 2023/2024

Supervisor: Ing. Jakub Špaňhel, Ph.D.

Reviewer: Ing. Martin Kišš

Abstract:

This thesis focuses on applying vision transformer-based neural networks to face recognition related tasks. It focuses on exploring modern vision transformer (ViT) architectures, experimenting with alternative data, and finding the suitable parameters to train ViTs to compete with the already established dominance of convolutional neural networks in face recognition. The goal of this work was to show the suitability of vision-transformers for face recognition. The output of this work contains results of various experiments, demonstrations of benefits and drawbacks of some of the modern and popular ViTs, the definition of an optimal setup when wanting to employ vision transformers for facial recognition, and interesting observations from working with vision transformers.

Keywords:

face recognition, vision transformer, image processing, neural networks

Date of defence

18.06.2024

Result of the defence

Defended (thesis was successfully defended)

znamkaCznamka

Grading

C

Process of defence

Student nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta a na další otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm C.

Topics for thesis defence

  1. Jak je relevantní textový embedding v rámci výstupu?
  2. Prováděl jste srovnání výstupů použitých modelů?

Language of thesis

Czech

Faculty

Department

Study programme

Information Technology and Artificial Intelligence (MITAI)

Specialization

Computer Vision (NVIZ)

Composition of Committee

prof. Ing. Adam Herout, Ph.D. (předseda)
doc. Ing. Michal Španěl, Ph.D. (člen)
prof. Ing. Tomáš Vojnar, Ph.D. (člen)
doc. Ing. Vítězslav Beran, Ph.D. (člen)
doc. Ing. Peter Chudý, Ph.D., MBA (člen)
Ing. David Bařina, Ph.D. (člen)

Supervisor’s report
Ing. Jakub Špaňhel, Ph.D.

Student se zhostil zadaného úkoly svědomitě. Nastudoval si dostupné architektury a přístupy využitelné pro rozpoznávání tváří pomocí vision transformerů. V průběhu řešení DP provedl řadu experimentů a dosáhl výsledků srovnatelných se současným state of the art. Vzhledem k výše uvedenému a jeho účasti na konferenci Excel@FIT hodnotím práci stupněm A.

Evaluation criteria Verbal classification
Informace k zadání

Zadání práce se zaměřuje na využití arcihtektury neuronových sítí typu vision transformer pro úlohu rozpoznávání tváří, kde dosud dominovali konvoluční neuronové sítě. Student měl za úkol vybrat vhodné modely/architektury, experimentovat s nimi a modely vyhodnotit na úloze verifikace identity osoby na základě rozpoznání tváře. Obecně se jedná o těžší zadání se značným množstvím samostudia a dlouhými experimentačními cykly.

Aktivita při dokončování

Práce byla dokončována s dostatečnou časovou rezervou. Text práce byl průběžně konzultován. Finální verze práce byla k dispozici ke kontrole před odevzdáním.

Publikační činnost, ocenění

Student se zúčastnil studentské konference Excel@FIT.

Práce s literaturou

Student si sám dohledal veškeré potřebné zdroje a další literaturu.

Aktivita během řešení, konzultace, komunikace

Student byl aktivní po celou dobu řešení diplomové práce. Průběžně sdílel výsledky i mimo domluvené konzultace. Na konzultace byl vždy řádně nachystaný.

Points proposed by supervisor: 95

Grade proposed by supervisor: A

Reviewer’s report
Ing. Martin Kišš

Dle mého názoru se jedná o práci s nedostatky především v prezentační a formální úpravě technické zprávy a některými nepříliš vhodně zvolenými kroky při experimentování. Celkově však bylo v práci vykonáno poměrně velké množství experimentů a srovnání se state-of-the-art, což hodnotím kladně.

Evaluation criteria Verbal classification Points
Rozsah splnění požadavků zadání

Evaluation level: zadání splněno

Rozsah technické zprávy

Evaluation level: je v obvyklém rozmezí

Technická zpráva je v obvyklém rozsahu.

Prezentační úroveň technické zprávy

První polovina technické zprávy je strukturována poměrně dobře, druhá polovina již méně. Výhrady mám k odkazování se na výsledky provedených experimentů již v kapitole tři, která popisuje různé architektury neuronových sítí pro rozpoznávání tváří. V této kapitole by se naopak měl také nacházet popis modelu CLIP, který je však popsán až v kapitole s experimenty. Dále zde chybí ucelený pohled na všechny provedené experimenty a použité datové sady.

75
Formální úprava technické zprávy

V technické zprávě se nacházejí pouze rastrové obrázky, které nepůsobí příliš dobře. Jako rastrové obrázky jsou zde i grafy a také tabulka (obrázek 2.1). Vykreslené grafy nemají konzistentní popisy - někdy jsou použity české, jindy anglické texty. Výhrady mám také k umisťování obrázků uprostřed textu, namísto nahoru, nebo dolů na stránce. Nevhodně působí použití některých seznamů, použití písmene 'x' místo symbolu krát, nebo text v rovnici v části 4.1.2. 

Po jazykové stránce mám výhrady k některým formulacím, které neodpovídají stylu odborného textu, a podivným souslovím (např. testovací trénování, architektura patřila mezi ty optimálnější, architektura dosáhla svého optima rekordně již v 5. epoše trénování, accuracy činila rekordních 0,98).

70
Práce s literaturou

V technické zprávě je citováno celkem 31 zdrojů. Pět z těchto zdrojů jsou webové stránky, jako jsou Wikipedie nebo Medium. U většiny citovených vědeckých článků chybí bibliografické údaje.

65
Realizační výstup

Odevzdané zdrojové kódy sice neobsahují komentáře, avšak i bez nich se lze v kódu poměrně jednoduše zorientovat.

95
Využitelnost výsledků

V rámci práce student provedl poměrně velké množství experimentů, ve kterých zkoušel různé modely založené na Vision Transformerech pro rozpoznávání tváří. Experimentoval také s multi-task učením a různými datovými sadami.

Výhrady mám k některým zvoleným krokům, jako jsou omezení datové sady pouze na obrázky určité velikosti, omezení celkového počtu trénovacích dat, nebo výběr a váhování jednotlivých úloh multi-task učení. Také vyhodnocení by mělo být dle mého názoru konzistentnější s ohledem na metriky - někdy jsou prezentovány hodnoty F1, někdy Accuracy, jindy zase AUC.

Celkově byly experimenty zaměřeny dost obecně a pro konkrétní využití v praktické aplikaci by bylo nejspíše potřeba dalších experimentů.

Náročnost zadání

Evaluation level: obtížnější zadání

Jedná se o obtížnější zadání využívající state-of-the-art modely založené na Vision Transformerech pro rozpoznávání tváří.

Points proposed by reviewer: 75

Grade proposed by reviewer: C

Responsibility: Mgr. et Mgr. Hana Odstrčilová