Master's Thesis

Evolutionary Design of Self-Attention Mechanism for Transformer Neural Networks

Author of thesis: Ing. Leoš Nevoral

Acad. year: 2025/2026

Reviewer: prof. Ing. Lukáš Sekanina, Ph.D.

Abstract:

This thesis studies the evolutionary design of self-attention mechanisms for Transformer neural networks. The proposed system describes candidate mechanisms as directed acyclic computation graphs and compares two representations that form part of the proposed design: a step-based representation, which modifies parts of the mechanism separately, and a fused representation, which combines a larger part of the computation into a single graph. Using the NSGA-II algorithm, the system optimizes model error and the estimated number of operations (FLOPs). The results show that the cheaper proxy model provided comparably informative feedback to direct fitness evaluation in the TinyBERT model. The decisive factor was the mechanism representation proposed in this thesis: the fused representation achieved a similar average accuracy to the step-based representation, but provided better trade-offs between quality and cost. The selected candidate reached an average accuracy of 84\% across nine classification tasks with an estimated cost corresponding to 0.622 times the FLOPs of the original multi-head attention mechanism (MHA), but remained less accurate than the original TinyBERT model with MHA. The thesis therefore does not show an absolute improvement over MHA, but verifies that evolution can find a cheaper and transferable attention mechanism.

Keywords:

Transformer neural networks, self-attention mechanism, evolutionary algorithms, multi-objective optimization, NSGA-II, neural architecture search, TinyBERT

Date of defence

25.06.2026

Result of the defence

Defended (thesis was successfully defended)

znamkaBznamka

Grading

Process of defence

Student nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta a na další otázky přítomných, např. počtu evolučně navržených prvků či práce s Pareto frontou v kontextu řešené diplomové práce. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm B - velmi dobře.

Topics for thesis defence

Jak dlouho trvá typický experiment na použitém hardware?
Pokud bychom v architektuře mechanismu vlastní pozornosti povolili aproximaci aritmetických operací (např. násobení), co by se z hlediska výpočtů muselo změnit ve vytvořené implementaci?

Language of thesis

Czech

Faculty

Fakulta informačních technologií

Department

Department of Computer Systems

Study programme

Information Technology and Artificial Intelligence (MITAI)

Specialization

Intelligent Systems (NISY)

Composition of Committee

doc. Ing. František Zbořil, CSc. (předseda)
doc. Ing. Vladimír Janoušek, Ph.D. (místopředseda)
Ing. Martin Hrubý, Ph.D. (člen)
Ing. Jaroslav Rozman, Ph.D. (člen)
Dr. Ing. Petr Peringer (člen)
Ing. Tomáš Goldmann, Ph.D. (člen)

Supervisor’s report
Ing. Jan Klhůfek

Student předložil kvalitní zpracování obtížného a aktuálního tématu. Navrhl, implementoval a rozsáhlými experimenty ověřil funkční metodologii pro automatizovaný evoluční návrh mechanismů pozornosti s měřitelným kompromisem mezi přesností a výpočetní cenou. I přes dokončování na poslední chvíli navrhuji vzhledem k náročnosti zadání a samostatnosti a tvůrčímu přístupu studenta hodnocení stupněm A – výborně.

Evaluation criteria	Verbal classification
Informace k zadání	Zadání hodnotím jako obtížné. Práce vyžadovala nastudování aktuálních trendů ve vývoji transformerových sítí a mechanismů pozornosti. Cílem bylo navrhnout způsob, jak automatizovaně vytvářet mechanismus pozornosti a vyhodnotit jej při nasazení do modelu, s důrazem na lepší kompromis mezi ztrátou přesnosti a výpočetní (hardwarovou) náročností. Tento cíl se studentovi podařilo splnit. S dosaženými výsledky jsem spokojen. Závěry o přenositelnosti do reálné praxe jsou pochopitelně omezené vzhledem k výpočetní náročnosti uvažovaných modelů, což ovšem nepovažuji za nedostatek, jelikož práce představuje obecně funkční metodologii.
Aktivita při dokončování	Závěrečná fáze práce probíhala spíše na poslední chvíli, přesto jsem měl možnost vznést připomínky, které student zapracoval do výsledné podoby.
Publikační činnost, ocenění	Není známa. Navržený systém nicméně může posloužit jako základ pro publikaci zaměřenou na detailní výkonnostní analýzu nasazení sítí v hardwarových akcelerátorech pomocí simulátorů inference.
Práce s literaturou	Student si po počátečních konzultacích k tématu dokázal relevantní zdroje aktivně vyhledávat sám, a to včetně aktuální literatury popisující nejnovější varianty mechanismů pozornosti.
Aktivita během řešení, konzultace, komunikace	Student byl během řešení aktivní, pravidelně své řešení konzultoval, na konzultace chodil připraven a reflektoval mé připomínky. Pozitivně hodnotím jeho schopnost samostatně strukturovat postup řešení a orientovat se v problému. Komunikaci hodnotím kladně.

Points proposed by supervisor: 90

Grade proposed by supervisor: A

Reviewer’s report
prof. Ing. Lukáš Sekanina, Ph.D.

Diplomant řešil výzkumné téma a dosáhl zajímavých, potenciálně publikovatelných výsledků. Odvedl velké množství implementační i experimentální práce. Provedl řadu experimentů, které statisticky vyhodnotil. Celkový dojem mírně kazí technická zpráva. Vzhledem k obtížnému zadání a zajímavým výsledkům navrhuji hodnocení stupněm A.

Evaluation criteria	Verbal classification	Points
Rozsah splnění požadavků zadání	Evaluation level: zadání splněno a práce obsahuje podstatná rozšíření Zadání bylo splněno v plném rozsahu. Z pohledu provedených experimentů a získaných znalostí je významně překračuje. Experimentální ověření je systematické, podrobné a převyšuje běžné diplomové práce.
Rozsah technické zprávy	Evaluation level: je v obvyklém rozmezí
Prezentační úroveň technické zprávy	Práce je logicky strukturovaná, kapitoly na sebe navazují. Kapitoly popisující návrh vlastního řešení a experimentální vyhodnocení jsou zpracovány výborně. Kapitola popisující mechanismy pozornosti mohla být zpracována pečlivěji, jak z pohledu srozumitelnosti výkladu, tak i technicky (význam některých použitých symbolů není vysvětlen). Není zřejmé, proč je velký prostor věnován evoluční strategii (kap. 4.1), která není následně využita. Naopak postrádám shrnutí principů genetického programování (GP), zejména grafově orientovaného GP, které diplomat používá při implementaci. Podrobněji by mohl být popsán navržený operátor křížení (zejména pro složitější rodičovské grafy). Místy se autor vyjadřuje nepřesně, např. na str. 4: Co jsou „stochastické problémy“? Platí, že „jsou upravovány jednotlivé váhy ve směru gradientu chybové funkce“ nebo proti směru? Co je „hlučná fitness“ na str. 41? Popis experimentálního vyhodnocení je detailní, bohatý a vědecky systematický. Experimenty byly provedeny s využitím 10 testovacích úloh. Kromě dosažených výsledků jsou prezentovány i statistické testy ukazující, která nastavení algoritmu jsou přínosná a která ne. Dále jsou prezentovány konvergenční křivky i výsledné Pareto fronty.	90
Formální úprava technické zprávy	Práce je napsána solidní češtinou. Mezi hlavní prohřešky patří: význam některých použitých symbolů není vysvětlen, v úvodních kapitolách často chybí před číslem obrázku text „obr.“, výčet je psán nestandardně, místy je nevhodně kombinována angličtina s češtinou (enkodér vs. kodér). Některé tabulky mají popisek nestandardně pod tabulkou, např. tab. 7.5.	85
Práce s literaturou	Diplomant využívá relevantní zdroje a řádně se na ně odkazuje. Pro odkazy však používá nestandardní závorky (). Mnoho odkazů čerpá z nerecenzovaného archivu arxiv.org, i když článek byl publikován na zavedené konferenci, např. odkaz [1] je Proc. of the 2023 Conference on Empirical Methods in Natural Language Processing.	85
Realizační výstup	Realizačním výstupem je sada programů a skriptů pro evoluční návrh mechanismů vlastní pozornosti pro transformerové neuronové sítě, analýzu výsledků a spouštění experimentů. Přiložený archiv obsahuje zdrojové kódy, datové soubory a soubory s popisem archivu. Návod popisuje základní práci s projektem. Projekt byl řešen s využitím výpočetních zdrojů IT4Innovations. Nepochybuji, že prezentované výsledky byly pomocí vytvořených programů získány.	95
Využitelnost výsledků	Jedná se o práci výzkumného charakteru, která by se po doplnění mohla stát základem vědeckého článku.
Náročnost zadání	Evaluation level: značně obtížné zadání Jedná se o nadprůměrně obtížné zadání výzkumného charakteru. Práce se zabývá vícekriteriálním evolučním návrhem mechanismů vlastní pozornosti pro transformerové neuronové sítě. Toto téma není v literatuře příliš rozpracováno. Diplomant navrhl a implementoval vlastní reprezentaci problému, genetické operátory a vyhodnocení kandidátních řešení. Vytvořil paralelní implementaci, se kterou prováděl evoluční experimenty na clusteru Karolina. I když doposud evolučně navržené implementace mechanismu vlastní pozornosti nepředčí standardní řešení z pohledu kvality, student ukázal, že lze automatizovaně generovat mírně horší varianty, které jsou výpočetně znatelně levnější.

Topics for thesis defence:

Jak dlouho trvá typický experiment na použitém hardware?
Pokud bychom v architektuře mechanismu vlastní pozornosti povolili aproximaci aritmetických operací (např. násobení), co by se z hlediska výpočtů muselo změnit ve vytvořené implementaci?

Points proposed by reviewer: 92

Grade proposed by reviewer: A

Responsibility: Mgr. et Mgr. Hana Odstrčilová

VUT

Faculties and university institutes

Parts

Evolutionary Design of Self-Attention Mechanism for Transformer Neural Networks