Přístupnostní navigace
E-application
Search Search Close
Master's Thesis
Author of thesis: Ing. Leoš Nevoral
Acad. year: 2025/2026
Supervisor: Ing. Jan Klhůfek
Reviewer: prof. Ing. Lukáš Sekanina, Ph.D.
This thesis studies the evolutionary design of self-attention mechanisms for Transformer neural networks. The proposed system describes candidate mechanisms as directed acyclic computation graphs and compares two representations that form part of the proposed design: a step-based representation, which modifies parts of the mechanism separately, and a fused representation, which combines a larger part of the computation into a single graph. Using the NSGA-II algorithm, the system optimizes model error and the estimated number of operations (FLOPs). The results show that the cheaper proxy model provided comparably informative feedback to direct fitness evaluation in the TinyBERT model. The decisive factor was the mechanism representation proposed in this thesis: the fused representation achieved a similar average accuracy to the step-based representation, but provided better trade-offs between quality and cost. The selected candidate reached an average accuracy of 84\% across nine classification tasks with an estimated cost corresponding to 0.622 times the FLOPs of the original multi-head attention mechanism (MHA), but remained less accurate than the original TinyBERT model with MHA. The thesis therefore does not show an absolute improvement over MHA, but verifies that evolution can find a cheaper and transferable attention mechanism.
Transformer neural networks, self-attention mechanism, evolutionary algorithms, multi-objective optimization, NSGA-II, neural architecture search, TinyBERT
Date of defence
25.06.2026
Result of the defence
Defended (thesis was successfully defended)
Grading
B
Process of defence
Student nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta a na další otázky přítomných, např. počtu evolučně navržených prvků či práce s Pareto frontou v kontextu řešené diplomové práce. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm B - velmi dobře.
Topics for thesis defence
Language of thesis
Czech
Faculty
Fakulta informačních technologií
Department
Department of Computer Systems
Study programme
Information Technology and Artificial Intelligence (MITAI)
Specialization
Intelligent Systems (NISY)
Composition of Committee
doc. Ing. František Zbořil, CSc. (předseda) doc. Ing. Vladimír Janoušek, Ph.D. (místopředseda) Ing. Martin Hrubý, Ph.D. (člen) Ing. Jaroslav Rozman, Ph.D. (člen) Dr. Ing. Petr Peringer (člen) Ing. Tomáš Goldmann, Ph.D. (člen)
Supervisor’s reportIng. Jan Klhůfek
Student předložil kvalitní zpracování obtížného a aktuálního tématu. Navrhl, implementoval a rozsáhlými experimenty ověřil funkční metodologii pro automatizovaný evoluční návrh mechanismů pozornosti s měřitelným kompromisem mezi přesností a výpočetní cenou. I přes dokončování na poslední chvíli navrhuji vzhledem k náročnosti zadání a samostatnosti a tvůrčímu přístupu studenta hodnocení stupněm A – výborně.
Zadání hodnotím jako obtížné. Práce vyžadovala nastudování aktuálních trendů ve vývoji transformerových sítí a mechanismů pozornosti. Cílem bylo navrhnout způsob, jak automatizovaně vytvářet mechanismus pozornosti a vyhodnotit jej při nasazení do modelu, s důrazem na lepší kompromis mezi ztrátou přesnosti a výpočetní (hardwarovou) náročností. Tento cíl se studentovi podařilo splnit. S dosaženými výsledky jsem spokojen. Závěry o přenositelnosti do reálné praxe jsou pochopitelně omezené vzhledem k výpočetní náročnosti uvažovaných modelů, což ovšem nepovažuji za nedostatek, jelikož práce představuje obecně funkční metodologii.
Závěrečná fáze práce probíhala spíše na poslední chvíli, přesto jsem měl možnost vznést připomínky, které student zapracoval do výsledné podoby.
Není známa. Navržený systém nicméně může posloužit jako základ pro publikaci zaměřenou na detailní výkonnostní analýzu nasazení sítí v hardwarových akcelerátorech pomocí simulátorů inference.
Student si po počátečních konzultacích k tématu dokázal relevantní zdroje aktivně vyhledávat sám, a to včetně aktuální literatury popisující nejnovější varianty mechanismů pozornosti.
Student byl během řešení aktivní, pravidelně své řešení konzultoval, na konzultace chodil připraven a reflektoval mé připomínky. Pozitivně hodnotím jeho schopnost samostatně strukturovat postup řešení a orientovat se v problému. Komunikaci hodnotím kladně.
Grade proposed by supervisor: A
Reviewer’s reportprof. Ing. Lukáš Sekanina, Ph.D.
Diplomant řešil výzkumné téma a dosáhl zajímavých, potenciálně publikovatelných výsledků. Odvedl velké množství implementační i experimentální práce. Provedl řadu experimentů, které statisticky vyhodnotil. Celkový dojem mírně kazí technická zpráva. Vzhledem k obtížnému zadání a zajímavým výsledkům navrhuji hodnocení stupněm A.
Evaluation level: zadání splněno a práce obsahuje podstatná rozšíření
Zadání bylo splněno v plném rozsahu. Z pohledu provedených experimentů a získaných znalostí je významně překračuje. Experimentální ověření je systematické, podrobné a převyšuje běžné diplomové práce.
Evaluation level: je v obvyklém rozmezí
Práce je logicky strukturovaná, kapitoly na sebe navazují. Kapitoly popisující návrh vlastního řešení a experimentální vyhodnocení jsou zpracovány výborně. Kapitola popisující mechanismy pozornosti mohla být zpracována pečlivěji, jak z pohledu srozumitelnosti výkladu, tak i technicky (význam některých použitých symbolů není vysvětlen). Není zřejmé, proč je velký prostor věnován evoluční strategii (kap. 4.1), která není následně využita. Naopak postrádám shrnutí principů genetického programování (GP), zejména grafově orientovaného GP, které diplomat používá při implementaci. Podrobněji by mohl být popsán navržený operátor křížení (zejména pro složitější rodičovské grafy). Místy se autor vyjadřuje nepřesně, např. na str. 4: Co jsou „stochastické problémy“? Platí, že „jsou upravovány jednotlivé váhy ve směru gradientu chybové funkce“ nebo proti směru? Co je „hlučná fitness“ na str. 41? Popis experimentálního vyhodnocení je detailní, bohatý a vědecky systematický. Experimenty byly provedeny s využitím 10 testovacích úloh. Kromě dosažených výsledků jsou prezentovány i statistické testy ukazující, která nastavení algoritmu jsou přínosná a která ne. Dále jsou prezentovány konvergenční křivky i výsledné Pareto fronty.
Práce je napsána solidní češtinou. Mezi hlavní prohřešky patří: význam některých použitých symbolů není vysvětlen, v úvodních kapitolách často chybí před číslem obrázku text „obr.“, výčet je psán nestandardně, místy je nevhodně kombinována angličtina s češtinou (enkodér vs. kodér). Některé tabulky mají popisek nestandardně pod tabulkou, např. tab. 7.5.
Diplomant využívá relevantní zdroje a řádně se na ně odkazuje. Pro odkazy však používá nestandardní závorky (). Mnoho odkazů čerpá z nerecenzovaného archivu arxiv.org, i když článek byl publikován na zavedené konferenci, např. odkaz [1] je Proc. of the 2023 Conference on Empirical Methods in Natural Language Processing.
Realizačním výstupem je sada programů a skriptů pro evoluční návrh mechanismů vlastní pozornosti pro transformerové neuronové sítě, analýzu výsledků a spouštění experimentů. Přiložený archiv obsahuje zdrojové kódy, datové soubory a soubory s popisem archivu. Návod popisuje základní práci s projektem. Projekt byl řešen s využitím výpočetních zdrojů IT4Innovations. Nepochybuji, že prezentované výsledky byly pomocí vytvořených programů získány.
Jedná se o práci výzkumného charakteru, která by se po doplnění mohla stát základem vědeckého článku.
Evaluation level: značně obtížné zadání
Jedná se o nadprůměrně obtížné zadání výzkumného charakteru. Práce se zabývá vícekriteriálním evolučním návrhem mechanismů vlastní pozornosti pro transformerové neuronové sítě. Toto téma není v literatuře příliš rozpracováno. Diplomant navrhl a implementoval vlastní reprezentaci problému, genetické operátory a vyhodnocení kandidátních řešení. Vytvořil paralelní implementaci, se kterou prováděl evoluční experimenty na clusteru Karolina. I když doposud evolučně navržené implementace mechanismu vlastní pozornosti nepředčí standardní řešení z pohledu kvality, student ukázal, že lze automatizovaně generovat mírně horší varianty, které jsou výpočetně znatelně levnější.
Grade proposed by reviewer: A
Responsibility: Mgr. et Mgr. Hana Odstrčilová