Přístupnostní navigace
E-application
Search Search Close
Bachelor's Thesis
Author of thesis: Martin Ševčík
Acad. year: 2025/2026
Supervisor: doc. Ing. Vladimír Janoušek, Ph.D.
Reviewer: doc. Ing. František Zbořil, Ph.D.
Multi-agent reinforcement learning asks whether agents can learn to coordinate, divide roles, and form coalitions purely from experience with no hand-coded behaviors and no explicit communication. This thesis investigates these questions in Knights, Archers, and Zombies (KAZ), a cooperative game extended with boss enemies, wave-based difficulty scaling, an experience-point (XP) leveling system, and shielded zombies that only knights can break, giving the task role asymmetry. The environment is implemented using JAX, a numerical computing library that compiles Python code for GPU execution, enabling efficient parallel training. We train MAPPO across seven reward functions and develop a metrics framework covering spatial structure, attack coordination, behavioral differentiation, and fairness. Distinct and reproducible coalition styles emerge rather than converging to one solution. Across all policies, knight survival and restraint predict episode length more reliably than attack frequency. Reward shaping steers the form coalitions take, but does not create cooperation from nothing, where even the unmodified baseline develops coordination through task structure alone.
multi-agent reinforcement learning, emergent coordination, coalition formation, reward shaping, MAPPO, parameter sharing, Knights Archers Zombies, behavioral differentiation, JAX, proximal policy optimization
Date of defence
19.06.2026
Result of the defence
Defended (thesis was successfully defended)
Grading
A
Process of defence
Student nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta a na další otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm A.
Topics for thesis defence
Language of thesis
English
Faculty
Fakulta informačních technologií
Department
Department of Intelligent Systems
Study programme
Information Technology (BIT)
Composition of Committee
prof. RNDr. Alexandr Meduna, CSc. (předseda) prof. Ing. Martin Čadík, Ph.D. (místopředseda) Ing. Jaroslav Rozman, Ph.D. (člen) Ing. Zbyněk Křivka, Ph.D. (člen) Ing. Lukáš Kekely, Ph.D. (člen)
Supervisor’s reportdoc. Ing. Vladimír Janoušek, Ph.D.
Přístup studenta v průběhu řešení považuji za příkladný.
Náročnost práce souvisí s nutností nastudovat problematiku, která patří spíše do magisterského studia. Dále pak s množstvím experimentů a jejich vyhodnocením. Zadání bylo vytvořeno na základě zájmu studenta o tuto oblast. Zadání bylo splněno.
Studijní materiály si student dohledal samostatně a použil je smysluplně.
Student průběžně informoval vedoucího o stavu prací a svůj postup konzultoval. Oceňuji samostatnost a cílevědomost v průběhu řešení.
Práce byla dokončena včas a obsah byl konzultován.
Student svoji práci publikoval na EXCEL 2026.
Grade proposed by supervisor: A
Reviewer’s reportdoc. Ing. František Zbořil, Ph.D.
Práci považuji za velmi zdařilou a navrhuji hodnocení stupněm A.
Evaluation level: obtížnější zadání
Tématem práce bylo realizovat multiagentní systém s použitím metod posilovaného učení, ve kterém by bylo zřejmé, že agenti jsou schopni se učit i sociálnímu chování. Emergentní koalice vznikají nikoliv symbolickým deklarativním způsobem, ale na základě zkušeností agentů v prostředí. Bylo proto potřeba zvolit jak vhodný technologický prostředek, tak netriviální problém, na kterém by se schopnost agentů koordinovat své chování jednoznačně prokázala. Vzhledem k teoretické i implementační náročnosti považuji zadání této bakalářské práce za nadprůměrně obtížné.
Struktura textu je v pořádku. Postupuje od představení zvolených prostředků založených na neuronových sítích k návrhu systému, prostředí, odměnových funkcí a k diskusi o dosažených výsledcích. Možná mohlo být méně prostoru dáno spíše učebnicovému představování základů posilovaného učení na úkor bližšího popisu systémů posilovaného učení pro multiagentní prostředí a konkrétně MAPPO. Poznámku mám k používání slova 'politika' pro jednotlivé naučené systémy. Tyto pracují na základě různých politik, ale ty vznikly učením kvůli různým pojetím odměnové funkce. Možná proto toto mohlo být v textu více zdůrazněno. Vytváření odměnových funkcí Pár slov navíc by snesla i kapitola o tvorbě odměnových funkcí a to jaká byla inspirace použít zrovna takové. Student stanovil hypotézy, které podle chování naučených agentů studoval a diskutoval jejich naplnění vzhledem k jednotlivým použitým odměnovým funkcím / politikám. Celkově hodnotím prezentační úroveň práce jako nadprůměrnou.
Práce je psána anglicky a podle mého názoru bez jazykových prohřešků. Několik málo nepravostí a drobných chyb lze v textu objevit, třeba text na začátku strany 40 "... Reward end up highest; Territorial trails." nedává smysl a věta je asi nedokončená.
Realizačním výstupem práce je aplikace postavená na uvedených metodách (tedy na algoritmu MAPPO), která slouží k simulaci navrženého problému a k ověření fungování multiagentního systému naučeného pomocí různých přístupů. Vytvořené prostředí velmi dobře naplňuje potřeby analýzy sociálního chování agentů. Celkově se jedná o nadprůměrné softwarové dílo a celou práci hodnotím jako velmi zdařilou.
Problematika použití metod hlubokého učení pro multiagentní systémy je poměrně nová a stále přetrvávají problémy, jako je například škálovatelnost. Výsledky této práce ale ukazují, že i tak lze multiagentní systém budovat jako sociální, kde agenti jsou schopni koordinovat svoje chování. Proto je lze využít pro další výzkum návrhu multiagentních systémů a také jako výukový prostředek pro oblast agentních a multiagentních systémů.
Evaluation level: zadání splněno
Jako klíčový nástroj student zvolil systém multiagentního hlubokého posilovaného učení MAPPO, což je dnes nejmodernější standard v této oblasti. Dále zvolil podle mého názoru vhodnou simulační úlohu a úspěšně ukázal, jak přesně závisí chování agentů na nastavení funkce odměny. Agenti se pro různé přístupy k odměňování skupiny chovali odlišně, ale pokaždé prokazatelně vykazovali schopnost sociální interakce a emergence koalic. Student zadání splnil v plném rozsahu a bez výhrad.
Evaluation level: je v obvyklém rozmezí
Student v seznamu literatury uvádí celkem 27 zdrojů a všechny z nich v textu řádně cituje. Použité zdroje jsou relevantní a vhodné k obsahu práce a jiné prohřešky proti citační etice jsem nezjistil. Vlastní výsledky jsou v práci zřejmé a je zřejmé, jak z uvedených zdrojů vychází.
Grade proposed by reviewer: A
Responsibility: Mgr. et Mgr. Hana Odstrčilová