Bachelor's Thesis

Emergent Coalitions in Multi-Agent Reinforcement Learning

Final Thesis 3.43 MB

Author of thesis: Martin Ševčík

Acad. year: 2025/2026

Supervisor: doc. Ing. Vladimír Janoušek, Ph.D.

Reviewer: doc. Ing. František Zbořil, Ph.D.

Abstract:

Multi-agent reinforcement learning asks whether agents can learn to coordinate, divide roles, and form coalitions purely from experience with no hand-coded behaviors and no explicit communication. This thesis investigates these questions in Knights, Archers, and Zombies (KAZ), a cooperative game extended with boss enemies, wave-based difficulty scaling, an experience-point (XP) leveling system, and shielded zombies that only knights can break, giving the task role asymmetry. The environment is implemented using JAX, a numerical computing library that compiles Python code for GPU execution, enabling efficient parallel training. We train MAPPO across seven reward functions and develop a metrics framework covering spatial structure, attack coordination, behavioral differentiation, and fairness. Distinct and reproducible coalition styles emerge rather than converging to one solution. Across all policies, knight survival and restraint predict episode length more reliably than attack frequency. Reward shaping steers the form coalitions take, but does not create cooperation from nothing, where even the unmodified baseline develops coordination through task structure alone.

Keywords:

multi-agent reinforcement learning, emergent coordination, coalition formation, reward shaping, MAPPO, parameter sharing, Knights Archers Zombies, behavioral differentiation, JAX, proximal policy optimization

Date of defence

19.06.2026

Result of the defence

Defended (thesis was successfully defended)

znamkaAznamka

Grading

A

Process of defence

Student nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta a na další otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm A.

Topics for thesis defence

  1. Pokud by měl systém simulovat kooperaci desítek či stovek agentů, je podle Vás čistě emergentní přístup přes odměnové funkce stále reálný, nebo by již bylo nutné do systému vložit nějaká pevná pravidla pro řízení takto velké skupiny?
  2. Můžete lépe okomentovat představené video?

Language of thesis

English

Faculty

Department

Study programme

Information Technology (BIT)

Composition of Committee

prof. RNDr. Alexandr Meduna, CSc. (předseda)
prof. Ing. Martin Čadík, Ph.D. (místopředseda)
Ing. Jaroslav Rozman, Ph.D. (člen)
Ing. Zbyněk Křivka, Ph.D. (člen)
Ing. Lukáš Kekely, Ph.D. (člen)

Přístup studenta v průběhu řešení považuji za příkladný.

Evaluation criteria Verbal classification
Informace k zadání

Náročnost práce souvisí s nutností nastudovat problematiku, která patří spíše do magisterského studia. Dále pak s množstvím experimentů a jejich vyhodnocením. Zadání bylo vytvořeno na základě zájmu studenta o tuto oblast. Zadání bylo splněno.

Práce s literaturou

Studijní materiály si student dohledal samostatně a použil je smysluplně.

Aktivita během řešení, konzultace, komunikace

Student průběžně informoval vedoucího o stavu prací a svůj postup konzultoval. Oceňuji samostatnost a cílevědomost v průběhu řešení.

Aktivita při dokončování

Práce byla dokončena včas a obsah byl konzultován.

Publikační činnost, ocenění

Student svoji práci publikoval na EXCEL 2026.

Points proposed by supervisor: 100

Grade proposed by supervisor: A

Práci považuji za velmi zdařilou a navrhuji hodnocení stupněm A.

Evaluation criteria Verbal classification Points
Náročnost zadání

Evaluation level: obtížnější zadání

Tématem práce bylo realizovat multiagentní systém s použitím metod posilovaného učení, ve kterém by bylo zřejmé, že agenti jsou schopni se učit i sociálnímu chování. Emergentní koalice vznikají nikoliv symbolickým deklarativním způsobem, ale na základě zkušeností agentů v prostředí. Bylo proto potřeba zvolit jak vhodný technologický prostředek, tak netriviální problém, na kterém by se schopnost agentů koordinovat své chování jednoznačně prokázala. Vzhledem k teoretické i implementační náročnosti považuji zadání této bakalářské práce za nadprůměrně obtížné.

Prezentační úroveň technické zprávy

Struktura textu je v pořádku. Postupuje od představení zvolených prostředků založených na neuronových sítích k návrhu systému, prostředí, odměnových funkcí a k diskusi o dosažených výsledcích. Možná mohlo být méně prostoru dáno spíše učebnicovému představování základů posilovaného učení na úkor bližšího popisu systémů posilovaného učení pro multiagentní prostředí a konkrétně MAPPO. Poznámku mám k používání slova 'politika' pro jednotlivé naučené systémy. Tyto pracují na základě různých politik, ale ty vznikly učením kvůli různým pojetím odměnové funkce. Možná proto toto mohlo být v textu více zdůrazněno. Vytváření odměnových funkcí Pár slov navíc by snesla i kapitola o tvorbě odměnových funkcí a to jaká byla inspirace použít zrovna takové. Student stanovil hypotézy, které podle chování naučených agentů studoval a diskutoval jejich naplnění vzhledem k jednotlivým použitým odměnovým funkcím / politikám. Celkově hodnotím prezentační úroveň práce jako nadprůměrnou.

87
Formální úprava technické zprávy

Práce je psána anglicky a podle mého názoru bez jazykových prohřešků. Několik málo nepravostí a drobných chyb lze v textu objevit, třeba text na začátku strany 40 "... Reward end up highest; Territorial trails." nedává smysl a věta je asi nedokončená.

90
Realizační výstup

Realizačním výstupem práce je aplikace postavená na uvedených metodách (tedy na algoritmu MAPPO), která slouží k simulaci navrženého problému a k ověření fungování multiagentního systému naučeného pomocí různých přístupů. Vytvořené prostředí velmi dobře naplňuje potřeby analýzy sociálního chování agentů. Celkově se jedná o nadprůměrné softwarové dílo a celou práci hodnotím jako velmi zdařilou.

95
Využitelnost výsledků

Problematika použití metod hlubokého učení pro multiagentní systémy je poměrně nová a stále přetrvávají problémy, jako je například škálovatelnost. Výsledky této práce ale ukazují, že i tak lze multiagentní systém budovat jako sociální, kde agenti jsou schopni koordinovat svoje chování. Proto je lze využít pro další výzkum návrhu multiagentních systémů a také jako výukový prostředek pro oblast agentních a multiagentních systémů.

Rozsah splnění požadavků zadání

Evaluation level: zadání splněno

Jako klíčový nástroj student zvolil systém multiagentního hlubokého posilovaného učení MAPPO, což je dnes nejmodernější standard v této oblasti. Dále zvolil podle mého názoru vhodnou simulační úlohu a úspěšně ukázal, jak přesně závisí chování agentů na nastavení funkce odměny. Agenti se pro různé přístupy k odměňování skupiny chovali odlišně, ale pokaždé prokazatelně vykazovali schopnost sociální interakce a emergence koalic. Student zadání splnil v plném rozsahu a bez výhrad.

Rozsah technické zprávy

Evaluation level: je v obvyklém rozmezí

Práce s literaturou

Student v seznamu literatury uvádí celkem 27 zdrojů a všechny z nich v textu řádně cituje. Použité zdroje jsou relevantní a vhodné k obsahu práce a jiné prohřešky proti citační etice jsem nezjistil. Vlastní výsledky jsou v práci zřejmé a je zřejmé, jak z uvedených zdrojů vychází.

85
Topics for thesis defence:
  1. Pokud by měl systém simulovat kooperaci desítek či stovek agentů, je podle Vás čistě emergentní přístup přes odměnové funkce stále reálný, nebo by již bylo nutné do systému vložit nějaká pevná pravidla pro řízení takto velké skupiny?
Points proposed by reviewer: 90

Grade proposed by reviewer: A

Responsibility: Mgr. et Mgr. Hana Odstrčilová