Bachelor's Thesis

Reinforcement Learning for RoboCup

Author of thesis: Maxim Zelenčík

Acad. year: 2025/2026

Supervisor: doc. RNDr. Pavel Smrž, Ph.D.

Abstract:

This bachelor's thesis focuses on the application of reinforcement learning in the Google Research Football environment. The aim of the work is to evaluate whether football-inspired training methodologies, specifically Small Sided Games and Curriculum Learning, lead to improved gameplay behavior and higher performance of multi-agent systems compared to standard direct training approaches. Within the thesis, custom SSG scenarios were designed and implemented with modified reward functions inspired by real-world football drills, as well as a Curriculum Learning system utilizing Football Academy scenarios with a gradual transition between stages of increasing difficulty. The Multi-Agent Transformer algorithm was used for training. Experimental results show that the SSG methodology partially induces specific in-game behaviors, with two out of three tested variants achieving a slight but statistically insignificant improvement in win rate in full 11 vs. 11 matches. Curriculum Learning in the proposed configuration did not yield the expected performance improvements. A common limitation of both approaches was the absence of defensive behavior and the issue of catastrophic forgetting when transitioning to full match scenarios. This work contributes to understanding the limitations of transferring real-world football training methodologies into a digital reinforcement learning environment and identifies key challenges for future research.

Keywords:

reinforcement learning, multi-agent systems, Google Research Football, Small Sided Games, Curriculum Learning, Multi-Agent Transformer, football simulator

Date of defence

18.06.2026

Result of the defence

Defended (thesis was successfully defended)

znamkaDznamka

Grading

Process of defence

Student nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta a na další otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm D.

Topics for thesis defence

Zadání práce zmiňuje soutěžní prostředí, například RoboCup 3D Soccer Simulation League, ale práce používá Google Research Football. Jaký je podle vás vztah mezi těmito prostředími a v čem by se řešení muselo změnit, pokud by mělo být skutečně použitelné v některém ze soutěžních prostředí?
V práci uvádíte, že agenti mají problém se získáváním míče a defenzivním chováním, protože tréninkové scénáře byly převážně ofenzivní. Proč tedy nebyly do tréninku zařazeny defenzivní scénáře?
Jaká byla časová a technologická náročnost algoritmizace tréninkových scénářů platformy FIFA, aby bylo možné je v práci exaktně popsat?

Language of thesis

Slovak

Faculty

Fakulta informačních technologií

Department

Department of Computer Graphics and Multimedia

Study programme

Information Technology (BIT)

Composition of Committee

prof. Dr. Ing. Jan Černocký (předseda)
doc. Ing. Zdeněk Vašíček, Ph.D. (místopředseda)
Ing. Jiří Hynek, Ph.D. (člen)
RNDr. Marek Rychlý, Ph.D. (člen)
Ing. Vojtěch Havlena, Ph.D. (člen)

Supervisor’s report
doc. RNDr. Pavel Smrž, Ph.D.

Celkově se jedná o solidní práci, které se student aktivně věnoval, nastudoval velké množství metod posilovaného učení a provedl několik sad experimentů s využitím prostředí pro simulaci robotického fotbalu. Přestože se hypotézy o možném zlepšení strategií hry nepodařilo prokázat, výsledkem je studie, na kterou lze navázat v dalším výzkumu. Navrhuji tedy hodnocení stupněm C - dobře.

Evaluation criteria	Verbal classification
Informace k zadání	Zadání navazovalo na předchozí absolventské práce, věnované konkrétním aspektům robotického fotbalu. Mělo za cíl vyzkoušet různé strategie s cílem najít nové způsoby trénování agentů v konkrétních scénářích. Přestože se některé cesty ke zlepšení ukázaly jako slepé, student se tématu věnoval a odvedl při realizaci a experimentování poctivou práci.
Práce s literaturou	Práce s literaturou byla dobrá, student se seznámil s množstvím relevantních odborných článků a využil je ke zpracování relativně obsáhlého přehledu metod posilovaného učení v kontextu robotického fotbalu.
Aktivita během řešení, konzultace, komunikace	Maxim Zelenčík byl po celou dobu řešení práce aktivní, i když citelně více času věnoval tématu až v letním semestru. Ocenit je jistě nutné fakt, že po té, kdy se původní hypotézy o možnostech zlepšování hry neprokázaly, dokázal se přeorientovat na jinou oblast a napnout síly tímto směrem.
Aktivita při dokončování	Práce byla dokončena s určitým předstihem, neměl jsem však možnost kriticky zhodnotit definitivní obsah a finální podobu technické zprávy.
Publikační činnost, ocenění	-

Points proposed by supervisor: 75

Grade proposed by supervisor: C

Reviewer’s report
Ing. Lubomír Otrusina

Práce řeší obtížnější téma posilovaného učení ve víceagentním fotbalovém prostředí. Zadání nebylo zcela naplněno, protože neřeší zapojení do soutěže. Technická zpráva je celkově srozumitelná a obsahuje relevantní teoretické i experimentální části. Výhrady mám však k metodice. Výběr metod a scénářů není dostatečně zdůvodněn, agent nebyl učen defenzivnímu chování. Výsledky nejsou přesvědčivé ani dostatečně statisticky podložené. Autor sice identifikuje možné příčiny problémů, ale dále je experimentálně neověřuje. Z těchto důvodů navrhuji hodnocení stupněm "uspokojivě".

Evaluation criteria	Verbal classification	Points
Náročnost zadání	Evaluation level: obtížnější zadání Zadání považuji za obtížnější zejména kvůli aplikaci posilovaného učení ve víceagentním prostředí a nutnosti navrhnout vhodné tréninkové scénáře s odměňovacími funkcemi.
Prezentační úroveň technické zprávy	Text má celkově srozumitelnou strukturu, ale prezentační úroveň snižuje ne vždy dostatečné vysvětlení pojmů (např. pressing), vzorců (např. vzorec 2.17) a jejich proměnných, mechanické členění některých kapitol bez úvodních pasáží (kap. 2 -> 2.1 -> 2.1.1) a méně přehledné popisky obrázků v experimentální části.	75
Formální úprava technické zprávy	Jazykovou stránku práce nemohu spolehlivě posoudit, protože nejsem rodilý mluvčí. Po formální stránce však práce obsahuje několik překlepů a typografických nedostatků, zejména ne zcela vhodně začleněné vzorce do textu, nečíslované nadpisy zakončené tečkou (např. „Evaluácia.“) a grafy s nedostatečně popsanými osami (např. u obr. 4.1 nejsou u spodních grafů samostatně popsány osy Y).	75
Realizační výstup	Technické řešení je funkční v rámci GRF, ale nenaplňuje soutěžní rámec (např. RoboCup 3D Soccer Simulation League). Výběr metod a scénářů není dostatečně zdůvodněn, agent nezvládá defenzivní chování, dosažené výsledky nejsou příliš přesvědčivé a nejsou dostatečně statisticky potvrzené.	65
Využitelnost výsledků	Jde o experimentální práci nad existujícím prostředím GRF. Praktická využitelnost je omezená, ale negativní výsledky mohou pomoci při návrhu dalších scénářů a tréninkových metodik.
Rozsah splnění požadavků zadání	Evaluation level: zadání téměř splněno s vážnějšími výhradami Zadání bylo splněno, avšak s vážnější výhradou k bodu 2, protože práce se místo soutěžních prostředí (např. v zadání uvedený RoboCup 3D Soccer Simulation League) zaměřuje na prostředí Google Research Football. V bodě 3 nebyla implementována rozhraní pro zařazení do soutěže a v bodě 4 nebylo provedeno porovnání s ostatními účastníky, ale jen s baseline modelem.
Rozsah technické zprávy	Evaluation level: je v obvyklém rozmezí Práce je v obvyklém rozmezí, ale text není vždy informačně vyvážený. Teoretická část zahrnuje poměrně mnoho metod, které jsou často popsány jen stručně. Detailnější rozpracování by si zasloužil zejména popis použitého prostředí GRF, jeho scénářů, odměn a metrik.
Práce s literaturou	Práce využívá řadu relevantních zdrojů k posilovanému učení, multi-agentním systémům a prostředí GRF a celkově s literaturou pracuje dobře. Lze však nalézt drobné nedostatky. V kapitole 2.5.5 a u některých konkrétních tvrzení či frameworků chybí přímá citace, například u TiZero. Práce mohla také diskutovat další relevantní přístupy, zejména self-play, který je v oblasti plného 11v11 GRF důležitý.	82

Topics for thesis defence:

Zadání práce zmiňuje soutěžní prostředí, například RoboCup 3D Soccer Simulation League, ale práce používá Google Research Football. Jaký je podle vás vztah mezi těmito prostředími a v čem by se řešení muselo změnit, pokud by mělo být skutečně použitelné v některém ze soutěžních prostředí?
V práci uvádíte, že agenti mají problém se získáváním míče a defenzivním chováním, protože tréninkové scénáře byly převážně ofenzivní. Proč tedy nebyly do tréninku zařazeny defenzivní scénáře?

Points proposed by reviewer: 65

Grade proposed by reviewer: D

Responsibility: Mgr. et Mgr. Hana Odstrčilová

VUT

Faculties and university institutes

Parts

Reinforcement Learning for RoboCup