Přístupnostní navigace
E-application
Search Search Close
Bachelor's Thesis
Author of thesis: Maxim Zelenčík
Acad. year: 2025/2026
Supervisor: doc. RNDr. Pavel Smrž, Ph.D.
Reviewer: Ing. Lubomír Otrusina
This bachelor's thesis focuses on the application of reinforcement learning in the Google Research Football environment. The aim of the work is to evaluate whether football-inspired training methodologies, specifically Small Sided Games and Curriculum Learning, lead to improved gameplay behavior and higher performance of multi-agent systems compared to standard direct training approaches. Within the thesis, custom SSG scenarios were designed and implemented with modified reward functions inspired by real-world football drills, as well as a Curriculum Learning system utilizing Football Academy scenarios with a gradual transition between stages of increasing difficulty. The Multi-Agent Transformer algorithm was used for training. Experimental results show that the SSG methodology partially induces specific in-game behaviors, with two out of three tested variants achieving a slight but statistically insignificant improvement in win rate in full 11 vs. 11 matches. Curriculum Learning in the proposed configuration did not yield the expected performance improvements. A common limitation of both approaches was the absence of defensive behavior and the issue of catastrophic forgetting when transitioning to full match scenarios. This work contributes to understanding the limitations of transferring real-world football training methodologies into a digital reinforcement learning environment and identifies key challenges for future research.
reinforcement learning, multi-agent systems, Google Research Football, Small Sided Games, Curriculum Learning, Multi-Agent Transformer, football simulator
Date of defence
18.06.2026
Result of the defence
Defended (thesis was successfully defended)
Grading
D
Process of defence
Student nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta a na další otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm D.
Topics for thesis defence
Language of thesis
Slovak
Faculty
Fakulta informačních technologií
Department
Department of Computer Graphics and Multimedia
Study programme
Information Technology (BIT)
Composition of Committee
prof. Dr. Ing. Jan Černocký (předseda) doc. Ing. Zdeněk Vašíček, Ph.D. (místopředseda) Ing. Jiří Hynek, Ph.D. (člen) RNDr. Marek Rychlý, Ph.D. (člen) Ing. Vojtěch Havlena, Ph.D. (člen)
Supervisor’s reportdoc. RNDr. Pavel Smrž, Ph.D.
Celkově se jedná o solidní práci, které se student aktivně věnoval, nastudoval velké množství metod posilovaného učení a provedl několik sad experimentů s využitím prostředí pro simulaci robotického fotbalu. Přestože se hypotézy o možném zlepšení strategií hry nepodařilo prokázat, výsledkem je studie, na kterou lze navázat v dalším výzkumu. Navrhuji tedy hodnocení stupněm C - dobře.
Zadání navazovalo na předchozí absolventské práce, věnované konkrétním aspektům robotického fotbalu. Mělo za cíl vyzkoušet různé strategie s cílem najít nové způsoby trénování agentů v konkrétních scénářích. Přestože se některé cesty ke zlepšení ukázaly jako slepé, student se tématu věnoval a odvedl při realizaci a experimentování poctivou práci.
Práce s literaturou byla dobrá, student se seznámil s množstvím relevantních odborných článků a využil je ke zpracování relativně obsáhlého přehledu metod posilovaného učení v kontextu robotického fotbalu.
Maxim Zelenčík byl po celou dobu řešení práce aktivní, i když citelně více času věnoval tématu až v letním semestru. Ocenit je jistě nutné fakt, že po té, kdy se původní hypotézy o možnostech zlepšování hry neprokázaly, dokázal se přeorientovat na jinou oblast a napnout síly tímto směrem.
Práce byla dokončena s určitým předstihem, neměl jsem však možnost kriticky zhodnotit definitivní obsah a finální podobu technické zprávy.
-
Grade proposed by supervisor: C
Reviewer’s reportIng. Lubomír Otrusina
Práce řeší obtížnější téma posilovaného učení ve víceagentním fotbalovém prostředí. Zadání nebylo zcela naplněno, protože neřeší zapojení do soutěže. Technická zpráva je celkově srozumitelná a obsahuje relevantní teoretické i experimentální části. Výhrady mám však k metodice. Výběr metod a scénářů není dostatečně zdůvodněn, agent nebyl učen defenzivnímu chování. Výsledky nejsou přesvědčivé ani dostatečně statisticky podložené. Autor sice identifikuje možné příčiny problémů, ale dále je experimentálně neověřuje. Z těchto důvodů navrhuji hodnocení stupněm "uspokojivě".
Evaluation level: obtížnější zadání
Zadání považuji za obtížnější zejména kvůli aplikaci posilovaného učení ve víceagentním prostředí a nutnosti navrhnout vhodné tréninkové scénáře s odměňovacími funkcemi.
Text má celkově srozumitelnou strukturu, ale prezentační úroveň snižuje ne vždy dostatečné vysvětlení pojmů (např. pressing), vzorců (např. vzorec 2.17) a jejich proměnných, mechanické členění některých kapitol bez úvodních pasáží (kap. 2 -> 2.1 -> 2.1.1) a méně přehledné popisky obrázků v experimentální části.
Jazykovou stránku práce nemohu spolehlivě posoudit, protože nejsem rodilý mluvčí. Po formální stránce však práce obsahuje několik překlepů a typografických nedostatků, zejména ne zcela vhodně začleněné vzorce do textu, nečíslované nadpisy zakončené tečkou (např. „Evaluácia.“) a grafy s nedostatečně popsanými osami (např. u obr. 4.1 nejsou u spodních grafů samostatně popsány osy Y).
Technické řešení je funkční v rámci GRF, ale nenaplňuje soutěžní rámec (např. RoboCup 3D Soccer Simulation League). Výběr metod a scénářů není dostatečně zdůvodněn, agent nezvládá defenzivní chování, dosažené výsledky nejsou příliš přesvědčivé a nejsou dostatečně statisticky potvrzené.
Jde o experimentální práci nad existujícím prostředím GRF. Praktická využitelnost je omezená, ale negativní výsledky mohou pomoci při návrhu dalších scénářů a tréninkových metodik.
Evaluation level: zadání téměř splněno s vážnějšími výhradami
Zadání bylo splněno, avšak s vážnější výhradou k bodu 2, protože práce se místo soutěžních prostředí (např. v zadání uvedený RoboCup 3D Soccer Simulation League) zaměřuje na prostředí Google Research Football. V bodě 3 nebyla implementována rozhraní pro zařazení do soutěže a v bodě 4 nebylo provedeno porovnání s ostatními účastníky, ale jen s baseline modelem.
Evaluation level: je v obvyklém rozmezí
Práce je v obvyklém rozmezí, ale text není vždy informačně vyvážený. Teoretická část zahrnuje poměrně mnoho metod, které jsou často popsány jen stručně. Detailnější rozpracování by si zasloužil zejména popis použitého prostředí GRF, jeho scénářů, odměn a metrik.
Práce využívá řadu relevantních zdrojů k posilovanému učení, multi-agentním systémům a prostředí GRF a celkově s literaturou pracuje dobře. Lze však nalézt drobné nedostatky. V kapitole 2.5.5 a u některých konkrétních tvrzení či frameworků chybí přímá citace, například u TiZero. Práce mohla také diskutovat další relevantní přístupy, zejména self-play, který je v oblasti plného 11v11 GRF důležitý.
Grade proposed by reviewer: D
Responsibility: Mgr. et Mgr. Hana Odstrčilová