Master's Thesis

Design and implementation of a method for controlling the gait of a bipedal robot

Final Thesis 11.22 MB

Author of thesis: Bc. Jiří Tomášek

Acad. year: 2025/2026

Supervisor: doc. Ing. Stanislav Věchet, Ph.D.

Reviewer: doc. Ing. Jiří Krejsa, Ph.D.

Abstract:

This thesis investigates the application of reinforcement learning to the control of bipedal robot locomotion. The PAWO robot, a small bipedal platform developed at the Faculty of Mechanical Engineering, Brno University of Technology, is used as the evaluation platform. A custom Proximal Policy Optimization (PPO) algorithm is implemented and used to train control policies in a MuJoCo simulation of the robot. Three approaches to learning bipedal gaits are designed, implemented, and compared: behavioral cloning combined with PPO fine-tuning, reference-free reinforcement learning, and imitation learning with kinematic reference motions generated by an inverse kinematics tool. The reference free approach is also used to develop a robust standing policy with active balance recovery under external perturbations. The results show that the imitation learning approach produces the most natural and stable gait, supports multiple motions within a single policy framework, and provides a foundation for future extension to additional behaviors and transfer to the physical robot.

Keywords:

bipedal robot, reinforcement learning, proximal policy optimization, imitation learning, locomotion control, PAWO

Date of defence

16.06.2026

Result of the defence

Defended (thesis was successfully defended)

znamkaAznamka

Grading

A

Process of defence

Při obhajobě student nejprve prezentoval svoji diplomovou práci, následně byly přečteny posudky a student odpovídal na dotazy oponenta. Poté byly členy komise položeny následující otázky: Jaký fyzikální engine používáte? Můžete srovnat vámi použitý engine se Simscape Multibody? Obhajoba byla komisí hodnocena jako výborná.

Language of thesis

English

Faculty

Department

Study programme

Mechatronics (N-MET-P)

Composition of Committee

RNDr. Vladimír Opluštil (předseda)
doc. Ing. Robert Grepl, Ph.D. (místopředseda)
doc. Ing. Jiří Krejsa, Ph.D. (člen)
doc. Ing. Radoslav Cipín, Ph.D. (člen)
Ing. Dalibor Červinka, Ph.D. (člen)
Ing. Michal Bastl, Ph.D. (člen)
Ing. Peter Zavadinka, Ph.D. (člen)
doc. Ing. David Fojtík, Ph.D. (člen)

Student zpracoval zadané téma velmi samostatně a v rozsahu plně odpovídajícím požadavkům na diplomovou práci. V rámci práce navrhl a implementoval architekturu řídicího systému chůze dvounohého robotu založenou na metodách posilovaného učení, přičemž vytvořil vlastní implementaci algoritmu Proximal Policy Optimization (PPO) a ověřil její funkčnost v simulačním prostředí. Součástí práce bylo rovněž porovnání několika přístupů k učení chůze a jejich vyhodnocení na modelu robotu PAWO.

Po obsahové i formální stránce je práce zpracována na velmi vysoké úrovni. Autor prokázal dobrou orientaci v oblasti strojového učení, řízení robotů a simulací, stejně jako schopnost samostatně řešit náročné technické problémy. Oceňuji zejména vlastní implementaci algoritmu PPO, systematické experimentální vyhodnocení navržených přístupů a dosažené výsledky, které jsou v některých scénářích srovnatelné s publikovanými řešeními.

Práce představuje kvalitní základ pro další výzkum v oblasti řízení dvounohých robotů pomocí metod posilovaného učení a její výsledky mohou být dále využity při vývoji robotických systémů v našich laboratořích.

Práci doporučuji k obhajobě a hodnotím známkou A – výborně.
Evaluation criteria Grade
Splnění požadavků a cílů zadání A
Postup a rozsah řešení, adekvátnost použitých metod A
Vlastní přínos a originalita A
Schopnost interpretovat dosažené výsledky a vyvozovat z nich závěry A
Využitelnost výsledků v praxi nebo teorii A
Logické uspořádání práce a formální náležitosti A
Grafická, stylistická úprava a pravopis A
Práce s literaturou včetně citací A
Samostatnost studenta při zpracování tématu A

Grade proposed by supervisor: A

Reviewer’s report
doc. Ing. Jiří Krejsa, Ph.D.

Pan Jiří Tomášek se ve své práci věnuje návrhu architektury řídicího systému chůze dvounohého robotu, implementaci a verifikaci tohoto systému v simulačním prostředí. V rámci práce představil vlastní implementaci Proximal Policy Optimization algoritmu a v práci představuje tři různé přístupy k učení chůze. Jednotlivé přístupy jsou vyhodnoceny na úloze řízení chůze konkrétního typu dvounohého robotu PAWO.

Autor v práci představuje vlastní řešení, které se mu podařilo dotáhnout do použitelného stavu, který je především v přístupu využívajícím kinematické reference srovnatelný s publikovanými řešeními. Osobně považuji za zajímavé horší výsledky LSTM ve srovnání s klasickou architekturou MLP.

Práce je vhodně strukturována, psána dobrou angličtinou, může tak sloužit jako vhodný informační zdroj nejen našim studentům.

Cíle práce považuji za splněné, autor prokázal dobrou orientaci v problematice, schopnost samostatného uvažování a řešení netriviální úlohy a jako celek považuji práci za nadprůměrnou.

Hodnotím ji známkou A, tedy výborně.
Evaluation criteria Grade
Splnění požadavků a cílů zadání A
Postup a rozsah řešení, adekvátnost použitých metod A
Vlastní přínos a originalita A
Schopnost interpretovat dosaž. výsledky a vyvozovat z nich závěry A
Využitelnost výsledků v praxi nebo teorii B
Logické uspořádání práce a formální náležitosti A
Grafická, stylistická úprava a pravopis A
Práce s literaturou včetně citací A
Topics for thesis defence:
  1. Jakým způsobem bude probíhat transfer naučeného systému na reálného robota?

Grade proposed by reviewer: A

Responsibility: Mgr. et Mgr. Hana Odstrčilová