Master's Thesis

Design of a talking robot head with connection to artificial intelligence

Final Thesis 5.88 MB Appendix 5.21 MB

Author of thesis: Bc. Filip Maliňák

Acad. year: 2025/2026

Abstract:

This master’s thesis deals with the design, assembly and programming of a speaking
animatronic robotic head based on the Raspberry Pi platform. The aim of the thesis is to
create a functional laboratory prototype capable of detecting and tracking a human face
using a camera, turning its eyes and head towards the detected person, and communicating
by voice in the Czech language. The system includes a camera pipeline for face detection,
a geometric conversion of the face position in the image into the required gaze direction, a
motion layer for servo motor control, and a voice pipeline using speech-to-text, a language
model and speech synthesis services.
The thesis describes the system requirements, mechanical construction, power supply,
software architecture, integration of external AI services and the method of passing a
structured response from the language model to the voice and motion outputs. The se-
lection of specific services for speech recognition, response generation and speech synthesis
was supported by comparative measurements of latency, quality and operating costs. The
final prototype uses Speechmatics for speech recognition, the GPT-4o mini model for
response generation and Google Chirp 3 HD for Czech speech synthesis. The result of
the thesis is a functional physical prototype of a robotic head intended as a laboratory
AI doorman and a mechatronic demonstrator combining mechanical design, electronics,
camera-based perception, motion control and artificial intelligence service.

Keywords:

animatronic robot head, Raspberry Pi, face detection, servo control, speech-to-text, lan-
guage model, text-to-speech, artificial intelligence

Date of defence

17.06.2026

Result of the defence

Defended (thesis was successfully defended)

znamkaAznamka

Grading

Process of defence

Při obhajobě student nejprve prezentoval svoji diplomovou práci, následně byly přečteny posudky a student odpovídal na dotazy oponenta. Poté byly členy komise položeny následující otázky: Dá se latence srazit dolů? Jak je řešen pohyb motorů? Pomohli by práci AI akcelerátory? Co plánujete dát na vrchní část zařízení? Obhajoba byla komisí hodnocena jako výborná.

Language of thesis

Czech

Faculty

Fakulta strojního inženýrství

Department

Institute of Solid Mechanics, Mechatronics and Biomechanics

Study programme

Mechatronics (N-MET-P)

Composition of Committee

RNDr. Vladimír Opluštil (předseda)
doc. Ing. Robert Grepl, Ph.D. (místopředseda)
doc. Ing. Jiří Krejsa, Ph.D. (člen)
doc. Ing. Radoslav Cipín, Ph.D. (člen)
Ing. Dalibor Červinka, Ph.D. (člen)
Ing. Michal Bastl, Ph.D. (člen)
Ing. Peter Zavadinka, Ph.D. (člen)

Supervisor’s report
Ing. Martin Appel, Ph.D.

Diplomová práce studenta Filipa Maliňáka se věnuje návrhu, sestavení a naprogramování mluvící animatronické robotické hlavy s propojením na služby umělé inteligence. Výsledkem je funkční laboratorní demonstrátor, který sleduje obličej člověka, natáčí oči a hlavu směrem k osobě a umožňuje hlasovou komunikaci v českém jazyce.

Velmi kladně hodnotím, že práce nezůstala pouze u návrhu, ale byla dotažena do fyzicky funkční sestavy. Student propojil mechanickou konstrukci, Raspberry Pi, kameru, řízení servomotorů, audio vstup a výstup, rozpoznávání řeči, jazykový model a syntézu hlasu do jednoho celku. Oceňuji také vlastní geometrický převod polohy obličeje v obraze na směr pohledu a rozdělení pohybu mezi oči a hlavu.

Za silnou stránku práce považuji výběr a vyhodnocení AI služeb. Student nevybral STT, LLM a TTS pouze pocitově, ale porovnal latenci, kvalitu i provozní náklady. Přínosné je také řešení orchestrátoru, strukturovaná odpověď jazykového modelu, napojení na pohybovou vrstvu a oddělení audio výstupu tak, aby neblokoval pohybovou smyčku. Práce má velmi dobrou vizuální podobu a výsledný prototyp působí reprezentativně.

K práci mám pouze dílčí výhrady. Mechanická část nevznikla zcela od nuly, ale vychází z existujících otevřených konstrukcí, což student v práci transparentně uvádí. Ověření systému je převážně kvalitativní a pro dlouhodobé nasazení by bylo vhodné doplnit delší provozní testy. Omezením je také závislost na cloudových službách, slyšitelný chod hobby serv a celková latence hlasové odezvy v řádu jednotek sekund.

Celkově hodnotím práci jako velmi kvalitní diplomovou práci s jasným praktickým výstupem. Student prokázal schopnost integrovat mechaniku, elektroniku, počítačové vidění, řízení pohybu a současné AI služby do funkčního mechatronického systému. Práci doporučuji k obhajobě.

Evaluation criteria	Grade
Splnění požadavků a cílů zadání	A
Postup a rozsah řešení, adekvátnost použitých metod	A
Vlastní přínos a originalita	B
Schopnost interpretovat dosažené výsledky a vyvozovat z nich závěry	A
Využitelnost výsledků v praxi nebo teorii	B
Logické uspořádání práce a formální náležitosti	A
Grafická, stylistická úprava a pravopis	A
Práce s literaturou včetně citací	A
Samostatnost studenta při zpracování tématu	A

Grade proposed by supervisor: A

Reviewer’s report
Ing. Martin Formánek, Ph.D.

Předložená diplomová práce Bc. Filipa Maliňáka se zabývá návrhem a realizací mluvící animatronické robotické hlavy. Práce úspěšně propojuje oblasti mechanické konstrukce, elektroniky, počítačového vidění a integrace cloudových služeb umělé inteligence.

Práce je logicky strukturovaná a provádí čtenáře celým procesem od hardwarového návrhu na platformě Raspberry Pi až po finální testování komunikačního řetězce, který využívá služby Speechmatics, OpenAI gpt-4o-mini a Google Chirp 3 HD. Kladně hodnotím zejména celistvý přístup k řešení komplexního tématu a neuspokojení se s jedním nástrojem, ale experimentálním ověření aktuálně dostupných nástrojů pro TTS, STT, a LLM. Výsledný funkční demonstrátor dokládá, že stanovené cíle zadání byly splněny, a text představuje solidní a ucelený inženýrský výstup.

Drobná připomínka: latence je v kap. 6.6 definována jako doba od začátku hlasového dotazu uživatele po začátek slyšitelné odpovědi robota. Z hlediska vyhodnocení interakce člověk-stroj by dle mého názoru bylo mnohem vhodnější měřit tento čas až od konce řeči uživatele.

Evaluation criteria	Grade
Splnění požadavků a cílů zadání	A
Postup a rozsah řešení, adekvátnost použitých metod	A
Vlastní přínos a originalita	B
Schopnost interpretovat dosaž. výsledky a vyvozovat z nich závěry	A
Využitelnost výsledků v praxi nebo teorii	B
Logické uspořádání práce a formální náležitosti	A
Grafická, stylistická úprava a pravopis	A
Práce s literaturou včetně citací	A

Topics for thesis defence:

Je nějak vyřešena otázka soukromí (např. posílání obrazových dat obličejů uživatelů bez souhlasu)?
Jak byla měřena „kvalita“ výstupu jazykových modelů?
Vysvětlete, co je myšleno pojmem „robutnost vůči běžnému laboratornímu prostředí“ (kap. 2.7.)

Grade proposed by reviewer: A

Responsibility: Mgr. et Mgr. Hana Odstrčilová

VUT

Faculties and university institutes

Parts

Design of a talking robot head with connection to artificial intelligence