Bachelor's Thesis

Comma AI: Addressing challenges for Autonomous Car Driving

Author of thesis: Bc. Tomáš Doušek

Acad. year: 2025/2026

Supervisor: doc. Ing. Ivan Homoliak, Ph.D.

Abstract:

The aim of this thesis is to examine challenges that come up during development and deployment of autonomous driving systems. Introduction devotes space to setting theoretical foundation of autonomous driving and principles of their implementation. Following part describes comma.ai, a company focused on developing an open-source autonomous driving solution, that can be deployed at reasonable cost to a large amount of vehicles manufactured after 2014.
Practical part of this work is devoted to implementing two real-world problems that arise in the process of creating autonomous systems. Specifically, the first challenge deals with creating a controller for computing vehicle control commands based on desired trajectory. The second challenge deals with compressing dashcam videos from the comma hardware. Both of these challenges are designed by comma.ai.

Keywords:

Autonomous driving, Modular architecture, End-to-end architecture, Imitation learning, Reinforcement learning, World Model, Video Compression

Date of defence

17.06.2026

Result of the defence

Defended (thesis was successfully defended)

znamkaAznamka

Grading

Process of defence

Student nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta a na další otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm A.

Topics for thesis defence

Váš generátor videa produkuje farebne neštandardné snímky optimalizované pre SegNet a PoseNet metriky. Vysvetlite, prečo je takýto prístup validný v kontexte tejto výzvy a v akých reálnych scenároch by bol naopak nepoužiteľný.
Váš World Model bol trénovaný na dátach z PID kontroléra - teda na sub-optimálnej politike. Akým spôsobom táto skutočnosť ovplyvňuje kvalitu natrénovaného Inverse World controllera a ako by ste tento problém riešili s viac dátami?
Controls challenge ste riešili kombináciou Behavioral Cloning a Reinforcement Learning. Popíšte, kde presne leží hranica medzi týmito dvoma fázami tréningu a aké boli konkrétne výzvy pri stabilizácii RL fázy.

Language of thesis

English

Faculty

Fakulta informačních technologií

Department

Department of Intelligent Systems

Study programme

Information Technology (BIT)

Composition of Committee

doc. Ing. Lukáš Burget, Ph.D. (předseda)
doc. RNDr. Milan Češka, Ph.D. (místopředseda)
Dr. Ing. Petr Peringer (člen)
Ing. Matěj Grégr, Ph.D. (člen)
Ing. Jakub Husa, Ph.D. (člen)

Supervisor’s report
doc. Ing. Ivan Homoliak, Ph.D.

Prácu hodnotím stupňom A (výborne), pretože študent pracoval celý akademický rok a vzniknuté problémy riešil samostatne aj s využitím konzultácií. Praktická implementácia kontroléra trajektórie a kompresie videí je funkčná, no mohla by obsahovať detailnejšie porovnanie s baseline riešeniami a rozsiahlejšie testovanie v rôznych scenároch.

Evaluation criteria	Verbal classification
Informace k zadání	Zadanie hodnotím ako nadpriemerne obtiažne z hľadiska rozmanitých technológií v oblasti počítačového videnia, autonómneho riadenia, práce s Comma.ai stackom a implementácie reálnych výziev v simulátore. Z môjho pohľadu bolo splnené vo všetkých bodoch.
Práce s literaturou	Študent si študijné pramene získaval samostatne na základe vlastného uváženia ale aj na základe doporučení vedúceho.
Aktivita během řešení, konzultace, komunikace	Aktivita počas tvorby práce bola na primeranej úrovni. Na schôdzky chodil študent pripravený, priebežne podával informácie o stave práce a na pripomienky vždy reagoval.
Aktivita při dokončování	Práca bola dokončená v dostatočnom predstihu a bola dôkladne konzultovaná.
Publikační činnost, ocenění	Publikačná činnosť nie je známa.

Points proposed by supervisor: 90

Grade proposed by supervisor: A

Reviewer’s report
Ing. Richard Gazdík

Práca výrazne presahuje štandardné očakávania pre bakalársku záverečnú prácu. Študent preukázal schopnosť samostatne navrhnúť, implementovať a vyhodnotiť netriviálne riešenia v reálnom kompetitívnom prostredí. Hodnotenie odráža výnimočnosť praktického prínosu pri zachovaní kvalitnej teoretickej časti.

Evaluation criteria	Verbal classification	Points
Náročnost zadání	Evaluation level: obtížnější zadání Cieľom tejto bakalárskej práce bolo naštudovať problematiku autonómneho riadenia vozidiel, oboznámiť sa s vývojovým stackom spoločnosti comma.ai, vybrať dve z jej výziev a navrhnúť a implementovať riešenia lokálne s poskytnutým simulačným frameworkom. Zadanie hodnotím ako náročnejšie.
Prezentační úroveň technické zprávy	Práca je logicky štruktúrovaná a výborne čitateľná. Postup od histórie autonómneho riadenia cez architektúry, súvisiacu literatúru, popis platformy comma.ai až po vlastnú implementáciu je dobre opodstatnený. Implementačná kapitola vyniká technickou hĺbkou, študent jasne vysvetľuje každé architektonické rozhodnutie vrátane motivácie. Vizualizácie výsledkov sú bohaté a informatívne. Záverečná kapitola je však pomerne krátka a mohla by lepšie syntetizovať kvantitatívne výsledky oboch výziev.	90
Formální úprava technické zprávy	Anglický text je plynulý a gramaticky na dobrej úrovni, čo zodpovedá deklarovanému použitiu jazykových nástrojov. Práca však obsahuje aj niekoľko formálnych nedostatkov a nefunkčných referencii.	80
Realizační výstup	Praktická časť práce predstavuje jej najsilnejšiu stránku. Pre Controls challenge študent navrhol a implementoval vlastný Inverse World controller, najskôr trénovaný Behavioral Cloning štýlom na dátach z PID kontroléra, následne dolaďovaný posilovaným učením v diferencovateľnom World Model simulátore, ktorý si musel sám naprogramovať keďže originálny simulátor bol v nepoužiteľnom ONNX formáte. Pre video kompresiu navrhol vlastnú architekúru Generátora kombinujúcu segmentačné masky, vektory pohybu a FiLM kondicionovanie, pričom dosiahol 9. miesto z 32 účastníkov verejnej súťaže, čo predstavuje výnimočný výsledok pre bakalársku prácu. Controls challenge nedosiahol skóre nižšie ako PID baseline na plnom evaluačnom sete, čo autor sám transparentne uznáva.	92
Využitelnost výsledků	Oba výstupy: Inverse World controller a generatívna kompresná sieť sú originálnymi technickými prínosmi, ktoré boli validované v reálnom kompetitívnom prostredí. Víťazné riešenia video kompresnej výzvy sú podľa pravidiel comma.ai kandidátmi na zaradenie do open-source projektu openpilot, čo dáva výsledkom priamu praktickú relevanciu nad rámec akademickej práce.
Rozsah splnění požadavků zadání	Evaluation level: zadání splněno Všetkých šesť bodov zadania bolo naplnených. Teoretický základ autonómneho riadenia je spracovaný v kapitole 2, súvisiaca literatúra v kapitole 3 a samotná platforma comma.ai v kapitole 4. Body 3 až 5 sú naplnené implementáciou dvoch výziev: kontroléra pre výpočet riadiacich príkazov (Controls challenge) a kompresie palubných videí (Video compression challenge) vrátane ich otestovania a vyhodnotenia na oficiálnych metrikách. Bod 6 je adresovaný v závere aj priebežne v implementačnej kapitole.
Rozsah technické zprávy	Evaluation level: je v obvyklém rozmezí Práca rozsahovo spadá do odporúčaného rozsahu. Všetky kapitoly sú obsahovo bohaté, teoretická časť (kapitoly 2 až 4) poskytuje solídny prehľad a implementačná kapitola (kapitola 5) je technicky podrobná s jasnými popismi architektonických rozhodnutí.
Práce s literaturou	Bibliografiu tvorí 81 zdrojov, čo je pre bakalársku prácu nadštandardný rozsah. Sú zastúpené recenzované príspevky z IEEE, NeurIPS, ICCV, arxiv preprinty a technické správy NIST, čo zodpovedá téme. Menšou výhradou je prítomnosť niekoľkých neštandardných zdrojov (post na X/Twitter, Wikipedia, blogové články), no tieto tvoria minoritu a vo väčšine prípadov slúžia ako faktické referencie k produktom a historickým udalostiam, kde sú akceptovateľné.	90

Topics for thesis defence:

Controls challenge ste riešili kombináciou Behavioral Cloning a Reinforcement Learning. Popíšte, kde presne leží hranica medzi týmito dvoma fázami tréningu a aké boli konkrétne výzvy pri stabilizácii RL fázy.
Váš generátor videa produkuje farebne neštandardné snímky optimalizované pre SegNet a PoseNet metriky. Vysvetlite, prečo je takýto prístup validný v kontexte tejto výzvy a v akých reálnych scenároch by bol naopak nepoužiteľný.
Váš World Model bol trénovaný na dátach z PID kontroléra - teda na sub-optimálnej politike. Akým spôsobom táto skutočnosť ovplyvňuje kvalitu natrénovaného Inverse World controllera a ako by ste tento problém riešili s viac dátami?

Points proposed by reviewer: 90

Grade proposed by reviewer: A

Responsibility: Mgr. et Mgr. Hana Odstrčilová

VUT

Faculties and university institutes

Parts

Comma AI: Addressing challenges for Autonomous Car Driving