Bachelor's Thesis

Comma AI: Addressing challenges for Autonomous Car Driving

Final Thesis 8.38 MB

Author of thesis: Bc. Tomáš Doušek

Acad. year: 2025/2026

Supervisor: doc. Ing. Ivan Homoliak, Ph.D.

Reviewer: Ing. Richard Gazdík

Abstract:

The aim of this thesis is to examine challenges that come up during development and deployment of autonomous driving systems. Introduction devotes space to setting theoretical foundation of autonomous driving and principles of their implementation. Following part describes comma.ai, a company focused on developing an open-source autonomous driving solution, that can be deployed at reasonable cost to a large amount of vehicles manufactured after 2014.
Practical part of this work is devoted to implementing two real-world problems that arise in the process of creating autonomous systems. Specifically, the first challenge deals with creating a controller for computing vehicle control commands based on desired trajectory. The second challenge deals with compressing dashcam videos from the comma hardware. Both of these challenges are designed by comma.ai.

Keywords:

Autonomous driving, Modular architecture, End-to-end architecture, Imitation learning, Reinforcement learning, World Model, Video Compression

Date of defence

17.06.2026

Result of the defence

Defended (thesis was successfully defended)

znamkaAznamka

Grading

A

Process of defence

Student nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta a na další otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm A.

Topics for thesis defence

  1. Váš generátor videa produkuje farebne neštandardné snímky optimalizované pre SegNet a PoseNet metriky. Vysvetlite, prečo je takýto prístup validný v kontexte tejto výzvy a v akých reálnych scenároch by bol naopak nepoužiteľný.
  2. Váš World Model bol trénovaný na dátach z PID kontroléra - teda na sub-optimálnej politike. Akým spôsobom táto skutočnosť ovplyvňuje kvalitu natrénovaného Inverse World controllera a ako by ste tento problém riešili s viac dátami?
  3. Controls challenge ste riešili kombináciou Behavioral Cloning a Reinforcement Learning. Popíšte, kde presne leží hranica medzi týmito dvoma fázami tréningu a aké boli konkrétne výzvy pri stabilizácii RL fázy.

Language of thesis

English

Faculty

Department

Study programme

Information Technology (BIT)

Composition of Committee

doc. Ing. Lukáš Burget, Ph.D. (předseda)
doc. RNDr. Milan Češka, Ph.D. (místopředseda)
Dr. Ing. Petr Peringer (člen)
Ing. Matěj Grégr, Ph.D. (člen)
Ing. Jakub Husa, Ph.D. (člen)

Supervisor’s report
doc. Ing. Ivan Homoliak, Ph.D.

Prácu hodnotím stupňom A (výborne), pretože študent pracoval celý akademický rok a vzniknuté problémy riešil samostatne aj s využitím konzultácií. Praktická implementácia kontroléra trajektórie a kompresie  videí je funkčná, no mohla by obsahovať detailnejšie porovnanie s baseline riešeniami a rozsiahlejšie testovanie v rôznych scenároch.

Evaluation criteria Verbal classification
Informace k zadání

Zadanie hodnotím ako nadpriemerne obtiažne z hľadiska rozmanitých technológií v oblasti počítačového videnia, autonómneho riadenia, práce s Comma.ai stackom a implementácie reálnych výziev v simulátore. Z môjho pohľadu bolo splnené vo všetkých bodoch.

Práce s literaturou

Študent si študijné pramene získaval samostatne na základe vlastného uváženia ale aj na základe doporučení vedúceho.

Aktivita během řešení, konzultace, komunikace

Aktivita počas tvorby práce bola na primeranej úrovni. Na schôdzky chodil študent pripravený, priebežne podával informácie o stave práce a na pripomienky vždy reagoval.

Aktivita při dokončování

Práca bola dokončená v dostatočnom predstihu a bola dôkladne konzultovaná.

Publikační činnost, ocenění

Publikačná činnosť nie je známa.

Points proposed by supervisor: 90

Grade proposed by supervisor: A

Reviewer’s report
Ing. Richard Gazdík

Práca výrazne presahuje štandardné očakávania pre bakalársku záverečnú prácu. Študent preukázal schopnosť samostatne navrhnúť, implementovať a vyhodnotiť netriviálne riešenia v reálnom kompetitívnom prostredí. Hodnotenie odráža výnimočnosť praktického prínosu pri zachovaní kvalitnej teoretickej časti.

Evaluation criteria Verbal classification Points
Náročnost zadání

Evaluation level: obtížnější zadání

Cieľom tejto bakalárskej práce bolo naštudovať problematiku autonómneho riadenia vozidiel, oboznámiť sa s vývojovým stackom spoločnosti comma.ai, vybrať dve z jej výziev a navrhnúť a implementovať riešenia lokálne s poskytnutým simulačným frameworkom. Zadanie hodnotím ako náročnejšie.

Prezentační úroveň technické zprávy

Práca je logicky štruktúrovaná a výborne čitateľná. Postup od histórie autonómneho riadenia cez architektúry, súvisiacu literatúru, popis platformy comma.ai až po vlastnú implementáciu je dobre opodstatnený. Implementačná kapitola vyniká technickou hĺbkou, študent jasne vysvetľuje každé architektonické rozhodnutie vrátane motivácie. Vizualizácie výsledkov sú bohaté a informatívne. Záverečná kapitola je však pomerne krátka a mohla by lepšie syntetizovať kvantitatívne výsledky oboch výziev.

90
Formální úprava technické zprávy

Anglický text je plynulý a gramaticky na dobrej úrovni, čo zodpovedá deklarovanému použitiu jazykových nástrojov. Práca však obsahuje aj niekoľko formálnych nedostatkov a nefunkčných referencii.

80
Realizační výstup

Praktická časť práce predstavuje jej najsilnejšiu stránku. Pre Controls challenge študent navrhol a implementoval vlastný Inverse World controller, najskôr trénovaný Behavioral Cloning štýlom na dátach z PID kontroléra, následne dolaďovaný posilovaným učením v diferencovateľnom World Model simulátore, ktorý si musel sám naprogramovať keďže originálny simulátor bol v nepoužiteľnom ONNX formáte. Pre video kompresiu navrhol vlastnú architekúru Generátora kombinujúcu segmentačné masky, vektory pohybu a FiLM kondicionovanie, pričom dosiahol 9. miesto z 32 účastníkov verejnej súťaže, čo predstavuje výnimočný výsledok pre bakalársku prácu. Controls challenge nedosiahol skóre nižšie ako PID baseline na plnom evaluačnom sete, čo autor sám transparentne uznáva.

92
Využitelnost výsledků

Oba výstupy: Inverse World controller a generatívna kompresná sieť sú originálnymi technickými prínosmi, ktoré boli validované v reálnom kompetitívnom prostredí. Víťazné riešenia video kompresnej výzvy sú podľa pravidiel comma.ai kandidátmi na zaradenie do open-source projektu openpilot, čo dáva výsledkom priamu praktickú relevanciu nad rámec akademickej práce.

Rozsah splnění požadavků zadání

Evaluation level: zadání splněno

Všetkých šesť bodov zadania bolo naplnených. Teoretický základ autonómneho riadenia je spracovaný v kapitole 2, súvisiaca literatúra v kapitole 3 a samotná platforma comma.ai v kapitole 4. Body 3 až 5 sú naplnené implementáciou dvoch výziev: kontroléra pre výpočet riadiacich príkazov (Controls challenge) a kompresie palubných videí (Video compression challenge) vrátane ich otestovania a vyhodnotenia na oficiálnych metrikách. Bod 6 je adresovaný v závere aj priebežne v implementačnej kapitole.

Rozsah technické zprávy

Evaluation level: je v obvyklém rozmezí

Práca rozsahovo spadá do odporúčaného rozsahu. Všetky kapitoly sú obsahovo bohaté, teoretická časť (kapitoly 2 až 4) poskytuje solídny prehľad a  implementačná kapitola (kapitola 5) je technicky podrobná s jasnými popismi architektonických rozhodnutí.

Práce s literaturou

Bibliografiu tvorí 81 zdrojov, čo je pre bakalársku prácu nadštandardný rozsah. Sú zastúpené recenzované príspevky z IEEE, NeurIPS, ICCV, arxiv preprinty a technické správy NIST, čo zodpovedá téme. Menšou výhradou je prítomnosť niekoľkých neštandardných zdrojov (post na X/Twitter, Wikipedia, blogové články), no tieto tvoria minoritu a vo väčšine prípadov slúžia ako faktické referencie k produktom a historickým udalostiam, kde sú akceptovateľné.

90
Topics for thesis defence:
  1. Controls challenge ste riešili kombináciou Behavioral Cloning a Reinforcement Learning. Popíšte, kde presne leží hranica medzi týmito dvoma fázami tréningu a aké boli konkrétne výzvy pri stabilizácii RL fázy.
  2. Váš generátor videa produkuje farebne neštandardné snímky optimalizované pre SegNet a PoseNet metriky. Vysvetlite, prečo je takýto prístup validný v kontexte tejto výzvy a v akých reálnych scenároch by bol naopak nepoužiteľný.
  3. Váš World Model bol trénovaný na dátach z PID kontroléra - teda na sub-optimálnej politike. Akým spôsobom táto skutočnosť ovplyvňuje kvalitu natrénovaného Inverse World controllera a ako by ste tento problém riešili s viac dátami?
Points proposed by reviewer: 90

Grade proposed by reviewer: A

Responsibility: Mgr. et Mgr. Hana Odstrčilová