diplomová práce

Detekce chodců ve snímku pomocí metod strojového učení

Text práce 8.25 MB Příloha 494.07 kB

Autor práce: Ing. Martin Tilgner

Ak. rok: 2018/2019

Vedoucí: Ing. Karel Horák, Ph.D.

Oponent: Ing. Jan Klečka, Ph.D.

Abstrakt:

Tato práce se zabývá detekcí chodců pomocí konvolučních neuronových sítí z pohledu autonomního vozidla. A to zejména jejich otestováním ve smyslu nalezení vhodné praxe tvorby datasetu pro machine learning modely. V práci bylo natrénováno celkem deset machine learning modelů meta architektur Faster R-CNN s ResNet 101 jako feature extraktorem a SSDLite s feature extraktorem MobileNet_v2. Tyto modely byly natrénovány na datasetech o různých velikostech. Nejlépší výsledky byly dosaženy na datasetu o velikosti 5000 snímků. Kromě těchto modelů byl vytvořen nový dataset zaměřující se na chodce v noci. Dále byla vytvořena knihovna Python funkcí pro práci s datasety a automatickou tvorbu datasetu.

Klíčová slova:

Machine learning, Detekce objektů, Detekce chodců, Tensorflow, Faster R-CNN, SSDLite, Dataset, Small Night Pedestrian Dataset

Termín obhajoby

05.06.2019

Výsledek obhajoby

obhájeno (práce byla úspěšně obhájena)

znamkaAznamka

Klasifikace

A

Průběh obhajoby

Student obhájil diplomovou práci. Reagoval na všechny dotazy komise i na připomínky oponenta.

Jazyk práce

angličtina

Fakulta

Ústav

Studijní program

Elektrotechnika, elektronika, komunikační a řídicí technika (EEKR-M1)

Studijní obor

Kybernetika, automatizace a měření (M1-KAM)

Složení komise

doc. Ing. Eduard Janeček, CSc. (předseda)
prof. Ing. Petr Pivoňka, CSc. (místopředseda)
doc. Ing. Petr Fiedler, Ph.D. (člen)
Ing. Radek Štohl, Ph.D. (člen)
Ing. Stanislav Klusáček, Ph.D. (člen)

Posudek vedoucího
Ing. Karel Horák, Ph.D.

Pan Bc. Tilgner se ve své diplomové práci zabýval detekcí chodců v obecné dopravní scéně pomocí metod strojového učení. Přístup studenta k řešení úlohy lze stručně charaketrizovat jako pečlivý, aktivní a zodpovědný. Diplomant pracoval průběžně, koncepčně a konzultoval pravidelně. Výsledky práce tomu odpovídají. Po dobře zpracované rešerši metod strojového učení s využitím konvolučních neuronových sítí a dostupných datasetů vybral a implementoval architektury Faster R-CNN a SSDLite. Velmi kladně hodnotím komplexní přístup k řešení např. vytvoření potřebného anotačního nástroje a doplňkové noční galerie chodců, ačkoliv tyto body nebyly součástí zadání. Diplomant provedl celou řadu časově náročných experimentů a opět kladně hodnotím jejich precizní vyhodnocení použitím několika vybraných kritérií, zejména parametru mAP (mean Average Precision). Pan Tilgner zcela zjevně prokázal inženýrské schopnosti a věcná i formální úroveň dodaného dokumentu to dokládají. Doporučuji s výborným hodnocením k obhajobě. Výsledný počet bodů navržený vedoucím: 92

Známka navržená vedoucím: A

Posudek oponenta
Ing. Jan Klečka, Ph.D.

Práce Bc. Martina Tilgnera se zabývá detekcí chodců v obraze kamery pomocí konvolučních neuronových sítí. Dokument je psaný v anglickém jazyce a z formálního hlediska splňuje všechny požadavky, které jsou na něj kladeny. Je napsán srozumitelně a obsahuje jen minimální množství gramatických chyb.
Z formálního hlediska mám drobnou připomínku k citovanosti teoretického rozboru – především kap. 1 je zcela bez citací ač jak informace, matematické vztahy, tak pravděpodobně i většina obrázků pochází z literární rešerše, kterou autor provedl.
Z odborného hlediska kladně hodnotím autorovu orientaci v oblasti konvolučních neuronových sítí, tak i vhodné návrhové volby: výběr nástrojů, návrh řešení, výběr testovacích dat a i vyhodnocení dosažených výsledků. Drobnou výtku mám k občasnému nekorektnímu vyjadřování např. str 18 – autor tvrdí, že výsledkem normalizace výstupního je pravděpodobnostní rozložení. Dále pak některé rozhodnutí jsou nedostatečně komentovány např. str. 72-73 – body v grafech  jsou proloženy buď lineární, nebo logaritmickou křivkou, ale není zdůvodněno, na základě čeho bylo o příslušném modelu rozhodnuto. Nicméně v kontextu práce jde jen o drobnosti.
Zadání bylo nepochybně splněno v plném rozsahu. V některých bodech dokonce předložená práce obsahuje části realizované nad rámec zadání. Konkrétně bod 2. zadání studentu přikazuje buď vytvořit vlastní dataset nebo převzít nějaký existující.  Autor v práci používá jak několik převzatých tak i jeden vlastní dataset.
Předložená práce svědčí o dobrých inženýrských schopnostech autora. Navrhuji hodnocení A/90. Otázky k obhajobě:
  1. Grafy na Fig. 5.3-5.5 obsahují regresní závislosti. Některé jsou lineární a některé logaritmické. Na základě čeho jste rozhodoval, kterou použijete?
  2. V Tab. 4.1 jsou zaznamenáte časy trvání trénovacího kroku. Jak si vysvětlujete, že „Faster RCNN 500“ se učil výrazně kratší dobu než „Faster RCNN 100“? Chápu-li to správně trénovací dataset pro „Faster RCNN 500“ obsahuje 5x více snímků než „Faster RCNN 100“.
Výsledný počet bodů navržený oponentem: 90

Známka navržená oponentem: A

Odpovědnost: Mgr. et Mgr. Hana Odstrčilová