Bachelor's Thesis

Navigation in large-scale facilities using augmented reality

Final Thesis 5.05 MB Appendix 30.43 kB

Author of thesis: Bc. Tomáš Pěnkava

Acad. year: 2025/2026

Supervisor: prof. Ing. Martin Čadík, Ph.D.

Abstract:

This bachelor thesis focuses on the design and implementation of a mobile application for indoor navigation within the Faculty of Information Technology campus. The thesis analyzes current approaches to visual localization and focuses on development using the Unity game engine. The core of the solution lies in the integration of precise point-cloud-based localization (Immersal SDK) and coarse localization based on the image retrieval method using a neural network. The work describes the process of mapping the extensive faculty campus, addressing challenges related to visually uniform spaces and evaluating the success of the proposed system in real-world operation. The output is a functional augmented reality prototype that facilitates user orientation in the complex faculty environment.

Keywords:

Augmented reality, visual localisation, indoor navigation, point cloud, Image Retrieval

Date of defence

16.06.2026

Result of the defence

Defended (thesis was successfully defended)

znamkaDznamka

Grading

Process of defence

Student nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta a na další otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm D.

Topics for thesis defence

Popište prosím, jak funguje lokalizace na základě mračen bodů (jakým způsobem se z aktuálního snímku z kamery určí 6-DoF poloha vůči předem vytvořené mapě).
V úvodu práce tvrdíte, že vizuální lokalizace netrpí kumulativní chybou (driftem), v sekci 3.3.2 (Budova E) však uvádíte, že „došlo k driftu algoritmu a následnému rozpadu geometrie mapy“. Vysvětlete prosím tento zdánlivý rozpor.
Co přesně reprezentují navigační body zobrazené na obrázku 3.9 a popsané v sekci 3.2.5? Jak byly definovány a jakým způsobem jste je v prostoru umisťoval?
Pracoval jste nějak s mapou areálu dostupnou na stránkách fakulty? Jak jste tato data zpracoval a k čemu vám byla užitečná?

Language of thesis

Czech

Faculty

Fakulta informačních technologií

Department

Department of Computer Graphics and Multimedia

Study programme

Information Technology (BIT)

Composition of Committee

prof. Ing. Adam Herout, Ph.D. (předseda)
doc. Ing. Michal Bidlo, Ph.D. (místopředseda)
Ing. Jaroslav Dytrych, Ph.D. (člen)
Ing. Ivana Burgetová, Ph.D. (člen)
Dr. Ing. Petr Peringer (člen)

Supervisor’s report
prof. Ing. Martin Čadík, Ph.D.

Předložená bakalářská práce se zabývá tématem navigace v rozšířené realitě (AR) s využitím metod počítačového vidění. Student implementoval aplikaci v prostředí Unity, která kombinuje technologii image retrieval pro iniciální lokalizaci a lokalizační systém Immersal pro následné zpřesnění pózy kamery. Práce má z mého pohledu následující hlavní nedostatky:

Image retrieval: Využití předtrénované neuronové sítě bez dotrénování (fine-tuning) na specifických datech reálného prostředí limituje robustnost celého řešení.

Póza kamery: Přesný odhad pózy kamery v reálném prostředí často selhává, a to i v případech, kdy předcházející krok image retrieval proběhne správně. Tento fakt výrazně snižuje praktickou použitelnost aplikace.

Formální a technické zpracování: Nejslabším článkem práce je zřejmě samotný text technické zprávy, ve kterém chybí hlubší analýza inženýrských rozhodnutí a detailnější vyhodnocení úspěšnosti lokalizace.

Celkově považuji práci Tomáše Pěnkavy za mírně podprůměrnou.

Evaluation criteria	Verbal classification
Information about assignment	Zadání této bakalářské práce považuji za náročnější, neboť vyžaduje pochopení a implementaci principů rozšířené reality (AR), vizuální lokalizace kamery, sběr obrazových dat v rozsáhlých objektech a implementaci mobilní aplikace. Student vytvořil prototyp AR aplikace pro navigaci v rozsáhlém prostředí FIT VUT, který ale není v současném stavu dostatečně robustní a stabilní.
Work with literature	Student pracoval s materiály doporučenými vedoucím práce a sám si také dohledával další zdroje.
Activity during solution, consultations, communication	Student byl v průběhu obou semestrů průměrně aktivní, dohodnuté termíny dodržoval a své řešení průběžně konzultoval s vedoucím práce.
Activity during completion	Práce byla dokončována na poslední chvíli, její obsah byl konzultován.
Publication activity, awards

Points proposed by supervisor: 68

Grade proposed by supervisor: D

Reviewer’s report
Ing. Petr Bobák, Ph.D.

Autor v rámci bakalářské práce nastudoval problematiku indoor lokalizace a vytvořil prototyp AR navigační aplikace integrující komerční SDK pro lokalizaci v mračnech bodů (Immersal) s vlastní implementací hrubé lokalizace pomocí předtrénované konvoluční neuronové sítě (Unity Sentis, MobileNetV2). Praktický pokus o zmapování značné části areálu FIT VUT je nezanedbatelný.

Vzhledem k závažným nedostatkům:

chaotická struktura technické zprávy mísící návrh, implementaci a evaluaci,

povrchní průzkum problematiky (kapitola 1) i AR technologií (kapitola 2 zaměřená výhradně na Unity, bez diskuse alternativ jako ARCore/ARKit),

přímočaré použití předtrénovaného MobileNetV2 bez doladění a bez zdůvodnění volby modelu či popisu alternativ,

rozsáhlá parafráze dokumentace ImmersalSDK v sekci 3.2.3 (cca 7 stran),

chaotické a nejasné vyhodnocení v kapitole 4 — sekce 4.2 bez jasné metodiky, sekce 4.3 bez popisu validační sady,

nízká přesnost obou lokalizačních přístupů (image retrieval pod 50 % v polovině lokalit, ImmersalSDK nedostatečně popsaná a objasněná metrika úspěšnosti),

množství autorem přiznaných nedodělků (sekce 4.4.3), činících aplikaci v praxi téměř nepoužitelnou,

chyba v plakátu (identický popis dvou různých lokalizačních metod),

drobné, avšak četné typografické a strukturální nedostatky (chybějící zadání za titulním listem dle směrnice č. 72/2017 čl. 15, nereferencované tabulky/obrázky/rovnice, anglické Listing v české práci, printscreen IDE jako obrázek 3.1, překlepy a duplikáty slov),

navrhuji hodnocení stupněm D.

Evaluation criteria	Verbal classification	Points
The difficulty of the assignment	Evaluation level: more difficult assignment Zadání práce je obtížnějšího charakteru. Autor musel nastudovat poměrně širokou problematiku indoor lokalizace, seznámit se s technologiemi pro tvorbu AR aplikací a prakticky zmapovat rozsáhlý prostor areálu FIT VUT.
Presentation level of the technical report	Logická struktura technické zprávy vykazuje řadu závažných nedostatků, které negativně ovlivňují pochopitelnost práce: Chybí zadání za titulním listem dle směrnice č. 72/2017, čl. 15. Zadání je sice zařazeno jako Příloha C, avšak směrnice vyžaduje jeho umístění bezprostředně za titulní list. Velmi stručný úvod (cca 1/2 strany), popis obsahu jednotlivých kapitol je nekompletní (končí výčtem u kap. 3) a působí nedokončeně. Kapitola 1 — průzkum problematiky vyjmenovává množství možných přístupů, avšak jen velmi povrchně a stručně, bez hlubšího vhledu do problematiky. Návrh aplikace je založen na konkrétním prostředí (Unity), autor neprozkoumal a v práci nediskutoval další alternativy jako ARCore, ARKit, případně nativní vývoj. Návrh řešení chaoticky míchá samotný návrh s implementačními detaily včetně ukázek zdrojového kódu (Listings 1–5) a vyhodnocení. V textu se opakovaně objevují dopředné odkazy, což snižuje plynulost čtení a ztěžuje navazování myšlenek. Práce představuje dva přístupy k lokalizaci, ale ani u jednoho není návrh dobře zdůvodněn: Hrubá lokalizace pomocí image retrieval je založena na přímočarém použití předtrénovaného modelu MobileNetV2 bez fine-tuningu na cílový dataset interiérů fakulty a bez popisu alternativ či objasnění, proč byl zvolen právě tento model. Přesná lokalizace je založena výhradně na komerční knihovně ImmersalSDK založené na mračnech bodů; vlastní přínos autora se omezuje na integraci a mapování prostor. Sekce 3.2.3 Funkcionalita ImmersalSDK (cca 7 stran, str. 23–29) prakticky pouze parafrázuje oficiální dokumentaci (ref. [20], v této sekci citována téměř 30x). Takto rozsáhlá parafráze dokumentace do technické zprávy bakalářské práce nepatří. Není jasné, jaké části fakulty byly zmapovány pro metodu image retrieval. Sekce 3.3.1 uvádí pouze obecné informace o pořizování databáze (cca 1000 fotografií), chybí přehled konkrétně pokrytých lokalit, na rozdíl od sekce 3.3.2 (mapování pro Immersal), kde jsou jednotlivé budovy popsány. Sekce 4.2 (Vyhodnocení precizní lokalizace pomocí mračen bodů) je nejasná a chaotická. Metodika v sekci 4.1 je popsána pouze v cca 8 řádcích, chybí specifikace testovacího zařízení (model telefonu, hardware), počet průchodů, doba mapování apod. Definice „úspěšné lokalizace“ v sekci 4.1 je sama o sobě protismyslná a znehodnocuje interpretaci uvedených tabulek. Sekce 4.3 (Vyhodnocení image retrieval) je ještě horší než 4.2 — neposkytuje žádný popis validační sady, způsobu pořízení testovacích dat ani referenčního ground truth.	60
Formal preparation of a technical report	Práce je psána v českém jazyce. Po typografické a jazykové stránce se v textu vyskytuje znatelné množství nedostatků: Tabulky (2.1, 4.1–4.14), kódové výpisy (Listings 1–5) a rovnice (např. 2.1) nejsou v textu nikde odkazovány; u obrázků se autor většinou omezuje na neformální obraty typu „v obrázku níže“ namísto standardní formulace „viz obr. X“. Kódové výpisy jsou označeny anglickým slovem „Listing“, zatímco zbytek práce je v češtině — nekonzistentní jazyková úprava. Obrázek 3.1 (náhled na prvky v balíčku Unity) je řešen jako printscreen vývojářského prostředí Unity, což je pro technickou zprávu nevhodné — místo informativního schématu autor předkládá nečitelný snímek IDE. Duplicitní text a překlepy. V poděkování autor explicitně přiznává, že při formulaci textu využíval generativní umělou inteligenci. Tato skutečnost není sama o sobě závadou, vysvětluje však místy nevyrovnanou stylistickou úroveň textu, kde se střídají velmi plynulé „encyklopedické“ pasáže s patrně autorskými, hůře formulovanými částmi.	60
Realisation output	Výstupem práce je mobilní AR aplikace v enginu Unity, která kombinuje hrubou lokalizaci pomocí image retrieval (MobileNetV2 v rámci Unity Sentis) a precizní lokalizaci pomocí ImmersalSDK založeného na mračnech bodů. Autor pomocí existující aplikace zmapoval značnou část areálu FIT VUT (budovy A, B, C, D, E, L, M, N, O), vytvořil 39 použitelných map z přibližně 140 skenů a databázi cca 1000 referenčních fotografií pro image retrieval. Oba přístupy k lokalizaci jsou však nepřesné a v kombinaci s množstvím autorem přiznaných nedodělků činí aplikaci v praxi téměř nepoužitelnou. Realizovaná aplikace trpí množstvím autorem otevřeně přiznaných nedostatků (sekce 4.4.3): Manuální umístění `NavMesh` v prostředí je „poměrně hrubě umístěné“ a v některých částech fakulty neumožňuje navigaci. V grafickém rozhraní chybí indikátor úspěšné lokalizace; aplikace spoléhá na výstup debug loggeru. Oprava tlačítka restart byla provedena „v poslední aktualizaci kódu před odevzdáním“ a nebyla otestována. Chybí podrobnější instrukce pro uživatele. Úspěšnost hrubé lokalizace (image retrieval) prezentovaná v sekci 4.3 vykazuje velmi nízké hodnoty: v polovině testovaných lokalit je úspěšnost detekce pod 50 % (Budova A — Učebny 47 %, Budova A — Horní patro 32 %, Budova C — Spodní patro 29 %, Budova D — podzemí 33 %, Budovy M, N, O 33 %, Budova L 40 %). Tabulky 4.4–4.14 navíc neposkytují popis validační sady ani metodiky vyhodnocení. Úspěšnost precizní lokalizace (ImmersalSDK) — metrika přesnosti je nedostatečně popsaná a objasněná, nicméně ve většině sledovaných prostor relativně dobrá (60–80 %), v některých lokalitách však problematická (Budova D — podzemí 8/103 ≈ 8 %). Plakát (Příloha B) obsahuje chybu — sekce „Image Retrieval“ a „Point Cloud lokalizace“ na plakátu obsahují identický popis „Z galerie lokálně uložených fotografií, S využitím neuronové sítě MobileNetV2, Trénované na více než 1000 fotografiích“. Pro Point Cloud lokalizaci (ImmersalSDK) je tento popis zcela chybný, jelikož metoda nepoužívá MobileNetV2 ani fotografie z galerie, ale mračna bodů. Jedná se zřejmě o chybu vzniklou kopírováním.	60
Usability of results	Vytvořené dílo je prototypem demonstrujícím proveditelnost kombinace klasické vizuální lokalizace s metodou image retrieval. Vzhledem k nízké přesnosti obou lokalizačních přístupů a množství přiznaných nedostatků je však aplikace v současné podobě prakticky nepoužitelná pro nasazení v areálu fakulty.
The extent to which the requirements of the assignment have been met	Evaluation level: assignment fulfilled with minor reservations Všechny body zadání jsou formálně adresovány, avšak s výhradami: Bod 1 (prozkoumání problematiky) je naplněn pouze povrchně — kapitola 1 sice vyjmenovává množství různých přístupů k indoor lokalizaci, ale bez hlubšího vhledu do problematiky a bez kritické analýzy. Bod 2 (technologie pro tvorbu AR aplikací) je výrazně zúžen na engine Unity. Autor neprozkoumal a v technické zprávě nediskutoval další relevantní alternativy jako jsou např. ARCore, ARKit či nativní vývoj. Volba Unity je v sekci 2.2 prezentována jako daná, nikoliv jako výsledek rozvahy mezi alternativami. Body 3 a 4 (návrh, implementace a vyhodnocení) jsou splněny pouze částečně — autor v sekci 4.4.3 explicitně přiznává řadu nedodělků a uvádí, že „není doporučeno provádět navigaci po rozsáhlejších prostorách fakulty“. Funkční prototyp tedy v praxi neumožňuje plnohodnotnou navigaci v cílovém prostředí. Bod 5 (plakát a video) — plakát je dodán, obsahuje však viditelnou chybu (viz Realizační výstup).
Extent of the technical report	Evaluation level: is within the usual extent Rozsahem se práce nachází mírně pod hranicí obvyklého rozmezí — závěr je uveden na straně 47. Značnou část technické zprávy však tvoří kódové výpisy, obrázky a parafrázovaná dokumentace SDK, čistý autorský text je tak rozsahem blíže minimálním požadavkům.
Work with literature	Autor cituje 43 zdrojů, z nichž je významná část kvalitních vědeckých publikací a survey článků relevantních pro problematiku indoor lokalizace. Mám však následující výhrady: Reference [39] a [40] jsou duplicitní — uvádí stejnou publikaci (Xiao et al., A Survey on Wireless Indoor Localization from the Device Perspective, ACM Comput. Surv., 2016). Sekce 3.2.3 se opakovaně (téměř 30x) odkazuje na jediný zdroj [20] — dokumentaci Immersal SDK — a v podstatě je pouhou parafrází tohoto zdroje (viz Prezentační úroveň). Zdroje [14] (Flyability blog) a [26] (Mathworks discovery page) jsou marketingové/edukační webové stránky komerčních subjektů, vhodnější by bylo využít primární vědecké zdroje k SLAM. U elektronických zdrojů chybí konzistentní uvádění data přístupu (uvedeno pouze u [20]).	70

Topics for thesis defence:

Popište prosím, jak funguje lokalizace na základě mračen bodů (jakým způsobem se z aktuálního snímku z kamery určí 6-DoF poloha vůči předem vytvořené mapě).
Co přesně reprezentují navigační body zobrazené na obrázku 3.9 a popsané v sekci 3.2.5? Jak byly definovány a jakým způsobem jste je v prostoru umisťoval?
V úvodu práce tvrdíte, že vizuální lokalizace netrpí kumulativní chybou (driftem), v sekci 3.3.2 (Budova E) však uvádíte, že „došlo k driftu algoritmu a následnému rozpadu geometrie mapy“. Vysvětlete prosím tento zdánlivý rozpor.

Points proposed by reviewer: 60

Grade proposed by reviewer: D

Responsibility: Mgr. et Mgr. Hana Odstrčilová

VUT

Faculties and university institutes

Parts

Navigation in large-scale facilities using augmented reality