Přístupnostní navigace
E-application
Search Search Close
Master's Thesis
Author of thesis: Ing. Martin Kubička
Acad. year: 2025/2026
Supervisor: prof. Ing. Martin Čadík, Ph.D.
Reviewer: Ing. Tomáš Polášek
We often look at a photograph and ask: Where was it taken? In computer vision, this problem is called geolocalization, and it includes sub-tasks of estimating the camera’s position and orientation. In this work, we focus on estimating camera orientation, which determines the viewing direction using the angles pitch, yaw, and roll. We solve this task using a transformer-based approach with two inputs: a synthetic 360° panorama (a digital terrain model) and a real (query) image. The goal is to determine where the query image is located within the panorama, especially in challenging mountain environments with strong seasonal changes. Unlike existing state-of-the-art methods, our approach does not require knowledge of the field-of-view, while achieving comparable results on the GeoPose3K dataset, but worse results on the Venturi dataset. Compared to traditional approaches based on edges or semantic segmentation, the model can work even when important scene features are unclear or partially hidden. The work provides experimental insights, including a two-step refinement process, and highlights the potential of transformers for solving cross-modal tasks with limited data and high resolution, with the possibility of extending to full geolocalization.
Camera Orientation Estimation, Geolocalization, Camera Pose Estimation, Machine Learning, Neural Network, Vision Transformer, Computer Vision, Equirectangular Projection, Panorama, Digital Elevation Model, Cross-Modal, Field-of-View
Date of defence
24.06.2026
Result of the defence
Defended (thesis was successfully defended)
Grading
A
Process of defence
Student nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta a na další otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm A.
Topics for thesis defence
Language of thesis
English
Faculty
Fakulta informačních technologií
Department
Department of Computer Graphics and Multimedia
Study programme
Information Technology and Artificial Intelligence (MITAI)
Specialization
Computer Vision (NVIZ)
Composition of Committee
prof. Ing. Adam Herout, Ph.D. (předseda) prof. Ing. Martin Čadík, Ph.D. (místopředseda) doc. RNDr. Milan Češka, Ph.D. (člen) prof. Dr. Ing. Pavel Zemčík, dr. h. c. (člen) Ing. David Bařina, Ph.D. (člen) Ing. Tomáš Milet, Ph.D. (člen)
Supervisor’s reportprof. Ing. Martin Čadík, Ph.D.
Celkově považuji diplomovou práci Martina Kubičky za velmi zdařilou. Student navrhl a implementoval metodu pro odhad orientace kamery založenou na strojovém učení, zejména na architektuře Transformer a mechanismu pozornosti (attention). Navržená metoda na rozdíl od dosavadních přístupů nevyžaduje znalost zorného pole fotoaparátu, přičemž dosahuje srovnatelných výsledků. Předložená diplomová práce může tvořit základ budoucího vědeckého článku.
Zadání této diplomové práce považuji za náročnější, jedná se o aktuální výzkumné téma. Práce navazuje na aktivity výzkumné skupiny CPhoto@FIT a student na podobném tématu pracoval již v průběhu své bakalářské práce. S dosaženými výsledky jsem spokojen.
Práce byla dokončena v řádném termínu a její obsah byl průběžně konzultován s vedoucím.
Výsledky práce byly prezentovány na studentské konferenci EXCEL@FIT.
Student pracoval s literaturou dodanou vedoucím práce a samostatně si dohledával další relevantní zdroje.
Student na tématu pracoval systematicky po celou dobu řešení. Dohodnuté termíny dodržoval a na konzultační schůzky přicházel připraven.
Grade proposed by supervisor: A
Reviewer’s reportIng. Tomáš Polášek
Práce se úspěšně zabývá návrhem a implementací systému pro automatický odhad orientace kamery za využití modelu typu Vision Transformer. Text zprávy přehledně uvádí čtenáře do problému, obsahuje nadstandardně rozsáhlý rozbor předchozích děl v oboru a detailní analýzu datasetů včetně kompletace vlastního trénovacího korpusu. Návrh architektury a její implementace jsou popsány jasně a srozumitelně. Experimentální část podrobně rozebírá kvantitativní i kvalitativní výsledky, nechybí ablační studie a testování dvoustupňového zpřesňování ("refinement"). Hlavní realizační výstup je otevřeně dostupný v repozitáři na platformě GitHub. Kladně hodnotím také fakt, že se práce zúčastnila studentské konference Excel@FIT. K výsledkům mám pouze minimum drobných výhrad, a proto doporučuji hodnocení stupněm výborně (A).
Evaluation level: zadání splněno
Zadání je splněno ve všech požadovaných bodech. Student systematicky otestoval různé přístupy a dosažený výsledek je reálně využitelný pro další výzkum v této oblasti. Jako nezanedbatelné rozšíření vnímám zejména vysoce rigorózní přístup k průzkumu existujících metod, což vedlo k vytvoření mimořádně obsáhlé a kvalitní sekce o aktuálním stavu řešení (State-of-the-art).
Evaluation level: je v obvyklém rozmezí
Rozsah předložené technické zprávy je v obvyklém rozmezí. Text je psán srozumitelně a vhodným způsobem vede čtenáře k pochopení problematiky. Také efektivně využívá doprovodná schémata, grafy a vizualizace, které usnadňují orientaci v problematice.
Logickou strukturu textu hodnotím velmi pozitivně. Technická zpráva nejdříve čtenáře seznamuje s problémem odhadu orientace kamery. Následně podrobně analyzuje existující metody a datasety, na což navazuje kapitola s návrhem a popisem implementace vlastního řešení. Práce je vhodně završena detailním popisem experimentů a rozsáhlou analýzou výsledků. K celkové srozumitelnosti přispívají vhodně zvolené diagramy a konzistentní používání odborné terminologie a zkratek.
Z hlediska typografické a jazykové kvality je práce na velmi dobré úrovni. Obsahuje pouze menší množství drobných nedostatků. Použitý anglický jazyk je srozumitelný a text je dobře čitelný. Gramatické chyby jsou spíše občasné – jde např. o vazby na str. 5 („comparable results than“ namísto „to“) či shodu podmětu s přísudkem na str. 10 („methods presented... which is“ namísto „are“). Typograficky je text čistý, nicméně některé rastrové grafy a diagramy by bylo vhodnější nahradit vektorovými pro zachování ostrosti při zvětšení. Tabulka 7.6 (ablační experimenty) je sice informačně bohatá, ale obsahuje velké množství architektonických detailů, které by bylo pro lepší čitelnost textu vhodnější přesunout do přílohy.
Práce je podpořena značným množstvím kvalitní a aktuální literatury. Kromě základních vědeckých prací student cituje State-of-the-art přístupy a používané datasety. Převzaté prvky a myšlenky jsou v textu jasně a korektně odlišeny od vlastního přínosu autora, citační etika je plně dodržena. Bibliografické informace jsou kompletní. Drobnou výhradu mám k opakovaným odkazům na knihovnu py360convert formou poznámek pod čarou (např. str. 12, 39, 62); tento nástroj mohl být zaveden do bibliografie a v textu pouze citován.
py360convert
Hlavním realizačním výstupem práce je architektura neuronové sítě a doprovodné skripty pro trénování a zpracování dat implementované v jazyce Python. Zdrojový kód je sice komentován spíše sporadicky, avšak díky dobré struktuře zůstává srozumitelný. Součástí repozitáře je soubor s popisem (README), s jehož pomocí lze plnou funkčnost kódů snadno ověřit. Všechny převzaté softwarové komponenty a knihovny byly použity v souladu s licenčními podmínkami a autorským právem. Celkově realizační výstup vykazuje velmi dobré výsledky a tvoří robustní základ, na kterém lze dále stavět.
Jedná se o hodnotnou inženýrskou a výzkumnou práci, která jasně demonstruje potenciál modelů typu Vision Transformer pro náročné cross-modální úlohy. Dosažené výsledky jsou přímo využitelné jak v koncových aplikacích, tak jako baseline pro navazující vědecké práce. Vysoce oceňuji také rigorózní zpracování přehledu SOTA metod a analýzu dostupných datasetů.
Evaluation level: obtížnější zadání
Zadání považuji za nadprůměrně náročné. Jedná se o otevřené výzkumné téma v oblasti počítačového vidění, u kterého není předem dán jasný či garantovaný postup, jak dojít k optimálnímu výsledku. Cross-modální charakter úlohy (párování reálných fotografií se syntetickým modelem terénu) spolu s absencí informace o zorném poli (FOV) výrazně zvyšuje komplexnost návrhu i nároky na experimentální činnost.
Grade proposed by reviewer: A
Responsibility: Mgr. et Mgr. Hana Odstrčilová