Přístupnostní navigace
E-application
Search Search Close
Master's Thesis
Author of thesis: Ing. Simona Jánošíková
Acad. year: 2025/2026
Supervisor: Ing. Marek Vaško
Reviewer: prof. Ing. Adam Herout, Ph.D.
The thesis focuses on the localization of photographs of people in digitized historical newspapers based on person-name queries. The aim is to evaluate whether this task can be addressed using the large multimodal model Molmo, which generates not only a textual answer but also point coordinates in the image. An evaluation protocol was designed on data derived from annotations, using prompts for name-based person localization, presence verification, and marking all photographs of people on a page. The original Molmo model was evaluated, and LoRA adapters were subsequently fine-tuned. The original model achieved high accuracy in the general task of pointing to a photograph of a person, but failed on negative name-based queries. The best fine-tuned adapter, A12, achieved an overall score of S_all = 79.39 % and an F1 score of 91.19 % when marking all photographs of people. The results show that LoRA adaptation partially improves the model's behavior on negative queries, however, localizing people in historical newspapers remains a challenging and data-sensitive task.
multimodal language models, visual grounding, localized answer, historical document analysis, digitized historical newspapers, person photograph localization, person identification by name, object detection, Molmo, LoRA
Date of defence
23.06.2026
Result of the defence
Defended (thesis was successfully defended)
Grading
B
Process of defence
Studentka nejprve prezentovala výsledky, kterých dosáhla v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Studentka následně odpověděla na otázky oponenta a na další otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studentky na položené otázky rozhodla práci hodnotit stupněm B.
Topics for thesis defence
Language of thesis
Slovak
Faculty
Fakulta informačních technologií
Department
Department of Computer Graphics and Multimedia
Study programme
Information Technology and Artificial Intelligence (MITAI)
Specialization
Machine Learning (NMAL)
Composition of Committee
doc. Ing. Vítězslav Beran, Ph.D. (předseda) prof. Ing. Hynek Heřmanský, Dr. Eng. (místopředseda) doc. Ing. Ondřej Lengál, Ph.D. (člen) doc. Ing. František Zbořil, Ph.D. (člen) doc. Ing. Michal Bidlo, Ph.D. (člen) RNDr. Marek Rychlý, Ph.D. (člen)
Supervisor’s reportIng. Marek Vaško
Autorka v práci úspešne demonštrovala adaptáciu univerzálneho pointing modelu na úlohu vyhľadávania fotografií osôb v historických fotografiách. Súčasťou riešenia boli návrh vhodného evaluačného protokolu a realizácia série ablačných experimentov, ktoré analyzovali správanie pri použití predtrénovaného modelu (zero-shot) aj pri rôznych konfiguráciách dotrénovania na cieľovú úlohu.
Na základe miery splnenia zadania, kvality dosiahnutých výsledkov a práce odvedenej počas semestra navrhujem hodnotenie B.
Zadanie je zamerané na spracovanie dokumentov na vyhľadávanie historických osobností v dokumentoch s jasným cieľom dotrénovať veľké multimodálne jazykové modely. Z pohľadu náročnosti ide o zložitejšie zadanie vyžadujúce pokročilé znalosti počítačového videnia, spracovania prirodzeného jazyka a strojového učenia.
Práca priamo pracuje s výsledkami NAKI projektu "ORBIS PICTUS". Prezentované výsledky práce poskytujú istý vhľad do toho, čo očakávať od automatického spracovania a dotrénovania veľkých multimodálnych modelov na túto úlohu. Výsledky ovplyvnia výber technológií využívaných v rámci tohto projektu.
Z tohto pohľadu som ako vedúci spokojný s výsledkami a zadanie je z môjho pohľadu splnené.
Mierny odklon od zadania je plne oprávnený, keďže pomenované entity sa dajú považovať za vstup z externého systému a vo využívaných dátach sú prítomné.
Výsledky prezentované v práci boli podľa plánu, niektoré ablácie však boli časovo náročnejšie, než bolo predpokladané. To viedlo k miernemu sklzu pri dokončovaní.
Práca bola dokončená pred odovzdaním; jej definitívny obsah bol dostatočne konzultovaný.
Nie je známe.
Základnú referenciu k využívanému modelu som poskytol ako vedúci.
Autorka si dohľadala podobnú relevantnú literatúru o iných multimodálnych modeloch a alternatívnych prístupoch k spracovaniu dokumentov na extrakciu informácií.
Zároveň si autorka samostatne zhromaždila informácie o možnostiach efektívneho tréningu týchto modelov.
Autorka chodila na pravidelné konzultácie. Mierna výhrada je menšia neaktivita začiatkom letného semestra, avšak v ďalších častiach semestra boli konzultácie a inkrementálne výsledky vždy na týždennej báze.
Grade proposed by supervisor: B
Reviewer’s reportprof. Ing. Adam Herout, Ph.D.
Řešitelka realizovala zajímavou výzkumnou práci s nejmodernějšími technologiemi strojového učení / umělé inteligence a sepsala solidní technickou zprávu. Posuzovatel by ocenil více dílčích experimentů, které by mohly přinést více vhledu (při pouze mírném navýšení pracnosti).
Evaluation level: zadání splněno
Evaluation level: je v obvyklém rozmezí
Technická zpráva je sepsána velice dobře, je vhodně členěná a obsahuje relevantní informace. Matematické formalismy jsou použity nejvíce v kapitole 4.3, kde ale sdělují poměrně banální informace – mohlo by být na místě matematické formalizmy použít pro závažnější sdělení. Formulace provedených experimentů naznačuje, že byla provedena jedna vlna experimentů. Mohlo být vhodnější realizovat více dílčích experimentů, z nich čerpat poučení a na jejich základě formulovat další experimenty. Některé z výsledků mohlo být vhodnější vizualizovat prostřednictvím grafů.
Po formální stránce je technická zpráva zpracována velice pečlivě a neobsahuje žádné problémy, které by rušily v čtení nebo pochopení. Pro vizualizaci výsledků by bylo vhodné využít grafy, pro vizualizaci návrhu řešení by mohla být vhodná schémata.
Technická zpráva cituje relevantní prameny a staví na nejnovějších vědeckých poznatcích.
Řešitelka vytvořila kód v jazyce Python pro realizaci experimentů a ten vhodně organizovala v repozitáři GIT. Provedené experimenty jsou popisovány, jako by byly jednou naplánovány a pak provedeny. Posuzovatele by zajímaly experimenty s modifikacemi jednotlivých promptů a další dílčí experimenty. Vytvořený kód a způsob evaluace jsou vhodně popsané v technické zprávě.
Provedené experimenty přinášejí vědecké poznání a možná by mohly být publikovány.
Evaluation level: obtížnější zadání
Práce byla výzkumného charakteru. Řešitelka musela pochopit moderní technologie, které jsou velmi výpočetně náročné, a realizovala výzkumnou úlohu nad vhodnou datovou sadou.
Grade proposed by reviewer: B
Responsibility: Mgr. et Mgr. Hana Odstrčilová