Master's Thesis

Extraction of photographs of individuals from historical newspapers

Author of thesis: Ing. Simona Jánošíková

Acad. year: 2025/2026

Abstract:

The thesis focuses on the localization of photographs of people in digitized historical newspapers based on person-name queries. The aim is to evaluate whether this task can be addressed using the large multimodal model Molmo, which generates not only a textual answer but also point coordinates in the image. An evaluation protocol was designed on data derived from annotations, using prompts for name-based person localization, presence verification, and marking all photographs of people on a page. The original Molmo model was evaluated, and LoRA adapters were subsequently fine-tuned. The original model achieved high accuracy in the general task of pointing to a photograph of a person, but failed on negative name-based queries. The best fine-tuned adapter, A12, achieved an overall score of S_all = 79.39 % and an F1 score of 91.19 % when marking all photographs of people. The results show that LoRA adaptation partially improves the model's behavior on negative queries, however, localizing people in historical newspapers remains a challenging and data-sensitive task.

Keywords:

multimodal language models, visual grounding, localized answer, historical document analysis, digitized historical newspapers, person photograph localization, person identification by name, object detection, Molmo, LoRA

Date of defence

23.06.2026

Result of the defence

Defended (thesis was successfully defended)

znamkaBznamka

Grading

Process of defence

Studentka nejprve prezentovala výsledky, kterých dosáhla v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Studentka následně odpověděla na otázky oponenta a na další otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studentky na položené otázky rozhodla práci hodnotit stupněm B.

Topics for thesis defence

Chyby počítáte v pixelech (tab. 6.2). Tentýž obrázek v různém rozlišení tak může obdržet stejně přesnou odezvu modelu, ale přitom mít vyhodnocenou výrazně jinou chybu. Nebylo by na místě reportované chyby vhodným způsobem normalizovat, aby nebyly závislé na rozlišení? Jak?
Mohlo by být, že i drobnou úpravou použitých promptů (kap. 4.2) by model poskytoval přesnější výsledky? Zkoušela jste prompty optimalizovat a/nebo vyhodnocovat citlivost modelu na znění promptů?
Jaká metrika počítá překrytí?
Co je pojmenovaná entita?

Language of thesis

Slovak

Faculty

Fakulta informačních technologií

Department

Department of Computer Graphics and Multimedia

Study programme

Information Technology and Artificial Intelligence (MITAI)

Specialization

Machine Learning (NMAL)

Composition of Committee

doc. Ing. Vítězslav Beran, Ph.D. (předseda)
prof. Ing. Hynek Heřmanský, Dr. Eng. (místopředseda)
doc. Ing. Ondřej Lengál, Ph.D. (člen)
doc. Ing. František Zbořil, Ph.D. (člen)
doc. Ing. Michal Bidlo, Ph.D. (člen)
RNDr. Marek Rychlý, Ph.D. (člen)

Supervisor’s report
Ing. Marek Vaško

Autorka v práci úspešne demonštrovala adaptáciu univerzálneho pointing modelu na úlohu vyhľadávania fotografií osôb v historických fotografiách. Súčasťou riešenia boli návrh vhodného evaluačného protokolu a realizácia série ablačných experimentov, ktoré analyzovali správanie pri použití predtrénovaného modelu (zero-shot) aj pri rôznych konfiguráciách dotrénovania na cieľovú úlohu.

Na základe miery splnenia zadania, kvality dosiahnutých výsledkov a práce odvedenej počas semestra navrhujem hodnotenie B.

Evaluation criteria	Verbal classification
Informace k zadání	Zadanie je zamerané na spracovanie dokumentov na vyhľadávanie historických osobností v dokumentoch s jasným cieľom dotrénovať veľké multimodálne jazykové modely. Z pohľadu náročnosti ide o zložitejšie zadanie vyžadujúce pokročilé znalosti počítačového videnia, spracovania prirodzeného jazyka a strojového učenia. Práca priamo pracuje s výsledkami NAKI projektu "ORBIS PICTUS". Prezentované výsledky práce poskytujú istý vhľad do toho, čo očakávať od automatického spracovania a dotrénovania veľkých multimodálnych modelov na túto úlohu. Výsledky ovplyvnia výber technológií využívaných v rámci tohto projektu. Z tohto pohľadu som ako vedúci spokojný s výsledkami a zadanie je z môjho pohľadu splnené. Mierny odklon od zadania je plne oprávnený, keďže pomenované entity sa dajú považovať za vstup z externého systému a vo využívaných dátach sú prítomné.
Aktivita při dokončování	Výsledky prezentované v práci boli podľa plánu, niektoré ablácie však boli časovo náročnejšie, než bolo predpokladané. To viedlo k miernemu sklzu pri dokončovaní. Práca bola dokončená pred odovzdaním; jej definitívny obsah bol dostatočne konzultovaný.
Publikační činnost, ocenění	Nie je známe.
Práce s literaturou	Základnú referenciu k využívanému modelu som poskytol ako vedúci. Autorka si dohľadala podobnú relevantnú literatúru o iných multimodálnych modeloch a alternatívnych prístupoch k spracovaniu dokumentov na extrakciu informácií. Zároveň si autorka samostatne zhromaždila informácie o možnostiach efektívneho tréningu týchto modelov.
Aktivita během řešení, konzultace, komunikace	Autorka chodila na pravidelné konzultácie. Mierna výhrada je menšia neaktivita začiatkom letného semestra, avšak v ďalších častiach semestra boli konzultácie a inkrementálne výsledky vždy na týždennej báze.

Points proposed by supervisor: 85

Grade proposed by supervisor: B

Reviewer’s report
prof. Ing. Adam Herout, Ph.D.

Řešitelka realizovala zajímavou výzkumnou práci s nejmodernějšími technologiemi strojového učení / umělé inteligence a sepsala solidní technickou zprávu. Posuzovatel by ocenil více dílčích experimentů, které by mohly přinést více vhledu (při pouze mírném navýšení pracnosti).

Evaluation criteria	Verbal classification	Points
Rozsah splnění požadavků zadání	Evaluation level: zadání splněno
Rozsah technické zprávy	Evaluation level: je v obvyklém rozmezí
Prezentační úroveň technické zprávy	Technická zpráva je sepsána velice dobře, je vhodně členěná a obsahuje relevantní informace. Matematické formalismy jsou použity nejvíce v kapitole 4.3, kde ale sdělují poměrně banální informace – mohlo by být na místě matematické formalizmy použít pro závažnější sdělení. Formulace provedených experimentů naznačuje, že byla provedena jedna vlna experimentů. Mohlo být vhodnější realizovat více dílčích experimentů, z nich čerpat poučení a na jejich základě formulovat další experimenty. Některé z výsledků mohlo být vhodnější vizualizovat prostřednictvím grafů.	89
Formální úprava technické zprávy	Po formální stránce je technická zpráva zpracována velice pečlivě a neobsahuje žádné problémy, které by rušily v čtení nebo pochopení. Pro vizualizaci výsledků by bylo vhodné využít grafy, pro vizualizaci návrhu řešení by mohla být vhodná schémata.	85
Práce s literaturou	Technická zpráva cituje relevantní prameny a staví na nejnovějších vědeckých poznatcích.	90
Realizační výstup	Řešitelka vytvořila kód v jazyce Python pro realizaci experimentů a ten vhodně organizovala v repozitáři GIT. Provedené experimenty jsou popisovány, jako by byly jednou naplánovány a pak provedeny. Posuzovatele by zajímaly experimenty s modifikacemi jednotlivých promptů a další dílčí experimenty. Vytvořený kód a způsob evaluace jsou vhodně popsané v technické zprávě.	85
Využitelnost výsledků	Provedené experimenty přinášejí vědecké poznání a možná by mohly být publikovány.
Náročnost zadání	Evaluation level: obtížnější zadání Práce byla výzkumného charakteru. Řešitelka musela pochopit moderní technologie, které jsou velmi výpočetně náročné, a realizovala výzkumnou úlohu nad vhodnou datovou sadou.

Topics for thesis defence:

Chyby počítáte v pixelech (tab. 6.2). Tentýž obrázek v různém rozlišení tak může obdržet stejně přesnou odezvu modelu, ale přitom mít vyhodnocenou výrazně jinou chybu. Nebylo by na místě reportované chyby vhodným způsobem normalizovat, aby nebyly závislé na rozlišení? Jak?
Mohlo by být, že i drobnou úpravou použitých promptů (kap. 4.2) by model poskytoval přesnější výsledky? Zkoušela jste prompty optimalizovat a/nebo vyhodnocovat citlivost modelu na znění promptů?

Points proposed by reviewer: 85

Grade proposed by reviewer: B

Responsibility: Mgr. et Mgr. Hana Odstrčilová

VUT

Faculties and university institutes

Parts

Extraction of photographs of individuals from historical newspapers