Přístupnostní navigace
E-application
Search Search Close
Bachelor's Thesis
Author of thesis: Volodymyr Burylov
Acad. year: 2025/2026
Supervisor: Ing. Martin Kostelník
Reviewer: Ing. Michal Hradiš, Ph.D.
The aim of this bachelor's thesis is the design, implementation, and evaluation of methods for the automatic extraction of structured data from historical forms. The work focuses on the implementation and objective comparison of three different extraction approaches. The dataset contains 522 historical forms with OCR transcriptions in PAGE and ALTO formats obtained by the PERO-OCR system and manually created annotations in Label Studio. The implementation section describes three extraction approaches: a fixed-region method, the LiLT model combining text with spatial layout, and the multimodal LayoutXLM model integrating text, spatial information, and visual features. The goal of each method is accurate named entity classification, such as names, dates of birth, or burial places. The neural models were fine-tuned on the input data prior to extraction. The fixed-region method does not require training. The experimental results show that both neural models significantly outperform the heuristic method, with the LiLT model achieving the best overall performance.
Information extraction, named entity recognition (NER), neural networks, Transformer, LayoutXLM, LiLT, multimodal models, historical documents, PERO-OCR
Date of defence
15.06.2026
Result of the defence
Defended (thesis was successfully defended)
Grading
C
Process of defence
Student nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm C.
Topics for thesis defence
Language of thesis
Czech
Faculty
Fakulta informačních technologií
Department
Department of Computer Graphics and Multimedia
Study programme
Information Technology (BIT)
Composition of Committee
prof. Ing. Adam Herout, Ph.D. (předseda) doc. Mgr. Adam Rogalewicz, Ph.D. (místopředseda) Ing. Vladimír Bartík, Ph.D. (člen) Ing. Michal Hradiš, Ph.D. (člen) Ing. Josef Strnadel, Ph.D. (člen)
Supervisor’s reportIng. Martin Kostelník
Student během řešení pracoval velmi samostatně a v komunikaci s vedoucím nebyl příliš aktivní. Domluvené úkoly ale plnil a povedlo se mu provést řadu experimentů, ze kterých vyvodil závěry.
Celkově navrhuji hodnocení stupněm C.
Práce se zabývá extrakcí informací z formulářů s využitím neuronových sítí, což přesahuje znalosti získané během bakalářského studia. Student si musel nastudovat principy neuronových sítí a moderních architektur pro zpracování textu, geometrie i obrazu.
Studentovi byl poskytnut dataset českých formulářů. Pro experimenty vybral dvě architektury, které následně dotrénoval a vyhodnotil na připravených datech. Dosažené výsledky porovnal se základním geometrickým přístupem.
Zadání považuji za splněné.
Student pracoval s literaturou na doporučení vedoucího a nezávisle si vyhledával vlastní zdroje.
Student pracoval během celého roku velmi samostatně. Po úvodní konzultaci jsme se setkali až v prosinci. V letním semestru byla aktivita větší, zejména pak ke konci školního roku. Na konzultace student byl připraven.
Text práce mně byl ukázán celý na konci dubna. Student poznámky zapracoval a finální obsah byl konzultován.
Grade proposed by supervisor: C
Reviewer’s reportIng. Michal Hradiš, Ph.D.
Student otestoval dvě pokročilé metody na specifické datové sadě a práce poskytuje zajímavé informace. Chybí ale přehled stavu poznání, text má logické nedostatky, výsledky nejsou statisticky vyhodnoceny, chybí video a mám pochybnosti o využití některých zdrojů.
Evaluation level: obtížnější zadání
Práce vyžaduje dotrénování větších multi-modálních modelů.
Text je sice pochopitelný včetně použitých metod, experimentů a výsledků. Mohl ale přeci jen být lépe uspořádaný a témata prezentovat přesněji. Mohl lépe odděleně prezentovat jednotlivé myšlenky, vlastní řešení od již existujícího a technických detailů. U vysvětlování použitých metod mohl být přesnější a jít více do hloubky.
Konkrétní připomínky:
Práce je vysázena dobře bez nedostatků kromě některých příliš krátkých kapitolek. Jazyková stránka je dobrá, jen je text někdy trochu kostrbatější.
Vytvořené skripty pro trénování modelů i zpracování dokumentů jsou funkční a rozumně dokumentované. Žádné skripty ale neumožňují externí konfiguraci, ať už parametry příkazové řádky, nebo konfiguračním souborem – všechny parametry jsou přímo v kódu jako konstanty. Ve shodě s tím skripty neposkytují nápovědu s parametry -h nebo --help.
Vyhodnocení je vhodné, ale vzhledem k malé testovací sadě výrazně chybí statistické vyhodnocení výsledků – konfidenční intervaly a testy u tvrzení o superioritě.
Slabinou experimentů je nevyhodnocení přetrénování, případně chybějící systematické vyhodnocení vlivu regularizace a délky trénování.
Práce přináší nové výsledky existujících metod na specifické datové sadě.
Evaluation level: zadání splněno s drobnými výhradami
Evaluation level: je v obvyklém rozmezí
Text se odkazuje na 25 kvalitních a relevantních zdrojů. Chybí mi ale širší přehled stavu poznání v této oblasti a také existujících datových sad.
U využití některých zdrojů mám pochyby o jejich správnosti:
Grade proposed by reviewer: C
Responsibility: Mgr. et Mgr. Hana Odstrčilová