Bachelor's Thesis

Information extraction from form-like documents based on deep neural networks

Final Thesis 4.77 MB

Author of thesis: Volodymyr Burylov

Acad. year: 2025/2026

Supervisor: Ing. Martin Kostelník

Reviewer: Ing. Michal Hradiš, Ph.D.

Abstract:

The aim of this bachelor's thesis is the design, implementation, and evaluation of methods for the automatic extraction of structured data from historical forms. The work focuses on the implementation and objective comparison of three different extraction approaches. The dataset contains 522 historical forms with OCR transcriptions in PAGE and ALTO formats obtained by the PERO-OCR system and manually created annotations in Label Studio. The implementation section describes three extraction approaches: a fixed-region method, the LiLT model combining text with spatial layout, and the multimodal LayoutXLM model integrating text, spatial information, and visual features. The goal of each method is accurate named entity classification, such as names, dates of birth, or burial places. The neural models were fine-tuned on the input data prior to extraction. The fixed-region method does not require training. The experimental results show that both neural models significantly outperform the heuristic method, with the LiLT model achieving the best overall performance.

Keywords:

Information extraction, named entity recognition (NER), neural networks, Transformer, LayoutXLM, LiLT, multimodal models, historical documents, PERO-OCR

Date of defence

15.06.2026

Result of the defence

Defended (thesis was successfully defended)

znamkaCznamka

Grading

C

Process of defence

Student nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm C.

Topics for thesis defence

  1. Jaké jsou nejistoty naměřených výsledků? Které výsledky jsou statisticky průkazné?
  2. Jakým způsobem jste psal "teoretickou" část práce? Četl jste zdroje 18 a 10?

Language of thesis

Czech

Faculty

Department

Study programme

Information Technology (BIT)

Composition of Committee

prof. Ing. Adam Herout, Ph.D. (předseda)
doc. Mgr. Adam Rogalewicz, Ph.D. (místopředseda)
Ing. Vladimír Bartík, Ph.D. (člen)
Ing. Michal Hradiš, Ph.D. (člen)
Ing. Josef Strnadel, Ph.D. (člen)

Supervisor’s report
Ing. Martin Kostelník

Student během řešení pracoval velmi samostatně a v komunikaci s vedoucím nebyl příliš aktivní. Domluvené úkoly ale plnil a povedlo se mu provést řadu experimentů, ze kterých vyvodil závěry.


Celkově navrhuji hodnocení stupněm C.

Evaluation criteria Verbal classification
Informace k zadání

Práce se zabývá extrakcí informací z formulářů s využitím neuronových sítí, což přesahuje znalosti získané během bakalářského studia. Student si musel nastudovat principy neuronových sítí a moderních architektur pro zpracování textu, geometrie i obrazu.

Studentovi byl poskytnut dataset českých formulářů. Pro experimenty vybral dvě architektury, které následně dotrénoval a vyhodnotil na připravených datech. Dosažené výsledky porovnal se základním geometrickým přístupem.

Zadání považuji za splněné.

Práce s literaturou

Student pracoval s literaturou na doporučení vedoucího a nezávisle si vyhledával vlastní zdroje.

Aktivita během řešení, konzultace, komunikace

Student pracoval během celého roku velmi samostatně. Po úvodní konzultaci jsme se setkali až v prosinci. V letním semestru byla aktivita větší, zejména pak ke konci školního roku. Na konzultace student byl připraven.

Aktivita při dokončování

Text práce mně byl ukázán celý na konci dubna. Student poznámky zapracoval a finální obsah byl konzultován.

Publikační činnost, ocenění
Points proposed by supervisor: 70

Grade proposed by supervisor: C

Reviewer’s report
Ing. Michal Hradiš, Ph.D.

Student otestoval dvě pokročilé metody na specifické datové sadě a práce poskytuje zajímavé informace. Chybí ale přehled stavu poznání, text má logické nedostatky, výsledky nejsou statisticky vyhodnoceny, chybí video a mám pochybnosti o využití některých zdrojů.

Evaluation criteria Verbal classification Points
Náročnost zadání

Evaluation level: obtížnější zadání

Práce vyžaduje dotrénování větších multi-modálních modelů.

Prezentační úroveň technické zprávy

Text je sice pochopitelný včetně použitých metod, experimentů a výsledků. Mohl ale přeci jen být lépe uspořádaný a témata prezentovat přesněji. Mohl lépe odděleně prezentovat jednotlivé myšlenky, vlastní řešení od již existujícího a technických detailů. U  vysvětlování použitých metod mohl být přesnější a jít více do hloubky.

Konkrétní připomínky:

  • Text naznačuje, že řeší NER, což je ale jiná úloha.
  • Práce zbytečně prezentuje základy jako neuron, loss funkce, attention, embedding. Na druhou stranu pokročilé modely vysvětluje spíše povrchně.
  • Chybí přehled současného stavu v dané oblasti.
  • 2.3.2 BIO - představuje skok v logice textu.
  • 2.6 metriky - Chybí zdroje a jejich konkrétní použití mohlo být vysvětleno jasněji. 
  • Popis problému s rotovanými obdélníky a souřadnicemi je zbytečný technický detail.
  • 3.4.1 a klouzavé okno obecně - Jaká je relevance, když to nebylo v práci nikde použité?
  • 3.4.2 Dynamický Padding - základní technika, kterou možná není potřeba zmiňovat.
  • Když text vysvětluje, že na předtištěných textech se nevyhodnocuje, není ještě jasné, že se tyto texty explicitně filtrují.
  • Chybí mi vizualizace pozic textů v trénovací sadě.
  • 4.3.2 Problémy s frameworkem Detectron2 - technické detaily by měly být oddělené.
70
Formální úprava technické zprávy

Práce je vysázena dobře bez nedostatků kromě některých příliš krátkých kapitolek. Jazyková stránka je dobrá, jen je text někdy trochu kostrbatější.

79
Realizační výstup

Vytvořené skripty pro trénování modelů i zpracování dokumentů jsou funkční a rozumně dokumentované. Žádné skripty ale neumožňují externí konfiguraci, ať už parametry příkazové řádky, nebo konfiguračním souborem – všechny parametry jsou přímo v kódu jako konstanty. Ve shodě s tím skripty neposkytují nápovědu s parametry -h nebo --help.

Vyhodnocení je vhodné, ale vzhledem k malé testovací sadě výrazně chybí statistické vyhodnocení výsledků – konfidenční intervaly a testy u tvrzení o superioritě.

Slabinou experimentů je nevyhodnocení přetrénování, případně chybějící systematické vyhodnocení vlivu regularizace a délky trénování.

70
Využitelnost výsledků

Práce přináší nové výsledky existujících metod na specifické datové sadě.

Rozsah splnění požadavků zadání

Evaluation level: zadání splněno s drobnými výhradami

  • Přehled existujících metod se omezuje jen na metody použité studentem. Chybí přehled současného stavu v dané oblasti.
  • Chybí rešerše existujících datových sad.
  • Chybí video, případně leták.

Rozsah technické zprávy

Evaluation level: je v obvyklém rozmezí

Práce s literaturou

Text se odkazuje na 25 kvalitních a relevantních zdrojů. Chybí mi ale širší přehled stavu poznání v této oblasti a také existujících datových sad. 

U využití některých zdrojů mám pochyby o jejich správnosti:

  • Práce se odkazuje na [10], že mezi extrakci informací patří NER, extrakce vztahů a key information extraction. Ale v [10] kapitole 2O. Information Extraction jsou: relation extraction, knowledge graphs, event extraction a template filling. Key Information Extraction vůbec v kapitole 2O není. 
  • Práce se odkazuje na survey [18], že v NLP existují základní přístupy: rule based, tradiční strojové učení, Deep learning. Zdroj je z roku 2007 a o hlubokém učení a možná ani o neuronových sítích se nezmiňuje.
67
Topics for thesis defence:
  1. Jaké jsou nejistoty naměřených výsledků? Které výsledky jsou statisticky průkazné?
  2. Jakým způsobem jste psal "teoretickou" část práce? Četl jste zdroje 18 a 10?
Points proposed by reviewer: 70

Grade proposed by reviewer: C

Responsibility: Mgr. et Mgr. Hana Odstrčilová