Bachelor's Thesis

Neural networks for handwritten text recognition

Author of thesis: Martin Lukáčik

Acad. year: 2025/2026

Reviewer: doc. Ing. František Zbořil, Ph.D.

Abstract:

This bachelor thesis deals with the use of neural networks for handwritten text recognition in historical documents. The work focuses mainly on the processing of historical parish registers and archival records containing handwritten text, table structures, multilingual content, and various types of image degradation. The theoretical part describes the principles of OCR and HTR systems, individual stages of an OCR pipeline, neural network architectures used for text recognition, and evaluation metrics for OCR systems. The practical part is focused on the design and implementation of an OCR pipeline based on the PaddleOCR framework. The proposed solution includes the preparation of a custom dataset of historical documents, annotation of text regions, training and testing of detection and recognition models, and processing of table structures. The implemented pipeline was evaluated on historical documents with different image quality, handwriting variability, and document layouts. The results show that adapting the models to custom historical data improves the usability of the OCR pipeline for processing historical handwritten documents.

Keywords:

OCR, HTR, handwritten text recognition, historical documents, parish registers, machine learning, deep learning, neural networks, CNN, RNN, CRNN, CTC, PaddleOCR, batch

Date of defence

17.06.2026

Result of the defence

Defended (thesis was successfully defended)

znamkaDznamka

Grading

Process of defence

Student nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta a na další otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm D.

Topics for thesis defence

Jak jste vyhodnocoval kvalitu rozpoznávání s použitím Levenshteinovy vzdálenosti a jaké jsou číselné výsledky tohoto vyhodnocení?
Jak náročné by bylo rozšířit Vaš systém tak, aby ze sady snímků či identifikátoru matriční knihy vygeneroval strukturovaný soubor ve formátu Excel, kde jeden řádek odpovídá jednomu záznamu?
Můžete popsat která čast práce je technicky nová?

Language of thesis

Slovak

Faculty

Fakulta informačních technologií

Department

Department of Intelligent Systems

Study programme

Information Technology (BIT)

Composition of Committee

doc. Ing. Lukáš Burget, Ph.D. (předseda)
doc. RNDr. Milan Češka, Ph.D. (místopředseda)
Dr. Ing. Petr Peringer (člen)
Ing. Matěj Grégr, Ph.D. (člen)
Ing. Jakub Husa, Ph.D. (člen)

Supervisor’s report
Ing. Jaroslav Rozman, Ph.D.

Cílem práce bylo vytvořit trénovací dataset, vybrat knihovnu s neuronovou sítí schopnou rozpoznávat ručně psaný text a síť naučit. Výslednou síť pak pustit na sadě skenů z matrik. Student zadání splnil a vzhledem k vyšší náročnosti hodnotím práci stupněm B.

Evaluation criteria	Verbal classification
Informace k zadání	Tématem práce bylo vytvořit OCR práci na ručně psaný text, konkrétně na matriky narození, oddání a úmrtí. Vzhledem k obtížnosti tohoto úkolu hodnotím práci spíše jako obtížnou. S dosaženými výsledky jsem spokojen.
Práce s literaturou	Student si potřebnou literaturu aktivně obstarával sám.
Aktivita během řešení, konzultace, komunikace	Student byl během řešení práce aktivní a na konzultace pravidelně docházel.
Aktivita při dokončování	Práce byla dokončena v dostatečném předstihu.
Publikační činnost, ocenění	-

Points proposed by supervisor: 82

Grade proposed by supervisor: B

Reviewer’s report
doc. Ing. František Zbořil, Ph.D.

Kvalitně zpracovaná praktická implementace v kombinaci s průměrnou úrovní textové a vyhodnocovací části mě vede k celkovému hodnocení známkou dobře (C).

Evaluation criteria	Verbal classification	Points
Náročnost zadání	Evaluation level: průměrně obtížné zadání Zadáním bylo nalézt způsob strojového čtení záznamů v historických matrikách s použitím neuronové sítě. Měl navrhnout neuronovou síť, která toto umožní. Jelikož se předpokládalo, že dnes k dispozici již jsou modely založené na neuronových sítích, které toto umožní, považuji zadání za průměrně náročné.
Prezentační úroveň technické zprávy	Prezentační úroveň práce je průměrná. Kapitoly jsou členěny logicky – od teoretického rozboru a představení základních metod a architektur, které s tématem souvisejí, přes uvedení návrhu řešení až po jeho implementaci a testování. Obsah textu je ale nevyvážený. V teoretické části se student snaží popsat téma neuronových sítí příliš široce, což obvykle dopadá tak, že podrobně není vysvětleno téměř nic. Popis architektury LSTM je asi zbytečný, když se tato architektura v samotném řešení vůbec nevyskytovala. Místy se text uchyluje k odkazům na operace specifické pro konkrétní vývojové prostředí (např. RecSizeIMG, MultiLabel Encoding), aniž by je autor blíže představil a jejich uvedení zdůvodnil. Obrázek 3.1 („Návrh toku dat“) vůbec nespecifikuje samotná data ani jejich formáty protékající systémem; schéma pouze triviálně řadí procesní kroky za sebe. Obrázek 3.2 („Návrh databáze“) kombinuje nestandardní notace, vykazuje nestandardní směry šipek a nevhodné názvy entit (např. „1 record / line“). Schéma neodpovídá ani standardním ER diagramům, ani relačnímu návrhu. Podobných nedostatků by se v textu našlo více a právě tyto výhrady mě vedou k nižšímu hodnocení prezentační úrovně.	60
Formální úprava technické zprávy	Formální úprava je také průměrná. Text je sice psán gramaticky správně, ale nevábné obrázky a diagramy, například ty, které jsem zmiňoval v předchozím bodě, kvalitu textu snižují. Také se student mohl lépe vypořádat s částmi, které jsou psány formou odrážek.	78
Realizační výstup	Realizační výstup je funkční a odpovídá tomu, co je v práci popsáno. Lze jej použít pro automatické zpracování matričních knih a produkuje výsledky, byť s chybami, které odpovídají v práci uvedené úspěšnosti, tedy asi 50% přesné shodě.x	80
Využitelnost výsledků	Na systém se sice nelze spolehnout, že provede přesné zpracování matričních knih, výsledky jsou ale příslibem, že k automatickému přepisu těchto dokumentů může časem dojít. Přesto asi nebude možné výsledné přepisy přejímat bez kontroly člověkem.
Rozsah splnění požadavků zadání	Evaluation level: zadání splněno Student po analýze dostupných prostředků zvolil PaddleOCR a ten dotrénoval. Dále vytvořil OCR pipeline a součástí celého procesu byla detekce oblastí pro jednotlivé záznamy, tak i samotné rozpoznávání textu. V práci představuje navržený systém a diskutuje dosažené výsledky. Zde by ovšem bylo dobré předložit podrobnější hodnoty. Je zde uvedeno, že přesná znaková shoda byla kolem 50%, což není mnoho, ale podle Levenshteinovy vzdálenosti se výsledky jevily lépe. Student ale neuvedl žádné konkrétní hodnoty, což považuji za nedostatek. Také mi není jasné, jak vyhodnocoval přesnost detekce oblastí. Asi nelze stanovit přesné hranice záznamů v matrikách, pokud nebyly zapisovány tabulkově, ale i tak bylo vyhodnocení nějak provedeno. I přes uvedené metodické nedostatky v prezentaci výsledků se jedná o vytvoření komplexního a funkčního systému, a proto zadání práce považuji za splněné.
Rozsah technické zprávy	Evaluation level: je v obvyklém rozmezí
Práce s literaturou	V seznamu použitých zdrojů je uvedeno celkem 58 položek. Jedná se z poloviny o internetové zdroje, několik zdrojů jsou diplomové práce vzniklé na naší fakultě a zbytek tvoří odborné články. Zdroje jsou voleny vhodně a řádně citovány. Vlastní práce studenta je v textu zřetelně oddělena od teoretické části.	80

Topics for thesis defence:

Jak jste vyhodnocoval kvalitu rozpoznávání s použitím Levenshteinovy vzdálenosti a jaké jsou číselné výsledky tohoto vyhodnocení?
Jak náročné by bylo rozšířit Vaš systém tak, aby ze sady snímků či identifikátoru matriční knihy vygeneroval strukturovaný soubor ve formátu Excel, kde jeden řádek odpovídá jednomu záznamu?

Points proposed by reviewer: 75

Grade proposed by reviewer: C

Responsibility: Mgr. et Mgr. Hana Odstrčilová

VUT

Faculties and university institutes

Parts

Neural networks for handwritten text recognition