Přístupnostní navigace
E-application
Search Search Close
Bachelor's Thesis
Author of thesis: Martin Lukáčik
Acad. year: 2025/2026
Supervisor: Ing. Jaroslav Rozman, Ph.D.
Reviewer: doc. Ing. František Zbořil, Ph.D.
This bachelor thesis deals with the use of neural networks for handwritten text recognition in historical documents. The work focuses mainly on the processing of historical parish registers and archival records containing handwritten text, table structures, multilingual content, and various types of image degradation. The theoretical part describes the principles of OCR and HTR systems, individual stages of an OCR pipeline, neural network architectures used for text recognition, and evaluation metrics for OCR systems. The practical part is focused on the design and implementation of an OCR pipeline based on the PaddleOCR framework. The proposed solution includes the preparation of a custom dataset of historical documents, annotation of text regions, training and testing of detection and recognition models, and processing of table structures. The implemented pipeline was evaluated on historical documents with different image quality, handwriting variability, and document layouts. The results show that adapting the models to custom historical data improves the usability of the OCR pipeline for processing historical handwritten documents.
OCR, HTR, handwritten text recognition, historical documents, parish registers, machine learning, deep learning, neural networks, CNN, RNN, CRNN, CTC, PaddleOCR, batch
Date of defence
17.06.2026
Result of the defence
Defended (thesis was successfully defended)
Grading
D
Process of defence
Student nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta a na další otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm D.
Topics for thesis defence
Language of thesis
Slovak
Faculty
Fakulta informačních technologií
Department
Department of Intelligent Systems
Study programme
Information Technology (BIT)
Composition of Committee
doc. Ing. Lukáš Burget, Ph.D. (předseda) doc. RNDr. Milan Češka, Ph.D. (místopředseda) Dr. Ing. Petr Peringer (člen) Ing. Matěj Grégr, Ph.D. (člen) Ing. Jakub Husa, Ph.D. (člen)
Supervisor’s reportIng. Jaroslav Rozman, Ph.D.
Cílem práce bylo vytvořit trénovací dataset, vybrat knihovnu s neuronovou sítí schopnou rozpoznávat ručně psaný text a síť naučit. Výslednou síť pak pustit na sadě skenů z matrik. Student zadání splnil a vzhledem k vyšší náročnosti hodnotím práci stupněm B.
Tématem práce bylo vytvořit OCR práci na ručně psaný text, konkrétně na matriky narození, oddání a úmrtí. Vzhledem k obtížnosti tohoto úkolu hodnotím práci spíše jako obtížnou. S dosaženými výsledky jsem spokojen.
Student si potřebnou literaturu aktivně obstarával sám.
Student byl během řešení práce aktivní a na konzultace pravidelně docházel.
Práce byla dokončena v dostatečném předstihu.
-
Grade proposed by supervisor: B
Reviewer’s reportdoc. Ing. František Zbořil, Ph.D.
Kvalitně zpracovaná praktická implementace v kombinaci s průměrnou úrovní textové a vyhodnocovací části mě vede k celkovému hodnocení známkou dobře (C).
Evaluation level: průměrně obtížné zadání
Zadáním bylo nalézt způsob strojového čtení záznamů v historických matrikách s použitím neuronové sítě. Měl navrhnout neuronovou síť, která toto umožní. Jelikož se předpokládalo, že dnes k dispozici již jsou modely založené na neuronových sítích, které toto umožní, považuji zadání za průměrně náročné.
Prezentační úroveň práce je průměrná. Kapitoly jsou členěny logicky – od teoretického rozboru a představení základních metod a architektur, které s tématem souvisejí, přes uvedení návrhu řešení až po jeho implementaci a testování. Obsah textu je ale nevyvážený. V teoretické části se student snaží popsat téma neuronových sítí příliš široce, což obvykle dopadá tak, že podrobně není vysvětleno téměř nic. Popis architektury LSTM je asi zbytečný, když se tato architektura v samotném řešení vůbec nevyskytovala. Místy se text uchyluje k odkazům na operace specifické pro konkrétní vývojové prostředí (např. RecSizeIMG, MultiLabel Encoding), aniž by je autor blíže představil a jejich uvedení zdůvodnil. Obrázek 3.1 („Návrh toku dat“) vůbec nespecifikuje samotná data ani jejich formáty protékající systémem; schéma pouze triviálně řadí procesní kroky za sebe. Obrázek 3.2 („Návrh databáze“) kombinuje nestandardní notace, vykazuje nestandardní směry šipek a nevhodné názvy entit (např. „1 record / line“). Schéma neodpovídá ani standardním ER diagramům, ani relačnímu návrhu. Podobných nedostatků by se v textu našlo více a právě tyto výhrady mě vedou k nižšímu hodnocení prezentační úrovně.
Formální úprava je také průměrná. Text je sice psán gramaticky správně, ale nevábné obrázky a diagramy, například ty, které jsem zmiňoval v předchozím bodě, kvalitu textu snižují. Také se student mohl lépe vypořádat s částmi, které jsou psány formou odrážek.
Realizační výstup je funkční a odpovídá tomu, co je v práci popsáno. Lze jej použít pro automatické zpracování matričních knih a produkuje výsledky, byť s chybami, které odpovídají v práci uvedené úspěšnosti, tedy asi 50% přesné shodě.x
Na systém se sice nelze spolehnout, že provede přesné zpracování matričních knih, výsledky jsou ale příslibem, že k automatickému přepisu těchto dokumentů může časem dojít. Přesto asi nebude možné výsledné přepisy přejímat bez kontroly člověkem.
Evaluation level: zadání splněno
Student po analýze dostupných prostředků zvolil PaddleOCR a ten dotrénoval. Dále vytvořil OCR pipeline a součástí celého procesu byla detekce oblastí pro jednotlivé záznamy, tak i samotné rozpoznávání textu. V práci představuje navržený systém a diskutuje dosažené výsledky. Zde by ovšem bylo dobré předložit podrobnější hodnoty. Je zde uvedeno, že přesná znaková shoda byla kolem 50%, což není mnoho, ale podle Levenshteinovy vzdálenosti se výsledky jevily lépe. Student ale neuvedl žádné konkrétní hodnoty, což považuji za nedostatek. Také mi není jasné, jak vyhodnocoval přesnost detekce oblastí. Asi nelze stanovit přesné hranice záznamů v matrikách, pokud nebyly zapisovány tabulkově, ale i tak bylo vyhodnocení nějak provedeno. I přes uvedené metodické nedostatky v prezentaci výsledků se jedná o vytvoření komplexního a funkčního systému, a proto zadání práce považuji za splněné.
Evaluation level: je v obvyklém rozmezí
V seznamu použitých zdrojů je uvedeno celkem 58 položek. Jedná se z poloviny o internetové zdroje, několik zdrojů jsou diplomové práce vzniklé na naší fakultě a zbytek tvoří odborné články. Zdroje jsou voleny vhodně a řádně citovány. Vlastní práce studenta je v textu zřetelně oddělena od teoretické části.
Grade proposed by reviewer: C
Responsibility: Mgr. et Mgr. Hana Odstrčilová