Bachelor's Thesis

Automated Processing of Table of Contents

Author of thesis: Bc. Oleksii Shelest

Acad. year: 2025/2026

Abstract:

Processing the structure of documents is an important part of the digitization process. One of the main structures that enables navigation within a document is the table of contents. Current automated table-of-contents processing relies primarily on rule-based and hybrid approaches, which, however, face problems related to the diversity of formatting across individual books. The goal of this work is to design an architecture for the automatic processing of the table of contents in digitized books that enables extraction in two distinct ways – a method based on object detection and OCR, and a modern approach using large language models – and to compare these two approaches. The proposed architecture supplements both methods with a mechanism for linking the extracted table of contents to the actual structure of the book. Experiments performed on an annotated dataset showed that each of these two approaches has its strengths. The method based on object detection and OCR ensures higher geometric accuracy: average F1 score – 0.887. Meanwhile, the method based on language models better captures hierarchical structures and processes text on the page more effectively: average TED score – 0.1440, average CER score – 0.0968.

Keywords:

Content processing, book digitization, data extraction, OCR, YOLOv11, machine learning, large language models, hierarchical document structure

Date of defence

17.06.2026

Result of the defence

Defended (thesis was successfully defended)

znamkaBznamka

Grading

Process of defence

Student nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta a na další otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm B.

Topics for thesis defence

Jak přesně vznikly datové sady popsané v kapitole 3: z jakých zdrojových kolekcí vycházejí, jak probíhala anotace, jak byly vytvořeny trénovací, validační a testovací části a jaké ground truth podklady byly použity pro výpočet metrik v kapitole 5?
V tabulce 5.3 zůstává při přísnějších IoU prahových hodnotách výhoda YOLO+OCR. V jakých praktických situacích byste přesto doporučil LLM větev a proč?
Jak ověřujete správnost odkazů ve finálním interaktivním PDF v případech, kdy se kapitolu nepodaří přímo najít v textu knihy a její fyzická stránka se pouze dopočítá podle odhadnutého posunu stran?

Language of thesis

Czech

Faculty

Fakulta informačních technologií

Department

Department of Computer Graphics and Multimedia

Study programme

Information Technology (BIT)

Composition of Committee

doc. Ing. Lukáš Burget, Ph.D. (předseda)
doc. RNDr. Milan Češka, Ph.D. (místopředseda)
Dr. Ing. Petr Peringer (člen)
Ing. Matěj Grégr, Ph.D. (člen)
Ing. Jakub Husa, Ph.D. (člen)

Supervisor’s report
Ing. Jan Kohút

Student implementoval systém pro automatické zpracování obsahů, který kombinuje tradiční zpracování pomocí OCR a detekce s VLLM. Dále pak experimentálně ověřil různé nastavení tohoto systému. Výsledkem je i menší dataset komplexních datasetů vhodný pro testování VLLM. Výsledky práce dále využijeme v rámci projektu Smart Digilinka.

Evaluation criteria	Verbal classification
Information about assignment	Cílem práce bylo provést experimenty s automatickou detekcí obsahů knih, a to jak za pomocí metod založených na kombinaci OCR a detekce, tak za pomocí VLLM. Zadání považuji za mírně obtížnější. Dosažené výsledky odpovídají očekávání.
Work with literature	Vzhledem k tomu, že přístup řešení byl doporučen vedoucím, student si nejprve vytvořil přehled o tom, jak pracovat s metodami strojového učení. Pro úplnost student dodatečně nastudoval alternativní přístupy.
Activity during solution, consultations, communication	Student pravidelně konzultoval a na konzultace byl dostatečně připraven.
Activity during completion	Práce byla dokončena v dostatečném předstihu a její finální obsah byl konzultován.
Publication activity, awards

Points proposed by supervisor: 85

Grade proposed by supervisor: B

Reviewer’s report
Ing. Zdeněk Materna, Ph.D.

Celkově jde o solidní až velmi dobrou práci se silným realizačním rozsahem, ale s vážnějšími výhradami k doložení datových sad, reprodukovatelnosti experimentů a přiměřenosti některých závěrů. Hodnocení proto volím na spodní hranici známky B.

Evaluation criteria	Verbal classification	Points
The difficulty of the assignment	Evaluation level: more difficult assignment Zadání považuji za spíše obtížnější, zejména kvůli kombinaci detekce obsahu dokumentu, OCR/LLM zpracování, práce s PDF, vlastních dat a vyhodnocení. Řešení zjevně vyžadovalo nastudovat a propojit postupy, které přesahují běžný rozsah znalostí získaných v průběhu studia. Náročnost však sama o sobě nekompenzuje slabší reprodukovatelnost experimentů.
Presentation level of the technical report	Prezentace metody je čitelná a technické jádro je dohledatelné. Hlavní prezentační výhrada spočívá v tom, že některé závěry o výsledcích jsou formulovány silněji, než přímo podporují vlastní tabulky; týká se to zejména tvrzení, že po zpřesnění souřadnic u LLM větve zcela mizí výhody klasické metody, ačkoliv tabulka 5.3 při přísnějších IoU prahových hodnotách stále ukazuje vyšší F1 u YOLO+OCR.	78
Formal preparation of a technical report	Po formální stránce je práce použitelná a bez zjevných zásadních problémů. Zůstaly drobné jazykové, typografické a odkazové nedostatky, které ale nejsou hlavním hodnoticím problémem.	86
Realisation output	Realizační výstup představuje rozsáhlejší prototyp, který pokrývá celý tok od vstupního PDF nebo obrázků přes detekci stránek obsahu, OCR/LLM extrakci a mapování kapitol až po JSON a interaktivní PDF. Kód odpovídá popsané architektuře. Významnější výhradu mám k tomu, že v odevzdaných zdrojích a README není zřejmý skript nebo postup, kterým by bylo možné znovu spočítat výsledkové tabulky z kapitoly 5; dostupný kód popisuje hlavně zpracování knih, nikoli reprodukovatelnou evaluaci. Tato mezera souvisí i s tím, že nejsou doloženy anotační soubory a splity datových sad popsaných v kapitole 3. Za vhodné bych považoval také doplnění jednotkových testů pro deterministické části, což mám obecně za dobrou praxi pro ověřitelnost a udržitelnost kódu.	80
Usability of results	Výsledek je využitelný hlavně jako prototyp a základ pro další práci. Praktické použití by vyžadovalo lépe popsaný a ověřitelný běh, silnější validaci výstupů a jasnější informaci o spolehlivosti mapování kapitol na fyzické strany.
The extent to which the requirements of the assignment have been met	Evaluation level: assignment fulfilled with major reservations Zadání považuji celkově za splněné, ovšem s významnější výhradou k části týkající se datových sad. Práce v kapitole 3 datové sady popisuje a uvádí jejich rozsah, v odevzdaných artefaktech jsem však nenašel anotovanou datovou sadu, exporty anotací, split manifesty ani ground truth odpovídající těmto popisům. Dostupné datové podklady působí spíše jako demonstrační vstupy pro spuštění programu než jako znovu použitelná anotovaná datová sada. To současně oslabuje nezávislou ověřitelnost výsledkových tabulek.
Extent of the technical report	Evaluation level: is within the usual extent Technická zpráva má přiměřený rozsah a pokrývá potřebné části od souvisejících metod přes návrh a implementaci po experimenty a závěr.
Work with literature	Literatura je tematicky relevantní a přehled pokrývá hlavní směry řešení. Slabší je především citační ukotvení LLM větve a některých konkrétních implementačních voleb; jinak text pracuje s dostatečným množstvím relevantních zdrojů.	76

Topics for thesis defence:

Jak přesně vznikly datové sady popsané v kapitole 3: z jakých zdrojových kolekcí vycházejí, jak probíhala anotace, jak byly vytvořeny trénovací, validační a testovací části a jaké ground truth podklady byly použity pro výpočet metrik v kapitole 5?
V tabulce 5.3 zůstává při přísnějších IoU prahových hodnotách výhoda YOLO+OCR. V jakých praktických situacích byste přesto doporučil LLM větev a proč?
Jak ověřujete správnost odkazů ve finálním interaktivním PDF v případech, kdy se kapitolu nepodaří přímo najít v textu knihy a její fyzická stránka se pouze dopočítá podle odhadnutého posunu stran?

Points proposed by reviewer: 80

Grade proposed by reviewer: B

Responsibility: Mgr. et Mgr. Hana Odstrčilová

VUT

Faculties and university institutes

Parts

Automated Processing of Table of Contents