Bachelor's Thesis

Automated Processing of Table of Contents

Final Thesis 6.65 MB

Author of thesis: Oleksii Shelest

Acad. year: 2025/2026

Supervisor: Ing. Jan Kohút

Reviewer: Ing. Zdeněk Materna, Ph.D.

Abstract:

Processing the structure of documents is an important part of the digitization process. One of the main structures that enables navigation within a document is the table of contents. Current automated table-of-contents processing relies primarily on rule-based and hybrid approaches, which, however, face problems related to the diversity of formatting across individual books. The goal of this work is to design an architecture for the automatic processing of the table of contents in digitized books that enables extraction in two distinct ways – a method based on object detection and OCR, and a modern approach using large language models – and to compare these two approaches. The proposed architecture supplements both methods with a mechanism for linking the extracted table of contents to the actual structure of the book. Experiments performed on an annotated dataset showed that each of these two approaches has its strengths. The method based on object detection and OCR ensures higher geometric accuracy: average F1 score – 0.887. Meanwhile, the method based on language models better captures hierarchical structures and processes text on the page more effectively: average TED score – 0.1440, average CER score – 0.0968.

Keywords:

Content processing, book digitization, data extraction, OCR, YOLOv11, machine learning, large language models, hierarchical document structure

Date of defence

17.06.2026

Result of the defence

Defended (thesis was successfully defended)

znamkaBznamka

Grading

B

Process of defence

Student nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta a na další otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm B.

Topics for thesis defence

  1. Jak přesně vznikly datové sady popsané v kapitole 3: z jakých zdrojových kolekcí vycházejí, jak probíhala anotace, jak byly vytvořeny trénovací, validační a testovací části a jaké ground truth podklady byly použity pro výpočet metrik v kapitole 5?
  2. V tabulce 5.3 zůstává při přísnějších IoU prahových hodnotách výhoda YOLO+OCR. V jakých praktických situacích byste přesto doporučil LLM větev a proč?
  3. Jak ověřujete správnost odkazů ve finálním interaktivním PDF v případech, kdy se kapitolu nepodaří přímo najít v textu knihy a její fyzická stránka se pouze dopočítá podle odhadnutého posunu stran?

Language of thesis

Czech

Faculty

Department

Study programme

Information Technology (BIT)

Composition of Committee

doc. Ing. Lukáš Burget, Ph.D. (předseda)
doc. RNDr. Milan Češka, Ph.D. (místopředseda)
Dr. Ing. Petr Peringer (člen)
Ing. Matěj Grégr, Ph.D. (člen)
Ing. Jakub Husa, Ph.D. (člen)

Supervisor’s report
Ing. Jan Kohút

Student implementoval systém pro automatické zpracování obsahů, který kombinuje tradiční zpracování pomocí OCR a detekce s VLLM. Dále pak experimentálně ověřil různé nastavení tohoto systému. Výsledkem je i menší dataset komplexních datasetů vhodný pro testování VLLM. Výsledky práce dále využijeme v rámci projektu Smart Digilinka. 

Evaluation criteria Verbal classification
Informace k zadání

Cílem práce bylo provést experimenty s automatickou detekcí obsahů knih, a to jak za pomocí metod založených na kombinaci OCR a detekce, tak za pomocí VLLM. Zadání považuji za mírně obtížnější. Dosažené výsledky odpovídají očekávání.

Práce s literaturou

Vzhledem k tomu, že přístup řešení byl doporučen vedoucím, student si nejprve vytvořil přehled o tom, jak pracovat s metodami strojového učení. Pro úplnost student dodatečně nastudoval alternativní přístupy.

Aktivita během řešení, konzultace, komunikace

Student pravidelně konzultoval a na konzultace byl dostatečně připraven.

Aktivita při dokončování

Práce byla dokončena v dostatečném předstihu a její finální obsah byl konzultován.

Publikační činnost, ocenění
Points proposed by supervisor: 85

Grade proposed by supervisor: B

Reviewer’s report
Ing. Zdeněk Materna, Ph.D.

Celkově jde o solidní až velmi dobrou práci se silným realizačním rozsahem, ale s vážnějšími výhradami k doložení datových sad, reprodukovatelnosti experimentů a přiměřenosti některých závěrů. Hodnocení proto volím na spodní hranici známky B.

Evaluation criteria Verbal classification Points
Náročnost zadání

Evaluation level: obtížnější zadání

Zadání považuji za spíše obtížnější, zejména kvůli kombinaci detekce obsahu dokumentu, OCR/LLM zpracování, práce s PDF, vlastních dat a vyhodnocení. Řešení zjevně vyžadovalo nastudovat a propojit postupy, které přesahují běžný rozsah znalostí získaných v průběhu studia. Náročnost však sama o sobě nekompenzuje slabší reprodukovatelnost experimentů.

Prezentační úroveň technické zprávy

Prezentace metody je čitelná a technické jádro je dohledatelné. Hlavní prezentační výhrada spočívá v tom, že některé závěry o výsledcích jsou formulovány silněji, než přímo podporují vlastní tabulky; týká se to zejména tvrzení, že po zpřesnění souřadnic u LLM větve zcela mizí výhody klasické metody, ačkoliv tabulka 5.3 při přísnějších IoU prahových hodnotách stále ukazuje vyšší F1 u YOLO+OCR.

78
Formální úprava technické zprávy

Po formální stránce je práce použitelná a bez zjevných zásadních problémů. Zůstaly drobné jazykové, typografické a odkazové nedostatky, které ale nejsou hlavním hodnoticím problémem.

86
Realizační výstup

Realizační výstup představuje rozsáhlejší prototyp, který pokrývá celý tok od vstupního PDF nebo obrázků přes detekci stránek obsahu, OCR/LLM extrakci a mapování kapitol až po JSON a interaktivní PDF. Kód odpovídá popsané architektuře. Významnější výhradu mám k tomu, že v odevzdaných zdrojích a README není zřejmý skript nebo postup, kterým by bylo možné znovu spočítat výsledkové tabulky z kapitoly 5; dostupný kód popisuje hlavně zpracování knih, nikoli reprodukovatelnou evaluaci. Tato mezera souvisí i s tím, že nejsou doloženy anotační soubory a splity datových sad popsaných v kapitole 3. Za vhodné bych považoval také doplnění jednotkových testů pro deterministické části, což mám obecně za dobrou praxi pro ověřitelnost a udržitelnost kódu.

80
Využitelnost výsledků

Výsledek je využitelný hlavně jako prototyp a základ pro další práci. Praktické použití by vyžadovalo lépe popsaný a ověřitelný běh, silnější validaci výstupů a jasnější informaci o spolehlivosti mapování kapitol na fyzické strany.

Rozsah splnění požadavků zadání

Evaluation level: zadání splněno s vážnějšími výhradami

Zadání považuji celkově za splněné, ovšem s významnější výhradou k části týkající se datových sad. Práce v kapitole 3 datové sady popisuje a uvádí jejich rozsah, v odevzdaných artefaktech jsem však nenašel anotovanou datovou sadu, exporty anotací, split manifesty ani ground truth odpovídající těmto popisům. Dostupné datové podklady působí spíše jako demonstrační vstupy pro spuštění programu než jako znovu použitelná anotovaná datová sada. To současně oslabuje nezávislou ověřitelnost výsledkových tabulek.

Rozsah technické zprávy

Evaluation level: je v obvyklém rozmezí

Technická zpráva má přiměřený rozsah a pokrývá potřebné části od souvisejících metod přes návrh a implementaci po experimenty a závěr.

Práce s literaturou

Literatura je tematicky relevantní a přehled pokrývá hlavní směry řešení. Slabší je především citační ukotvení LLM větve a některých konkrétních implementačních voleb; jinak text pracuje s dostatečným množstvím relevantních zdrojů.

76
Topics for thesis defence:
  1. Jak přesně vznikly datové sady popsané v kapitole 3: z jakých zdrojových kolekcí vycházejí, jak probíhala anotace, jak byly vytvořeny trénovací, validační a testovací části a jaké ground truth podklady byly použity pro výpočet metrik v kapitole 5?
  2. V tabulce 5.3 zůstává při přísnějších IoU prahových hodnotách výhoda YOLO+OCR. V jakých praktických situacích byste přesto doporučil LLM větev a proč?
  3. Jak ověřujete správnost odkazů ve finálním interaktivním PDF v případech, kdy se kapitolu nepodaří přímo najít v textu knihy a její fyzická stránka se pouze dopočítá podle odhadnutého posunu stran?
Points proposed by reviewer: 80

Grade proposed by reviewer: B

Responsibility: Mgr. et Mgr. Hana Odstrčilová