Přístupnostní navigace
E-application
Search Search Close
Bachelor's Thesis
Author of thesis: Oleksii Shelest
Acad. year: 2025/2026
Supervisor: Ing. Jan Kohút
Reviewer: Ing. Zdeněk Materna, Ph.D.
Processing the structure of documents is an important part of the digitization process. One of the main structures that enables navigation within a document is the table of contents. Current automated table-of-contents processing relies primarily on rule-based and hybrid approaches, which, however, face problems related to the diversity of formatting across individual books. The goal of this work is to design an architecture for the automatic processing of the table of contents in digitized books that enables extraction in two distinct ways – a method based on object detection and OCR, and a modern approach using large language models – and to compare these two approaches. The proposed architecture supplements both methods with a mechanism for linking the extracted table of contents to the actual structure of the book. Experiments performed on an annotated dataset showed that each of these two approaches has its strengths. The method based on object detection and OCR ensures higher geometric accuracy: average F1 score – 0.887. Meanwhile, the method based on language models better captures hierarchical structures and processes text on the page more effectively: average TED score – 0.1440, average CER score – 0.0968.
Content processing, book digitization, data extraction, OCR, YOLOv11, machine learning, large language models, hierarchical document structure
Date of defence
17.06.2026
Result of the defence
Defended (thesis was successfully defended)
Grading
B
Process of defence
Student nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta a na další otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm B.
Topics for thesis defence
Language of thesis
Czech
Faculty
Fakulta informačních technologií
Department
Department of Computer Graphics and Multimedia
Study programme
Information Technology (BIT)
Composition of Committee
doc. Ing. Lukáš Burget, Ph.D. (předseda) doc. RNDr. Milan Češka, Ph.D. (místopředseda) Dr. Ing. Petr Peringer (člen) Ing. Matěj Grégr, Ph.D. (člen) Ing. Jakub Husa, Ph.D. (člen)
Supervisor’s reportIng. Jan Kohút
Student implementoval systém pro automatické zpracování obsahů, který kombinuje tradiční zpracování pomocí OCR a detekce s VLLM. Dále pak experimentálně ověřil různé nastavení tohoto systému. Výsledkem je i menší dataset komplexních datasetů vhodný pro testování VLLM. Výsledky práce dále využijeme v rámci projektu Smart Digilinka.
Cílem práce bylo provést experimenty s automatickou detekcí obsahů knih, a to jak za pomocí metod založených na kombinaci OCR a detekce, tak za pomocí VLLM. Zadání považuji za mírně obtížnější. Dosažené výsledky odpovídají očekávání.
Vzhledem k tomu, že přístup řešení byl doporučen vedoucím, student si nejprve vytvořil přehled o tom, jak pracovat s metodami strojového učení. Pro úplnost student dodatečně nastudoval alternativní přístupy.
Student pravidelně konzultoval a na konzultace byl dostatečně připraven.
Práce byla dokončena v dostatečném předstihu a její finální obsah byl konzultován.
Grade proposed by supervisor: B
Reviewer’s reportIng. Zdeněk Materna, Ph.D.
Celkově jde o solidní až velmi dobrou práci se silným realizačním rozsahem, ale s vážnějšími výhradami k doložení datových sad, reprodukovatelnosti experimentů a přiměřenosti některých závěrů. Hodnocení proto volím na spodní hranici známky B.
Evaluation level: obtížnější zadání
Zadání považuji za spíše obtížnější, zejména kvůli kombinaci detekce obsahu dokumentu, OCR/LLM zpracování, práce s PDF, vlastních dat a vyhodnocení. Řešení zjevně vyžadovalo nastudovat a propojit postupy, které přesahují běžný rozsah znalostí získaných v průběhu studia. Náročnost však sama o sobě nekompenzuje slabší reprodukovatelnost experimentů.
Prezentace metody je čitelná a technické jádro je dohledatelné. Hlavní prezentační výhrada spočívá v tom, že některé závěry o výsledcích jsou formulovány silněji, než přímo podporují vlastní tabulky; týká se to zejména tvrzení, že po zpřesnění souřadnic u LLM větve zcela mizí výhody klasické metody, ačkoliv tabulka 5.3 při přísnějších IoU prahových hodnotách stále ukazuje vyšší F1 u YOLO+OCR.
Po formální stránce je práce použitelná a bez zjevných zásadních problémů. Zůstaly drobné jazykové, typografické a odkazové nedostatky, které ale nejsou hlavním hodnoticím problémem.
Realizační výstup představuje rozsáhlejší prototyp, který pokrývá celý tok od vstupního PDF nebo obrázků přes detekci stránek obsahu, OCR/LLM extrakci a mapování kapitol až po JSON a interaktivní PDF. Kód odpovídá popsané architektuře. Významnější výhradu mám k tomu, že v odevzdaných zdrojích a README není zřejmý skript nebo postup, kterým by bylo možné znovu spočítat výsledkové tabulky z kapitoly 5; dostupný kód popisuje hlavně zpracování knih, nikoli reprodukovatelnou evaluaci. Tato mezera souvisí i s tím, že nejsou doloženy anotační soubory a splity datových sad popsaných v kapitole 3. Za vhodné bych považoval také doplnění jednotkových testů pro deterministické části, což mám obecně za dobrou praxi pro ověřitelnost a udržitelnost kódu.
Výsledek je využitelný hlavně jako prototyp a základ pro další práci. Praktické použití by vyžadovalo lépe popsaný a ověřitelný běh, silnější validaci výstupů a jasnější informaci o spolehlivosti mapování kapitol na fyzické strany.
Evaluation level: zadání splněno s vážnějšími výhradami
Zadání považuji celkově za splněné, ovšem s významnější výhradou k části týkající se datových sad. Práce v kapitole 3 datové sady popisuje a uvádí jejich rozsah, v odevzdaných artefaktech jsem však nenašel anotovanou datovou sadu, exporty anotací, split manifesty ani ground truth odpovídající těmto popisům. Dostupné datové podklady působí spíše jako demonstrační vstupy pro spuštění programu než jako znovu použitelná anotovaná datová sada. To současně oslabuje nezávislou ověřitelnost výsledkových tabulek.
Evaluation level: je v obvyklém rozmezí
Technická zpráva má přiměřený rozsah a pokrývá potřebné části od souvisejících metod přes návrh a implementaci po experimenty a závěr.
Literatura je tematicky relevantní a přehled pokrývá hlavní směry řešení. Slabší je především citační ukotvení LLM větve a některých konkrétních implementačních voleb; jinak text pracuje s dostatečným množstvím relevantních zdrojů.
Grade proposed by reviewer: B
Responsibility: Mgr. et Mgr. Hana Odstrčilová