Master's Thesis

Analýza a vizualizace dokumentů ze zasedání zastupitelstev

Final Thesis 5.74 MB

Author of thesis: Ing. Martin Janeček

Acad. year: 2025/2026

Supervisor: Ing. Jiří Hynek, Ph.D.

Reviewer: Ing. Magdaléna Ondrušková

Abstract:

The goal of this thesis is to design and implement a system for automatic topic classification of documents from Czech municipal council meetings. Meeting documents are predominantly published as unstructured PDF files with no means of full-text search across sessions, making it difficult to navigate their content. The thesis presents a data pipeline for automated collection and text extraction from municipal web portals, a manually annotated dataset of agenda items, and a multi-label classifier fine-tuned on this dataset using the RobeCzech language model. The classifier assigns each agenda item to none, one, or more of 17 thematic categories. The topic taxonomy was iteratively revised during the project based on annotation experience and experimental results, with each revision validated by measuring its impact on classification metrics. The best model achieves a micro F1 score of 0.900 on the test set after a series of experiments involving progressive dataset expansion, taxonomy revision, and threshold tuning. The model is publicly available on Hugging Face Hub, accompanied by an interactive visualisation application.

Keywords:

municipal council, natural language processing, multi-label classification, topic classification, public administration, RobeCzech, PDF parsing, fine-tuning, data annotation, data pipeline, Czech language

Date of defence

23.06.2026

Result of the defence

Defended (thesis was successfully defended)

znamkaAznamka

Grading

A

Process of defence

Student nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta a na další otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm A.

Topics for thesis defence

  1. Taxonomia 17 tried bola navrhnutá a iteratívne revidovaná výlučne na dátach zo Zastupiteľstva mesta Brna. Na základe akých kritérií by ste rozhodli, či je táto taxonomia vhodná aj pre krajské zastupiteľstvo alebo malú obec s výrazne odlišnou agendou, a ako by vyzeral proces jej adaptácie?
  2. Schema-driven PDF parser vyžaduje pre každú samosprávu manuálne vytvorenie JSON schémy. Aký potenciál vidíte v automatizácii tohto kroku, napríklad využitím generatívneho modelu na detekciu sekcií, a aké riziká by takýto prístup priniesol?
  3. Co jste zveřejnil?

Language of thesis

Czech

Faculty

Department

Study programme

Information Technology and Artificial Intelligence (MITAI)

Specialization

Application Development (NADE)

Composition of Committee

prof. RNDr. Alexandr Meduna, CSc. (předseda)
doc. RNDr. Jitka Kreslíková, CSc. (místopředseda)
Ing. Vladimír Bartík, Ph.D. (člen)
Ing. Jiří Hynek, Ph.D. (člen)
Ing. Jan Pluskal, Ph.D. (člen)
Ing. Marta Jaroš, Ph.D. (člen)

Supervisor’s report
Ing. Jiří Hynek, Ph.D.

Student ke své práci přistupoval velmi svědomitě, dokázal pracovat samostatně a vytvořil použitelné řešení, které výrazně usnadňuje orientaci v obsahu zasedání zastupitelstev. Výsledky prezentoval na studentské konferenci, kde získal ocenění ze strany průmyslu. Navrhuji hodnocení stupněm A.

Evaluation criteria Verbal classification
Informace k zadání

Práce vznikla v rámci výzkumu zpracování otevřených dat. Cílem bylo navrhnout a implementovat systém pro automatické tematické zpracování a klasifikaci dokumentů ze zasedání českých zastupitelstev. Student vytvořil datovou pipeline pro automatizovaný sběr a extrakci textu z webových portálů samospráv, vlastní anotovanou datovou sadu bodů programu a víceštítkový klasifikátor postavený na českém jazykovém modelu RobeCzech. Klasifikátor přiřazuje bodům programu tematické štítky ze 17 kategorií a výsledný model je zveřejněn na platformě Hugging Face Hub. Student se musel seznámit se zpracováním přirozeného jazyka, dolaďováním transformerových modelů (PyTorch, Hugging Face Transformers), technikami web scrapingu (BeautifulSoup, Selenium), parsováním PDF a vývojem vizualizačního portálu (MariaDB, Flask, React). Zadání hodnotím jako obtížnější a považuji ho za splněné.

Aktivita při dokončování

Práce byla dokončena včas a obsah mohl být řádně konzultován.

Publikační činnost, ocenění

Výsledky byly publikovány na studentské konferenci Excel@FIT 2026, kde byl student oceněn průmyslovým partnerem firmou SolarWinds. Výstupy jsou potenciálně využitelné v projektu Zastupko.cz.

Práce s literaturou

Student prostudoval doporučenou literaturu a aktivně si vyhledával další zdroje týkající se zpracování přirozeného jazyka, klasifikace textu, analýzy dokumentů a legislativy v oblasti samospráv.

Aktivita během řešení, konzultace, komunikace

Student byl velmi aktivní během celého akademického roku. Přistupoval k práci pečlivě a byl schopen samostatně řešit netriviální problémy.

Points proposed by supervisor: 90

Grade proposed by supervisor: A

Reviewer’s report
Ing. Magdaléna Ondrušková

Práca splňa zadanie vo všetkých bodoch. Výsledky sú funkčné a nasadené, pričom autor navyše overil prenositeľnosť systému na dátach inej municipality (Hradec Králové). Navrhujem hodnotiť stupňom A.

Evaluation criteria Verbal classification Points
Rozsah splnění požadavků zadání

Evaluation level: zadání splněno

Rozsah technické zprávy

Evaluation level: je v obvyklém rozmezí

Prezentační úroveň technické zprávy

Práca má výbornú štruktúru s jasným oddelením analýzy domény (kap. 2–4), návrhu (kap. 5) a implementácie (kap. 6); požiadavky v sekcii 5.5.2 sú formalizované podľa MUST/SHOULD. Iteratívna revízia taxonomie (tabuľka 6.1) je transparentne zdokumentovaná vrátane odôvodnení každej zmeny.

90
Formální úprava technické zprávy

Práca obsahuje iba mierne typografické nedostatky (pretekajúce riadky...). 

90
Práce s literaturou

Zoznam literatúry obsahuje 57 položiek s vyváženým zastúpením vedeckých prác, technickej dokumentácie knižníc a právnych predpisov.

95
Realizační výstup

Implementácia zahŕňa funkčnú datovú pipeline pre Brno a Hradec Králové, anotovanú sadu 2 113 záznamov, fine-tuned klasifikátor, interaktívnu demo aplikáciu na Hugging Face Spaces a konceptuálne rozšírenie systému Zastupko.cz vrátane migračných skriptov. Práca bola ocenená priemyselným partnerom na konferencii Excel@FIT 2026. 

95
Využitelnost výsledků

Model a pipeline sú okamžite využiteľné pre portály transparentnosti verejnej správy, novinársky výskum a akademické projekty zamerané na analýzu komunálnej politiky. Zverejnenie modelu na Hugging Face Hub spolu s interaktívnou aplikáciou umožňuje nasadenie pre ďalšie samosprávy.

Náročnost zadání

Evaluation level: obtížnější zadání

Práca kombinuje viacero technicky náročných domén: doménová analýza českej verejnej správy a heterogenity zverejňovaných dokumentov, návrh a implementácia dátovej pipeline zahŕňajúcej web scraping a schémou riadený PDF parser, tvorba vlastnej anotovanej datovej sady s iteratívnou revíziou taxonomie a fine-tuning transformerového jazykového modelu RobeCzech pre viacštítkovu klasifikáciu. Zadanie hodnotím ako obtiažnejšie.

Topics for thesis defence:
  1. Taxonomia 17 tried bola navrhnutá a iteratívne revidovaná výlučne na dátach zo Zastupiteľstva mesta Brna. Na základe akých kritérií by ste rozhodli, či je táto taxonomia vhodná aj pre krajské zastupiteľstvo alebo malú obec s výrazne odlišnou agendou, a ako by vyzeral proces jej adaptácie?
  2. Schema-driven PDF parser vyžaduje pre každú samosprávu manuálne vytvorenie JSON schémy. Aký potenciál vidíte v automatizácii tohto kroku, napríklad využitím generatívneho modelu na detekciu sekcií, a aké riziká by takýto prístup priniesol?
Points proposed by reviewer: 95

Grade proposed by reviewer: A

Responsibility: Mgr. et Mgr. Hana Odstrčilová