Přístupnostní navigace
E-application
Search Search Close
Master's Thesis
Author of thesis: Ing. Martin Janeček
Acad. year: 2025/2026
Supervisor: Ing. Jiří Hynek, Ph.D.
Reviewer: Ing. Magdaléna Ondrušková
The goal of this thesis is to design and implement a system for automatic topic classification of documents from Czech municipal council meetings. Meeting documents are predominantly published as unstructured PDF files with no means of full-text search across sessions, making it difficult to navigate their content. The thesis presents a data pipeline for automated collection and text extraction from municipal web portals, a manually annotated dataset of agenda items, and a multi-label classifier fine-tuned on this dataset using the RobeCzech language model. The classifier assigns each agenda item to none, one, or more of 17 thematic categories. The topic taxonomy was iteratively revised during the project based on annotation experience and experimental results, with each revision validated by measuring its impact on classification metrics. The best model achieves a micro F1 score of 0.900 on the test set after a series of experiments involving progressive dataset expansion, taxonomy revision, and threshold tuning. The model is publicly available on Hugging Face Hub, accompanied by an interactive visualisation application.
municipal council, natural language processing, multi-label classification, topic classification, public administration, RobeCzech, PDF parsing, fine-tuning, data annotation, data pipeline, Czech language
Date of defence
23.06.2026
Result of the defence
Defended (thesis was successfully defended)
Grading
A
Process of defence
Student nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta a na další otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm A.
Topics for thesis defence
Language of thesis
Czech
Faculty
Fakulta informačních technologií
Department
Department of Information Systems
Study programme
Information Technology and Artificial Intelligence (MITAI)
Specialization
Application Development (NADE)
Composition of Committee
prof. RNDr. Alexandr Meduna, CSc. (předseda) doc. RNDr. Jitka Kreslíková, CSc. (místopředseda) Ing. Vladimír Bartík, Ph.D. (člen) Ing. Jiří Hynek, Ph.D. (člen) Ing. Jan Pluskal, Ph.D. (člen) Ing. Marta Jaroš, Ph.D. (člen)
Supervisor’s reportIng. Jiří Hynek, Ph.D.
Student ke své práci přistupoval velmi svědomitě, dokázal pracovat samostatně a vytvořil použitelné řešení, které výrazně usnadňuje orientaci v obsahu zasedání zastupitelstev. Výsledky prezentoval na studentské konferenci, kde získal ocenění ze strany průmyslu. Navrhuji hodnocení stupněm A.
Práce vznikla v rámci výzkumu zpracování otevřených dat. Cílem bylo navrhnout a implementovat systém pro automatické tematické zpracování a klasifikaci dokumentů ze zasedání českých zastupitelstev. Student vytvořil datovou pipeline pro automatizovaný sběr a extrakci textu z webových portálů samospráv, vlastní anotovanou datovou sadu bodů programu a víceštítkový klasifikátor postavený na českém jazykovém modelu RobeCzech. Klasifikátor přiřazuje bodům programu tematické štítky ze 17 kategorií a výsledný model je zveřejněn na platformě Hugging Face Hub. Student se musel seznámit se zpracováním přirozeného jazyka, dolaďováním transformerových modelů (PyTorch, Hugging Face Transformers), technikami web scrapingu (BeautifulSoup, Selenium), parsováním PDF a vývojem vizualizačního portálu (MariaDB, Flask, React). Zadání hodnotím jako obtížnější a považuji ho za splněné.
Práce byla dokončena včas a obsah mohl být řádně konzultován.
Výsledky byly publikovány na studentské konferenci Excel@FIT 2026, kde byl student oceněn průmyslovým partnerem firmou SolarWinds. Výstupy jsou potenciálně využitelné v projektu Zastupko.cz.
Student prostudoval doporučenou literaturu a aktivně si vyhledával další zdroje týkající se zpracování přirozeného jazyka, klasifikace textu, analýzy dokumentů a legislativy v oblasti samospráv.
Student byl velmi aktivní během celého akademického roku. Přistupoval k práci pečlivě a byl schopen samostatně řešit netriviální problémy.
Grade proposed by supervisor: A
Reviewer’s reportIng. Magdaléna Ondrušková
Práca splňa zadanie vo všetkých bodoch. Výsledky sú funkčné a nasadené, pričom autor navyše overil prenositeľnosť systému na dátach inej municipality (Hradec Králové). Navrhujem hodnotiť stupňom A.
Evaluation level: zadání splněno
Evaluation level: je v obvyklém rozmezí
Práca má výbornú štruktúru s jasným oddelením analýzy domény (kap. 2–4), návrhu (kap. 5) a implementácie (kap. 6); požiadavky v sekcii 5.5.2 sú formalizované podľa MUST/SHOULD. Iteratívna revízia taxonomie (tabuľka 6.1) je transparentne zdokumentovaná vrátane odôvodnení každej zmeny.
Práca obsahuje iba mierne typografické nedostatky (pretekajúce riadky...).
Zoznam literatúry obsahuje 57 položiek s vyváženým zastúpením vedeckých prác, technickej dokumentácie knižníc a právnych predpisov.
Implementácia zahŕňa funkčnú datovú pipeline pre Brno a Hradec Králové, anotovanú sadu 2 113 záznamov, fine-tuned klasifikátor, interaktívnu demo aplikáciu na Hugging Face Spaces a konceptuálne rozšírenie systému Zastupko.cz vrátane migračných skriptov. Práca bola ocenená priemyselným partnerom na konferencii Excel@FIT 2026.
Model a pipeline sú okamžite využiteľné pre portály transparentnosti verejnej správy, novinársky výskum a akademické projekty zamerané na analýzu komunálnej politiky. Zverejnenie modelu na Hugging Face Hub spolu s interaktívnou aplikáciou umožňuje nasadenie pre ďalšie samosprávy.
Evaluation level: obtížnější zadání
Práca kombinuje viacero technicky náročných domén: doménová analýza českej verejnej správy a heterogenity zverejňovaných dokumentov, návrh a implementácia dátovej pipeline zahŕňajúcej web scraping a schémou riadený PDF parser, tvorba vlastnej anotovanej datovej sady s iteratívnou revíziou taxonomie a fine-tuning transformerového jazykového modelu RobeCzech pre viacštítkovu klasifikáciu. Zadanie hodnotím ako obtiažnejšie.
Grade proposed by reviewer: A
Responsibility: Mgr. et Mgr. Hana Odstrčilová