Přístupnostní navigace
E-application
Search Search Close
Bachelor's Thesis
Author of thesis: David Bujzaš
Acad. year: 2025/2026
Supervisor: Ing. Antonín Jarolím
Reviewer: Ing. Martin Dočekal
Large language models make automatic claim extraction from text practical, but evaluation of generated claim sets remains underexplored. Many metrics use hard one-to-one assignment, although one generated claim may correspond to several human references, and vice versa. This thesis fixes a two-stage claim generation pipeline and focuses on metrics for comparing generated claim sets with human annotations. It adapts optimal transport to claim-set evaluation through Earth Mover's Distance and Sinkhorn transport over BERTScore- and cosine-derived costs, and compares them with Hungarian matching, LLM-as-a-judge scoring, and fine-grained metrics on Czech and Slovak datasets. The results show that without a target claim count, models consistently over-generate after second stage by +0.77, +1.49, and +1.86 claims on CGCD, CSAD, and CSAD2 datasets. With the count provided, deviations fall to -0.17, -0.20, and -0.15. On a synthetic transport-plan benchmark, Earth Mover's Distance with BERTScore reaches 80.2, compared with 64.6 for Hungarian matching with BERTScore. On real CSAD2 outputs without the target count, it scores 74.2--77.8, while Hungarian BERTScore remains at 51.5--57.3. Bootstrap tests confirm stronger model separation for transport metrics. Fine-grained analysis shows that focus is the most discriminative metric, while atomicity and fluency are weak ranking signals.
claim extraction, claim evaluation, large language models, optimal transport, set matching, bootstrap significance testing
Date of defence
17.06.2026
Result of the defence
Defended (thesis was successfully defended)
Grading
B
Process of defence
Student nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta a na další otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm B.
Topics for thesis defence
Language of thesis
English
Faculty
Fakulta informačních technologií
Department
Department of Computer Graphics and Multimedia
Study programme
Information Technology (BIT)
Composition of Committee
doc. Ing. Lukáš Burget, Ph.D. (předseda) doc. RNDr. Milan Češka, Ph.D. (místopředseda) Dr. Ing. Petr Peringer (člen) Ing. Matěj Grégr, Ph.D. (člen) Ing. Jakub Husa, Ph.D. (člen)
Supervisor’s reportIng. Antonín Jarolím
Pozitivně hodnotím pravidelnou práci, rozsáhlou experimentální část, návrh, implementaci a testování studentem navržené metriky a slušnou technickou zprávu. Pro hodnocení A chybí hlubší zasazení práce do problematiky fact checkingu a přesvědčivější samostatná analýza a interpretace experimentálních výsledků. Z organizačního hlediska (konzultace, komunikace) se s panem Bujzašem dobře pracovalo.
Průměrně obtížné zadání. Student měl v rámci své práce prozkoumat různé metriky běžně používané při fact checkingu, což je přímo přínosné pro běžící projekt FactDeMice. Kromě analýzy existujících přístupů student navrhl a implementoval vlastní metriku. S dosaženými výsledky jsem spokojen.
Student pracoval převážně jen s doporučenou literaturou, což se projevilo omezenějším zasazením práce do širšího kontextu problematiky fact checkingu a souvisejících přístupů. Nastudovaným materiálům však student rozuměl dobře.
Oceňuji pravidelné konzultace, aktivitu a zodpovědný přístup. Na konzultace chodil připravený a průběžně diskutoval navrhovaná řešení. Kromě krátkých pauz během zkouškového období konzultace probíhaly kontinuálně.
Realizační část byla dokončena včas, její obsah byl pravidelně diskutován a student zohlednil mé připomínky. Některé části textové práce však byly vypracovány na poslední chvíli, celou práci jsem však přečetl a student stihl zapracovat mé připomínky.
Některé vypracované analýzy budou přímo použity při psaní mezinárodní publikace v rámci projektu FactDeMice (TAČR TQ16000028).
Grade proposed by supervisor: B
Reviewer’s reportIng. Martin Dočekal
Práce popisuje a experimentálně vyhodnocuje metodu pro porovnání dvou množin tvrzení, která si dává za úkol odstranit problémy vyplývající z použití maďarského algoritmu, který umožňuje pouze mapování jeden na jednoho.
Uvádí velké množství experimentů, včetně experimentů, které jsou nad rámec zadání, a provádí velké množství statistických testů.
Bohužel se v práci objevuje několik problémů, jako příliš silná tvrzení či některé prezentační nedostatky. Celkově ji však vzhledem k jejímu rozsahu a netriviálnosti experimentů hodnotím velmi dobře.
Evaluation level: průměrně obtížné zadání
Zadání hodnotím jako průměrně obtížné. Autor jej však uchopil velmi zodpovědně a provedl velké množství experimentů i statistických testů, které nejsou pro běžnou bakalářskou práci typické. Samotné zpracování tak celkovou náročnost práce výrazně zvyšuje.
Celkově je práce na dobré úrovni, vyskytují se v ní však dílčí nedostatky:
Během čtení jsem nezaznamenal žádné obtíže. Zpráva je přehledně naformátovaná a jazykově velmi dobře srozumitelná.
Za hlavní realizační výstup považuji rozsáhlou sadu experimentů zaměřených na realizovanou metriku pro porovnávání dvou množin tvrzení a experimenty spojené s fine-grained metrikami. Vyzdvihnout je třeba také nově vytvořenou datovou sadu referenčních transportních plánů.
Přestože rozsahem a provedením tyto výstupy přesahují běžný standard bakalářských prací, objevují se zde dílčí nedostatky ve vyhodnocení:
Poznatky popsané v této práci mohou byt využity v dalším výzkumu.
Evaluation level: zadání splněno a práce obsahuje podstatná rozšíření
Autor navíc přidává experimenty v kapitolách 6.6 a 6.7, které nejsou přímo vyžadovány v zadání.
Evaluation level: je v obvyklém rozmezí
Student využil velké množství relevantních zdrojů, které v textu řádně cituje. Svým výzkumem navíc plynule navazuje na předchozí studii:Makaiova, L.; Fajcik, M. and Jarolim, A. Examining the Metrics forDocument-Level Claim Extraction in Czech and Slovak. ArXiv preprintarXiv:2511.14566, 2025, abs/2511.14566. Available at:https://arxiv.org/abs/2511.14566.
Grade proposed by reviewer: B
Responsibility: Mgr. et Mgr. Hana Odstrčilová