Bachelor's Thesis

Comparative Evaluation of Claim Extraction Metrics for Large Language Models

Author of thesis: David Bujzaš

Acad. year: 2025/2026

Abstract:

Large language models make automatic claim extraction from text practical, but evaluation of generated claim sets remains underexplored. Many metrics use hard one-to-one assignment, although one generated claim may correspond to several human references, and vice versa. This thesis fixes a two-stage claim generation pipeline and focuses on metrics for comparing generated claim sets with human annotations. It adapts optimal transport to claim-set evaluation through Earth Mover's Distance and Sinkhorn transport over BERTScore- and cosine-derived costs, and compares them with Hungarian matching, LLM-as-a-judge scoring, and fine-grained metrics on Czech and Slovak datasets. The results show that without a target claim count, models consistently over-generate after second stage by +0.77, +1.49, and +1.86 claims on CGCD, CSAD, and CSAD2 datasets. With the count provided, deviations fall to -0.17, -0.20, and -0.15. On a synthetic transport-plan benchmark, Earth Mover's Distance with BERTScore reaches 80.2, compared with 64.6 for Hungarian matching with BERTScore. On real CSAD2 outputs without the target count, it scores 74.2--77.8, while Hungarian BERTScore remains at 51.5--57.3. Bootstrap tests confirm stronger model separation for transport metrics. Fine-grained analysis shows that focus is the most discriminative metric, while atomicity and fluency are weak ranking signals.

Keywords:

claim extraction, claim evaluation, large language models, optimal transport, set matching, bootstrap significance testing

Date of defence

17.06.2026

Result of the defence

Defended (thesis was successfully defended)

znamkaBznamka

Grading

Process of defence

Student nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta a na další otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm B.

Topics for thesis defence

Zvažoval jste ablaci samotné metody používající maďarský algoritmus, která by nepoužívala zmiňovaný penalizační faktor.

Language of thesis

English

Faculty

Fakulta informačních technologií

Department

Department of Computer Graphics and Multimedia

Study programme

Information Technology (BIT)

Composition of Committee

doc. Ing. Lukáš Burget, Ph.D. (předseda)
doc. RNDr. Milan Češka, Ph.D. (místopředseda)
Dr. Ing. Petr Peringer (člen)
Ing. Matěj Grégr, Ph.D. (člen)
Ing. Jakub Husa, Ph.D. (člen)

Supervisor’s report
Ing. Antonín Jarolím

Pozitivně hodnotím pravidelnou práci, rozsáhlou experimentální část, návrh, implementaci a testování studentem navržené metriky a slušnou technickou zprávu. Pro hodnocení A chybí hlubší zasazení práce do problematiky fact checkingu a přesvědčivější samostatná analýza a interpretace experimentálních výsledků. Z organizačního hlediska (konzultace, komunikace) se s panem Bujzašem dobře pracovalo.

Evaluation criteria	Verbal classification
Informace k zadání	Průměrně obtížné zadání. Student měl v rámci své práce prozkoumat různé metriky běžně používané při fact checkingu, což je přímo přínosné pro běžící projekt FactDeMice. Kromě analýzy existujících přístupů student navrhl a implementoval vlastní metriku. S dosaženými výsledky jsem spokojen.
Práce s literaturou	Student pracoval převážně jen s doporučenou literaturou, což se projevilo omezenějším zasazením práce do širšího kontextu problematiky fact checkingu a souvisejících přístupů. Nastudovaným materiálům však student rozuměl dobře.
Aktivita během řešení, konzultace, komunikace	Oceňuji pravidelné konzultace, aktivitu a zodpovědný přístup. Na konzultace chodil připravený a průběžně diskutoval navrhovaná řešení. Kromě krátkých pauz během zkouškového období konzultace probíhaly kontinuálně.
Aktivita při dokončování	Realizační část byla dokončena včas, její obsah byl pravidelně diskutován a student zohlednil mé připomínky. Některé části textové práce však byly vypracovány na poslední chvíli, celou práci jsem však přečetl a student stihl zapracovat mé připomínky.
Publikační činnost, ocenění	Některé vypracované analýzy budou přímo použity při psaní mezinárodní publikace v rámci projektu FactDeMice (TAČR TQ16000028).

Points proposed by supervisor: 85

Grade proposed by supervisor: B

Reviewer’s report
Ing. Martin Dočekal

Práce popisuje a experimentálně vyhodnocuje metodu pro porovnání dvou množin tvrzení, která si dává za úkol odstranit problémy vyplývající z použití maďarského algoritmu, který umožňuje pouze mapování jeden na jednoho.

Uvádí velké množství experimentů, včetně experimentů, které jsou nad rámec zadání, a provádí velké množství statistických testů.

Bohužel se v práci objevuje několik problémů, jako příliš silná tvrzení či některé prezentační nedostatky. Celkově ji však vzhledem k jejímu rozsahu a netriviálnosti experimentů hodnotím velmi dobře.

Evaluation criteria	Verbal classification	Points
Náročnost zadání	Evaluation level: průměrně obtížné zadání Zadání hodnotím jako průměrně obtížné. Autor jej však uchopil velmi zodpovědně a provedl velké množství experimentů i statistických testů, které nejsou pro běžnou bakalářskou práci typické. Samotné zpracování tak celkovou náročnost práce výrazně zvyšuje.
Prezentační úroveň technické zprávy	Celkově je práce na dobré úrovni, vyskytují se v ní však dílčí nedostatky: Některé použité metody by si zasloužily podrobnější vysvětlení, a to především ty uvedené v kapitole 4.5. V textu chybí definice některých použitých proměnných. Graf 5.1 by bylo vhodné doplnit o legendu k "teplotní mapě" bodů. Bez ní čtenář jen stěží porozumí závěrům prezentovaným v textu. Na tabulku 6.7 není v textu vůbec odkazováno. V grafu 6.3 se uprostřed prohodí pořadí porovnávaných variant. Důsledkem toho vyjde opačná p-hodnota, což zhoršuje celkovou srozumitelnost grafu. Ačkoliv autor na tento neduh v textu upozorňuje, bylo by vhodnější graf rovnou upravit.	70
Formální úprava technické zprávy	Během čtení jsem nezaznamenal žádné obtíže. Zpráva je přehledně naformátovaná a jazykově velmi dobře srozumitelná.	100
Realizační výstup	Za hlavní realizační výstup považuji rozsáhlou sadu experimentů zaměřených na realizovanou metriku pro porovnávání dvou množin tvrzení a experimenty spojené s fine-grained metrikami. Vyzdvihnout je třeba také nově vytvořenou datovou sadu referenčních transportních plánů. Přestože rozsahem a provedením tyto výstupy přesahují běžný standard bakalářských prací, objevují se zde dílčí nedostatky ve vyhodnocení: Graf 5.2 (v kapitole 5) neodpovídá datasetu popisovanému v textu – vykazuje jiný počet zdrojů, čímž pravděpodobně došlo k záměně datasetů. Závěry uvedené v textu se tak neopírají o prezentovaná data. Na několika místech autor předkládá příliš silná tvrzení, která nekorespondují s prezentovanými výsledky. Například: V kapitlo 5.1.2 komentář: „the plot is consistent with the interpretation that much of the apparent spread comes from a limited number of high-density examples rather than from a persistent shift of one annotator away from the others“, přičemž z krabicového grafu 5.4 se anotátor 9 od ostatních dost odlišuje. Závěr vyvozený u grafu 6.4 je sice platný pro BERTScore v kombinaci s maďarským algoritmem, neplatí však pro ostatní zkoumané konfigurace.	80
Využitelnost výsledků	Poznatky popsané v této práci mohou byt využity v dalším výzkumu.
Rozsah splnění požadavků zadání	Evaluation level: zadání splněno a práce obsahuje podstatná rozšíření Autor navíc přidává experimenty v kapitolách 6.6 a 6.7, které nejsou přímo vyžadovány v zadání.
Rozsah technické zprávy	Evaluation level: je v obvyklém rozmezí
Práce s literaturou	Student využil velké množství relevantních zdrojů, které v textu řádně cituje. Svým výzkumem navíc plynule navazuje na předchozí studii: Makaiova, L.; Fajcik, M. and Jarolim, A. Examining the Metrics for Document-Level Claim Extraction in Czech and Slovak. ArXiv preprint arXiv:2511.14566, 2025, abs/2511.14566. Available at: https://arxiv.org/abs/2511.14566.	100

Topics for thesis defence:

Zvažoval jste ablaci samotné metody používající maďarský algoritmus, která by nepoužívala zmiňovaný penalizační faktor.

Points proposed by reviewer: 85

Grade proposed by reviewer: B

Responsibility: Mgr. et Mgr. Hana Odstrčilová

VUT

Faculties and university institutes

Parts

Comparative Evaluation of Claim Extraction Metrics for Large Language Models