Bachelor's Thesis

Comparative Evaluation of Claim Extraction Metrics for Large Language Models

Final Thesis 1.75 MB

Author of thesis: David Bujzaš

Acad. year: 2025/2026

Supervisor: Ing. Antonín Jarolím

Reviewer: Ing. Martin Dočekal

Abstract:

Large language models make automatic claim extraction from text practical, but evaluation of generated claim sets remains underexplored. Many metrics use hard one-to-one assignment, although one generated claim may correspond to several human references, and vice versa. This thesis fixes a two-stage claim generation pipeline and focuses on metrics for comparing generated claim sets with human annotations. It adapts optimal transport to claim-set evaluation through Earth Mover's Distance and Sinkhorn transport over BERTScore- and cosine-derived costs, and compares them with Hungarian matching, LLM-as-a-judge scoring, and fine-grained metrics on Czech and Slovak datasets. The results show that without a target claim count, models consistently over-generate after second stage by +0.77, +1.49, and +1.86 claims on CGCD, CSAD, and CSAD2 datasets. With the count provided, deviations fall to -0.17, -0.20, and -0.15. On a synthetic transport-plan benchmark, Earth Mover's Distance with BERTScore reaches 80.2, compared with 64.6 for Hungarian matching with BERTScore. On real CSAD2 outputs without the target count, it scores 74.2--77.8, while Hungarian BERTScore remains at 51.5--57.3. Bootstrap tests confirm stronger model separation for transport metrics. Fine-grained analysis shows that focus is the most discriminative metric, while atomicity and fluency are weak ranking signals.

Keywords:

claim extraction, claim evaluation, large language models, optimal transport, set matching, bootstrap significance testing

Date of defence

17.06.2026

Result of the defence

Defended (thesis was successfully defended)

znamkaBznamka

Grading

B

Process of defence

Student nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta a na další otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm B.

Topics for thesis defence

  1. Zvažoval jste ablaci samotné metody používající maďarský algoritmus, která by nepoužívala zmiňovaný penalizační faktor.

Language of thesis

English

Faculty

Department

Study programme

Information Technology (BIT)

Composition of Committee

doc. Ing. Lukáš Burget, Ph.D. (předseda)
doc. RNDr. Milan Češka, Ph.D. (místopředseda)
Dr. Ing. Petr Peringer (člen)
Ing. Matěj Grégr, Ph.D. (člen)
Ing. Jakub Husa, Ph.D. (člen)

Supervisor’s report
Ing. Antonín Jarolím

Pozitivně hodnotím pravidelnou práci, rozsáhlou experimentální část, návrh, implementaci a testování studentem navržené metriky a slušnou technickou zprávu. Pro hodnocení A chybí hlubší zasazení práce do problematiky fact checkingu a přesvědčivější samostatná analýza a interpretace experimentálních výsledků.  Z organizačního hlediska (konzultace, komunikace) se s panem Bujzašem dobře pracovalo. 

Evaluation criteria Verbal classification
Informace k zadání

Průměrně obtížné zadání. Student měl v rámci své práce prozkoumat různé metriky běžně používané při fact checkingu, což je přímo přínosné pro běžící projekt FactDeMice. Kromě analýzy existujících přístupů student navrhl a implementoval vlastní metriku. S dosaženými výsledky jsem spokojen.

Práce s literaturou

Student pracoval převážně jen s doporučenou literaturou, což se projevilo omezenějším zasazením práce do širšího kontextu problematiky fact checkingu a souvisejících přístupů. Nastudovaným materiálům však student rozuměl dobře.

Aktivita během řešení, konzultace, komunikace

Oceňuji pravidelné konzultace, aktivitu a zodpovědný přístup. Na konzultace chodil připravený a průběžně diskutoval navrhovaná řešení. Kromě krátkých pauz během zkouškového období konzultace probíhaly kontinuálně.

Aktivita při dokončování

Realizační část byla dokončena včas, její obsah byl pravidelně diskutován a student zohlednil mé připomínky. Některé části textové práce však byly vypracovány na poslední chvíli, celou práci jsem však přečetl a student stihl zapracovat mé připomínky.

Publikační činnost, ocenění

Některé vypracované analýzy budou přímo použity při psaní mezinárodní publikace v rámci projektu FactDeMice (TAČR TQ16000028).

Points proposed by supervisor: 85

Grade proposed by supervisor: B

Reviewer’s report
Ing. Martin Dočekal

Práce popisuje a experimentálně vyhodnocuje metodu pro porovnání dvou množin tvrzení, která si dává za úkol odstranit problémy vyplývající z použití maďarského algoritmu, který umožňuje pouze mapování jeden na jednoho.


Uvádí velké množství experimentů, včetně experimentů, které jsou nad rámec zadání, a provádí velké množství statistických testů.


Bohužel se v práci objevuje několik problémů, jako příliš silná tvrzení či některé prezentační nedostatky. Celkově ji však vzhledem k jejímu rozsahu a netriviálnosti experimentů hodnotím velmi dobře.

Evaluation criteria Verbal classification Points
Náročnost zadání

Evaluation level: průměrně obtížné zadání

Zadání hodnotím jako průměrně obtížné. Autor jej však uchopil velmi zodpovědně a provedl velké množství experimentů i statistických testů, které nejsou pro běžnou bakalářskou práci typické. Samotné zpracování tak celkovou náročnost práce výrazně zvyšuje.

Prezentační úroveň technické zprávy

Celkově je práce na dobré úrovni, vyskytují se v ní však dílčí nedostatky:

  • Některé použité metody by si zasloužily podrobnější vysvětlení, a to především ty uvedené v kapitole 4.5.
  • V textu chybí definice některých použitých proměnných.
  • Graf 5.1 by bylo vhodné doplnit o legendu k "teplotní mapě" bodů. Bez ní čtenář jen stěží porozumí závěrům prezentovaným v textu.
  • Na tabulku 6.7 není v textu vůbec odkazováno.
  • V grafu 6.3 se uprostřed prohodí pořadí porovnávaných variant. Důsledkem toho vyjde opačná p-hodnota, což zhoršuje celkovou srozumitelnost grafu. Ačkoliv autor na tento neduh v textu upozorňuje, bylo by vhodnější graf rovnou upravit.
70
Formální úprava technické zprávy

Během čtení jsem nezaznamenal žádné obtíže. Zpráva je přehledně naformátovaná a jazykově velmi dobře srozumitelná.

100
Realizační výstup

Za hlavní realizační výstup považuji rozsáhlou sadu experimentů zaměřených na realizovanou metriku pro porovnávání dvou množin tvrzení a experimenty spojené s fine-grained metrikami. Vyzdvihnout je třeba také nově vytvořenou datovou sadu referenčních transportních plánů.

Přestože rozsahem a provedením tyto výstupy přesahují běžný standard bakalářských prací, objevují se zde dílčí nedostatky ve vyhodnocení:

  • Graf 5.2 (v kapitole 5) neodpovídá datasetu popisovanému v textu – vykazuje jiný počet zdrojů, čímž pravděpodobně došlo k záměně datasetů. Závěry uvedené v textu se tak neopírají o prezentovaná data.
  • Na několika místech autor předkládá příliš silná tvrzení, která nekorespondují s prezentovanými výsledky. Například:
    • V kapitlo 5.1.2 komentář: the plot is consistent with the interpretation that much of the apparent spread comes from a limited number of high-density examples rather than from a persistent shift of one annotator away from the others, přičemž z krabicového grafu 5.4 se anotátor 9 od ostatních dost odlišuje.
    • Závěr vyvozený u grafu 6.4 je sice platný pro BERTScore v kombinaci s maďarským algoritmem, neplatí však pro ostatní zkoumané konfigurace.
80
Využitelnost výsledků

Poznatky popsané v této práci mohou byt využity v dalším výzkumu.

Rozsah splnění požadavků zadání

Evaluation level: zadání splněno a práce obsahuje podstatná rozšíření

Autor navíc přidává experimenty v kapitolách 6.6 a 6.7, které nejsou přímo vyžadovány v zadání.

Rozsah technické zprávy

Evaluation level: je v obvyklém rozmezí

Práce s literaturou

Student využil velké množství relevantních zdrojů, které v textu řádně cituje. Svým výzkumem navíc plynule navazuje na předchozí studii:

Makaiova, L.; Fajcik, M. and Jarolim, A. Examining the Metrics for
Document-Level Claim Extraction in Czech and Slovak. ArXiv preprint
arXiv:2511.14566, 2025, abs/2511.14566. Available at:
https://arxiv.org/abs/2511.14566.

100
Topics for thesis defence:
  1. Zvažoval jste ablaci samotné metody používající maďarský algoritmus, která by nepoužívala zmiňovaný penalizační faktor.
Points proposed by reviewer: 85

Grade proposed by reviewer: B

Responsibility: Mgr. et Mgr. Hana Odstrčilová