Bachelor's Thesis

AI-Based Quality Assessment of Scientific Papers' Reviews

Author of thesis: Maksym Podhornyi

Acad. year: 2025/2026

Supervisor: doc. Ing. Ivan Homoliak, Ph.D.

Abstract:

This thesis presents the design and implementation of an information system for evaluating the quality of scientific paper reviews using large language models. The system accepts a manuscript and a review text and evaluates the review across four independent criteria: how it addresses the paper’s originality and contribution, the inclusion of related work comparison, the sufficiency of citations supporting the reviewer’s claims, and the overall quality of the review itself. Each criterion is scored on a 0–25 scale with interpretable output including rationales, evidence quotes from the manuscript and review, and classified issues. The system was implemented as a web application with a FastAPI backend and a React frontend, supporting five LLM backends through an OpenAI-compatible API hosted on the Czech e-INFRA academic computing infrastructure. An evaluation on 8 papers from ICLR 2024 (80 runs across 5 models) showed that the system reliably distinguishes review quality, detects factual errors in reviewer claims, and enables cross-model comparison of evaluation outputs. A manual fact-check of the system’s claims on one paper found 63–88% accuracy per model.

Keywords:

scientific paper reviews, quality assessment, large language models, natural language processing, peer review, information system

Date of defence

15.06.2026

Result of the defence

Defended (thesis was successfully defended)

znamkaBznamka

Grading

Process of defence

Student nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta a na další otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm B.

Topics for thesis defence

DeepSeek V3.2 a jeho Thinking variant majú takmer nulovú koreláciu (Pearson -0,12) napriek zdieľaným základným váhám. Čo podľa vás spôsobuje takýto dramatický rozdiel v správaní a čo to hovorí o spoľahlivosti hodnotenia pomocou LLM?
Manuálnu faktickú kontrolu ste vykonali len na jednom článku. Ako by ste zovšeobecnili záver o 63–88 % presnosti na celý dataset a aké by boli náklady takejto rozšírenej validácie?
Vo vašom systéme každý z štyroch hodnotiacich modulov dostáva rovnaký vstup - manuscript a recenziu, no nevie nič o výsledkoch ostatných modulov. Znamená to, že celkové skóre je súčtom štyroch nezávislých hodnotení. Aký dopad by podľa vás malo, keby modul celkovej kvality poznal výsledky ostatných troch modulov pred tým, ako vydá svoj verdikt?
Můžete vysvětlit jak v transformerech funguje mechanismus attention? Proč ho ve vaší technické zprávě vysvětlujete, když není relevantní pro vaše výsledné řešení?
Jakou metriku používáte pro hodnocení kvality recenzí? Jakou hodnotu je možné považovat za dostatečnou? Jak jste verifikoval správnost vašeho řešení?

Language of thesis

English

Faculty

Fakulta informačních technologií

Department

Department of Intelligent Systems

Study programme

Information Technology (BIT)

Composition of Committee

prof. Ing. Adam Herout, Ph.D. (předseda)
doc. Mgr. Adam Rogalewicz, Ph.D. (místopředseda)
Ing. Vladimír Bartík, Ph.D. (člen)
Ing. Michal Hradiš, Ph.D. (člen)
Ing. Josef Strnadel, Ph.D. (člen)

Supervisor’s report
doc. Ing. Ivan Homoliak, Ph.D.

Prácu hodnotím ako veľmi kvalitnú. Študent splnil všetky body zadania a v niektorých smeroch ich aj prekročil, najmä použitím piatich LLM modelov a vytvorením funkčného systému s interpretovateľným výstupom. Napriek menšiemu rozsahu experimentálnej evaluácie ide o nadpriemernú prácu s potenciálom ďalšieho rozvoja. Celkovo prácu hodnotím stupňom A.

Evaluation criteria	Verbal classification
Informace k zadání	Zadanie hodnotím ako nadpriemerne náročné, keďže vyžadovalo prepojenie znalostí z oblasti recenzného procesu vedeckých článkov, veľkých jazykových modelov a návrhu informačného systému. Všetky body zadania boli splnené. Výsledkom je funkčný prototyp webovej aplikácie, ktorý umožňuje hodnotiť kvalitu recenzií vedeckých článkov pomocou viacerých LLM modelov a poskytuje interpretovateľné výstupy. Pozitívne hodnotím aj porovnanie piatich modelov, čo presahuje minimálne požiadavky zadania.
Práce s literaturou	Študent pracoval s relevantnou a aktuálnou literatúrou, ktorú si sám vyhľadal alebo využil doporučenia vedúceho. Použité zdroje považujem za vhodné a primerane zapracované do textu práce.
Aktivita během řešení, konzultace, komunikace	Počas riešenia práce bol študent aktívny a postupoval samostatne. Konzultácie využíval účelne, na pripomienky reagoval a bol schopný samostatne riešiť technické aj koncepčné problémy. Oceňujem najmä schopnosť dotiahnuť riešenie od návrhu až po implementáciu a vyhodnotenie.
Aktivita při dokončování	Práca bola dokončená v dostatočnom predstihu. Finálny text pôsobí ucelene a obsahuje analýzu problému, návrh systému, implementáciu aj experimentálne vyhodnotenie. Výsledná podoba práce bola primerane konzultovaná.
Publikační činnost, ocenění	Publikačná činnosť nie je známa.

Points proposed by supervisor: 90

Grade proposed by supervisor: A

Reviewer’s report
Ing. Richard Gazdík

Práca solídne napĺňa všetky body zadania a v oblasti implementácie a evaluácie ich prekonáva, päť integrovaných modelov a systematická evaluácia na 80 behoch vrátane manuálnej faktickej kontroly sú veľkým prínosom.

Evaluation criteria	Verbal classification	Points
Náročnost zadání	Evaluation level: obtížnější zadání Cieľom tejto bakalárskej práce bolo navrhnúť a implementovať informačný systém umožňujúci predkladanie recenzií a pôvodných vedeckých článkov, ktorý pomocou AI vyhodnocuje kvalitu recenzií s interpretovateľným výstupom. Súčasťou zadania bolo UML modelovanie, integrácia a vzájomné porovnanie minimálne troch LLM modelov a evaluácia na recenziách vytvorených ľuďmi aj umelou inteligenciou. Zadanie hodnotím ako náročnejšie.
Prezentační úroveň technické zprávy	Práca je logicky štruktúrovaná a dobre čitateľná. Postup od analýzy peer review procesu cez LLM teóriu, návrh systému, implementáciu až po evaluáciu je korektný. Evaluačná kapitola (kapitola 7) je najsilnejšou časťou práce keďže obsahuje vzájomné porovnanie modelov, analýzu ľudských vs. AI recenzií, inter-model korelácie aj manuálnu faktickú kontrolu s konkrétnymi číslami. UML diagramy sú správne a prehľadné. Popis implementácie (kapitola 6) je miestami príliš stručný, napríklad sekcia o analýze pipeline a LLM klientovi mohla obsahovať viac technického detailu. Prílohy s promptami sú cenné, no v hlavnom texte chýba hlbšia reflexia nad procesom ich vývoja a iteráciami.	80
Formální úprava technické zprávy	Anglický text je na vysokej úrovni, plynulý, gramaticky správny a terminologicky presný. Autor správne deklaruje použitie ChatGPT, Claude a GitHub Copilot.	95
Realizační výstup	Systém Review Analyzer bol implementovaný ako funkčná webová aplikácia s FastAPI backendom a React frontendom, podporujúca päť LLM modelov cez OpenAI-kompatibilné API. Backend sekvenčne spúšťa štyri hodnotiace moduly, výstupom je štruktúrovaný JSON s hodnotením, zdôvodnením, citáciami a klasifikovanými problémami. Frontend podporuje nahrávanie PDF, OCR snímkov recenzií a históriu hodnotení. Evaluácia na 80 behoch (8 článkov × 2 typy recenzií × 5 modelov) je systematická a výsledky sú prezentované s príslušnými štatistikami. Manuálna faktická kontrola na jednom článku (63–88 % presnosť podľa modelu) je cenným prínosom, hoci rozšírenie tejto analýzy na viac článkov by závery ešte posilnilo.	80
Využitelnost výsledků	Systém Review Analyzer predstavuje originálny prototyp s konkrétne definovanými hodnotiacimi kritériami a interpretovateľným výstupom, otestovaný na reálnych dátach z OpenReview. Zistenie, že AI-generované recenzie skórujú v priemere o 11,7 bodov vyššie ako ľudské pri štruktúrovaných rubrikách, je empiricky podloženým poznatkom s priamym dosahom na návrh automatizovaných hodnotiacich systémov. Systém má potenciál pre praktické nasadenie.
Rozsah splnění požadavků zadání	Evaluation level: zadání splněno Všetkých sedem bodov zadania bolo splnených. Teoretický základ procesu peer review a LLM je spracovaný v kapitolách 2-4. UML modelovanie (use case, komponentový a sekvenčný diagram) sú prítomné v kapitole 5. Systém bol implementovaný ako plnohodnotná webová aplikácia s FastAPI backendom a React frontendom. Zadanie požadovalo minimálne 3 LLM modely, študent integroval päť (DeepSeek V3.2, DeepSeek V3.2 Thinking, Qwen 3.5, Kimi K2.6, GLM 5.1). Evaluácia pokrýva 80 behov na 8 článkoch z ICLR 2024, vrátane porovnania ľudských a AI-generovaných recenzií a hĺbkovej manuálnej faktickej kontroly.
Rozsah technické zprávy	Evaluation level: splňuje pouze minimální požadavky Textová časť práce je mierne pod obvyklým rozsahom, hoci minimum 40 normostrán je splnených. Implementačná kapitola a kapitola návrhu systému mohli byť podrobnejšie, najmä popis prompt engineeringu a jeho iteratívneho vývoja by si zaslúžil väčší priestor vzhľadom na centrálnu úlohu, ktorú hrá v celom systéme.
Práce s literaturou	Bibliografiu tvorí 36 zdrojov zahŕňajúcich arxiv preprinty, konferenčné príspevky a technické dokumentácie. Kapitola o súvisiacej literatúre (kapitola 4) obsahuje solídnu gap analýzu, ktorá jasne motivuje vlastný prínos. Nedostatkom je relatívne malý počet zdrojov pre tému, ktorá je v akademickej literatúre aktívne skúmaná.	85

Topics for thesis defence:

DeepSeek V3.2 a jeho Thinking variant majú takmer nulovú koreláciu (Pearson -0,12) napriek zdieľaným základným váhám. Čo podľa vás spôsobuje takýto dramatický rozdiel v správaní a čo to hovorí o spoľahlivosti hodnotenia pomocou LLM?
Manuálnu faktickú kontrolu ste vykonali len na jednom článku. Ako by ste zovšeobecnili záver o 63–88 % presnosti na celý dataset a aké by boli náklady takejto rozšírenej validácie?
Vo vašom systéme každý z štyroch hodnotiacich modulov dostáva rovnaký vstup - manuscript a recenziu, no nevie nič o výsledkoch ostatných modulov. Znamená to, že celkové skóre je súčtom štyroch nezávislých hodnotení. Aký dopad by podľa vás malo, keby modul celkovej kvality poznal výsledky ostatných troch modulov pred tým, ako vydá svoj verdikt?

Points proposed by reviewer: 80

Grade proposed by reviewer: B

Responsibility: Mgr. et Mgr. Hana Odstrčilová

VUT

Faculties and university institutes

Parts

AI-Based Quality Assessment of Scientific Papers' Reviews