Přístupnostní navigace
E-application
Search Search Close
Bachelor's Thesis
Author of thesis: Maksym Podhornyi
Acad. year: 2025/2026
Supervisor: doc. Ing. Ivan Homoliak, Ph.D.
Reviewer: Ing. Richard Gazdík
This thesis presents the design and implementation of an information system for evaluating the quality of scientific paper reviews using large language models. The system accepts a manuscript and a review text and evaluates the review across four independent criteria: how it addresses the paper’s originality and contribution, the inclusion of related work comparison, the sufficiency of citations supporting the reviewer’s claims, and the overall quality of the review itself. Each criterion is scored on a 0–25 scale with interpretable output including rationales, evidence quotes from the manuscript and review, and classified issues. The system was implemented as a web application with a FastAPI backend and a React frontend, supporting five LLM backends through an OpenAI-compatible API hosted on the Czech e-INFRA academic computing infrastructure. An evaluation on 8 papers from ICLR 2024 (80 runs across 5 models) showed that the system reliably distinguishes review quality, detects factual errors in reviewer claims, and enables cross-model comparison of evaluation outputs. A manual fact-check of the system’s claims on one paper found 63–88% accuracy per model.
scientific paper reviews, quality assessment, large language models, natural language processing, peer review, information system
Date of defence
15.06.2026
Result of the defence
Defended (thesis was successfully defended)
Grading
B
Process of defence
Student nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta a na další otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm B.
Topics for thesis defence
Language of thesis
English
Faculty
Fakulta informačních technologií
Department
Department of Intelligent Systems
Study programme
Information Technology (BIT)
Composition of Committee
prof. Ing. Adam Herout, Ph.D. (předseda) doc. Mgr. Adam Rogalewicz, Ph.D. (místopředseda) Ing. Vladimír Bartík, Ph.D. (člen) Ing. Michal Hradiš, Ph.D. (člen) Ing. Josef Strnadel, Ph.D. (člen)
Supervisor’s reportdoc. Ing. Ivan Homoliak, Ph.D.
Prácu hodnotím ako veľmi kvalitnú. Študent splnil všetky body zadania a v niektorých smeroch ich aj prekročil, najmä použitím piatich LLM modelov a vytvorením funkčného systému s interpretovateľným výstupom. Napriek menšiemu rozsahu experimentálnej evaluácie ide o nadpriemernú prácu s potenciálom ďalšieho rozvoja. Celkovo prácu hodnotím stupňom A.
Zadanie hodnotím ako nadpriemerne náročné, keďže vyžadovalo prepojenie znalostí z oblasti recenzného procesu vedeckých článkov, veľkých jazykových modelov a návrhu informačného systému. Všetky body zadania boli splnené. Výsledkom je funkčný prototyp webovej aplikácie, ktorý umožňuje hodnotiť kvalitu recenzií vedeckých článkov pomocou viacerých LLM modelov a poskytuje interpretovateľné výstupy. Pozitívne hodnotím aj porovnanie piatich modelov, čo presahuje minimálne požiadavky zadania.
Študent pracoval s relevantnou a aktuálnou literatúrou, ktorú si sám vyhľadal alebo využil doporučenia vedúceho. Použité zdroje považujem za vhodné a primerane zapracované do textu práce.
Počas riešenia práce bol študent aktívny a postupoval samostatne. Konzultácie využíval účelne, na pripomienky reagoval a bol schopný samostatne riešiť technické aj koncepčné problémy. Oceňujem najmä schopnosť dotiahnuť riešenie od návrhu až po implementáciu a vyhodnotenie.
Práca bola dokončená v dostatočnom predstihu. Finálny text pôsobí ucelene a obsahuje analýzu problému, návrh systému, implementáciu aj experimentálne vyhodnotenie. Výsledná podoba práce bola primerane konzultovaná.
Publikačná činnosť nie je známa.
Grade proposed by supervisor: A
Reviewer’s reportIng. Richard Gazdík
Práca solídne napĺňa všetky body zadania a v oblasti implementácie a evaluácie ich prekonáva, päť integrovaných modelov a systematická evaluácia na 80 behoch vrátane manuálnej faktickej kontroly sú veľkým prínosom.
Evaluation level: obtížnější zadání
Cieľom tejto bakalárskej práce bolo navrhnúť a implementovať informačný systém umožňujúci predkladanie recenzií a pôvodných vedeckých článkov, ktorý pomocou AI vyhodnocuje kvalitu recenzií s interpretovateľným výstupom. Súčasťou zadania bolo UML modelovanie, integrácia a vzájomné porovnanie minimálne troch LLM modelov a evaluácia na recenziách vytvorených ľuďmi aj umelou inteligenciou. Zadanie hodnotím ako náročnejšie.
Práca je logicky štruktúrovaná a dobre čitateľná. Postup od analýzy peer review procesu cez LLM teóriu, návrh systému, implementáciu až po evaluáciu je korektný. Evaluačná kapitola (kapitola 7) je najsilnejšou časťou práce keďže obsahuje vzájomné porovnanie modelov, analýzu ľudských vs. AI recenzií, inter-model korelácie aj manuálnu faktickú kontrolu s konkrétnymi číslami. UML diagramy sú správne a prehľadné. Popis implementácie (kapitola 6) je miestami príliš stručný, napríklad sekcia o analýze pipeline a LLM klientovi mohla obsahovať viac technického detailu. Prílohy s promptami sú cenné, no v hlavnom texte chýba hlbšia reflexia nad procesom ich vývoja a iteráciami.
Anglický text je na vysokej úrovni, plynulý, gramaticky správny a terminologicky presný. Autor správne deklaruje použitie ChatGPT, Claude a GitHub Copilot.
Systém Review Analyzer bol implementovaný ako funkčná webová aplikácia s FastAPI backendom a React frontendom, podporujúca päť LLM modelov cez OpenAI-kompatibilné API. Backend sekvenčne spúšťa štyri hodnotiace moduly, výstupom je štruktúrovaný JSON s hodnotením, zdôvodnením, citáciami a klasifikovanými problémami. Frontend podporuje nahrávanie PDF, OCR snímkov recenzií a históriu hodnotení. Evaluácia na 80 behoch (8 článkov × 2 typy recenzií × 5 modelov) je systematická a výsledky sú prezentované s príslušnými štatistikami. Manuálna faktická kontrola na jednom článku (63–88 % presnosť podľa modelu) je cenným prínosom, hoci rozšírenie tejto analýzy na viac článkov by závery ešte posilnilo.
Systém Review Analyzer predstavuje originálny prototyp s konkrétne definovanými hodnotiacimi kritériami a interpretovateľným výstupom, otestovaný na reálnych dátach z OpenReview. Zistenie, že AI-generované recenzie skórujú v priemere o 11,7 bodov vyššie ako ľudské pri štruktúrovaných rubrikách, je empiricky podloženým poznatkom s priamym dosahom na návrh automatizovaných hodnotiacich systémov. Systém má potenciál pre praktické nasadenie.
Evaluation level: zadání splněno
Všetkých sedem bodov zadania bolo splnených. Teoretický základ procesu peer review a LLM je spracovaný v kapitolách 2-4. UML modelovanie (use case, komponentový a sekvenčný diagram) sú prítomné v kapitole 5. Systém bol implementovaný ako plnohodnotná webová aplikácia s FastAPI backendom a React frontendom. Zadanie požadovalo minimálne 3 LLM modely, študent integroval päť (DeepSeek V3.2, DeepSeek V3.2 Thinking, Qwen 3.5, Kimi K2.6, GLM 5.1). Evaluácia pokrýva 80 behov na 8 článkoch z ICLR 2024, vrátane porovnania ľudských a AI-generovaných recenzií a hĺbkovej manuálnej faktickej kontroly.
Evaluation level: splňuje pouze minimální požadavky
Textová časť práce je mierne pod obvyklým rozsahom, hoci minimum 40 normostrán je splnených. Implementačná kapitola a kapitola návrhu systému mohli byť podrobnejšie, najmä popis prompt engineeringu a jeho iteratívneho vývoja by si zaslúžil väčší priestor vzhľadom na centrálnu úlohu, ktorú hrá v celom systéme.
Bibliografiu tvorí 36 zdrojov zahŕňajúcich arxiv preprinty, konferenčné príspevky a technické dokumentácie. Kapitola o súvisiacej literatúre (kapitola 4) obsahuje solídnu gap analýzu, ktorá jasne motivuje vlastný prínos. Nedostatkom je relatívne malý počet zdrojov pre tému, ktorá je v akademickej literatúre aktívne skúmaná.
Grade proposed by reviewer: B
Responsibility: Mgr. et Mgr. Hana Odstrčilová