Bachelor's Thesis

Intelligent Tool for Effective Assessment of Student Project Documentations

Final Thesis 4.18 MB

Author of thesis: Matúš Csirik

Acad. year: 2025/2026

Supervisor: Ing. Ondřej Ondryáš

Reviewer: Ing. Zbyněk Křivka, Ph.D.

Abstract:

This thesis investigates the assessment of student project documentation in programming courses, specifically Formal Languages and Compilers (IFJ) and Principles of Programming Languages (IPP) at FIT BUT, by automating score recommendations for graders. The system parses input documentation in PDF or Markdown format into a structured intermediate representation, applies a combination of machine learning and rule-based analysers aligned with predefined assessment criteria, and aggregates findings through a specialised scoring mechanism. The graphical user interface presents the original documentation along with these findings as explicit score recommendations, complete with reasoning, evidence in the form of exact locations within the file, and model confidence scores. The current evidence supports deployment as an auditable reviewer-assistance layer that emphasises traceability and preserves reviewer decision authority.

Keywords:

Automated Assessment, Large Language Models, Vision-Language Models, Criterion-Based Assessment, Evidence-Linked Scoring, Document Layout Analysis, Diagram Comprehension

Date of defence

17.06.2026

Result of the defence

Defended (thesis was successfully defended)

znamkaAznamka

Grading

A

Process of defence

Student nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta a na další otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm A.

Topics for thesis defence

  1. Jak se zlepší odvození pohřešku UMLBAD při dotrénování modelu (tzv. fine-tuning) oproti základnímu modelu?
  2. Jakým způsobem je zajištěno, že otázka (prompt) položená pro hodnocení kvalitativních ukazatelů v textu je položena správně, či zda lze položit ještě lépe?
  3. Jaký je váš expertní názor na možnost detekovat studentské dokumentace, které vznikly přespřílišným využitím generativní AI?
  4. Můžete se vyjádřit k prezentované ukázce reportu?
  5. S jak velkým kontextovým oknem Váš nástroj pracuje?

Language of thesis

English

Faculty

Department

Study programme

Information Technology (BIT)

Composition of Committee

doc. Ing. František Zbořil, CSc. (předseda)
doc. Ing. Michal Španěl, Ph.D. (místopředseda)
Ing. Jan Pluskal, Ph.D. (člen)
Ing. Aleš Smrčka, Ph.D. (člen)
Ing. Josef Strnadel, Ph.D. (člen)

Supervisor’s report
Ing. Ondřej Ondryáš

Myslím si, že se pan kolega Csirik chopil rozsáhlé výzvy s velkým nasazením a projevil při řešení dobré analytické i vývojářské schopnosti. Bylo mi potěšením jej v rámci této práce vést. Zpětná vazba od cvičících, kteří měli možnost výstupy nástroje použít při hodnocení letošních dokumentací k projektům v předmětu IPP, naznačuje, že nástroj má (i přes jisté nedokonalosti) potenciál celý proces hodnocení zefektivnit. Řekl bych, že dosažený výsledek dobře demonstruje, jakým směrem by se měl tento proces v budoucích letech vyvíjet, a poskytuje skvělý základ pro konzistentnější a (zejména pro studující) interpretovatelnější hodnocení.

Evaluation criteria Verbal classification
Informace k zadání

Cílem práce bylo prozkoumat možnosti využití nástrojů na bázi umělé inteligence pro účely zefektivnění procesu hodnocení dokumentací ke studentským projektům odevzdaných především v předmětu IPP a případně IFJ. Zadání považuji za obtížnější, neboť jde o široký problém z hlediska strojového učení a práce s daty (zajisté nad rámec učiva bakalářského studijního programu na FIT), ale i softwarového inženýrství, a to navíc s přesahem do psychologie interakce člověka a počítače. Řešení považuji za promyšlené, vhodně ohraničené, dobře navržené, v budoucnu rozšiřitelné a použitelné i mimo uvedené předměty.

Práce s literaturou

Pan Csirik vhodně využil doporučenou literaturu a sám si aktivně vyhledal značné množství dalších relevantních zdrojů.

Aktivita během řešení, konzultace, komunikace

Aktivitě pana kolegy v průběhu řešení práce nemohu téměř nic vytknout. Na studiu řešené problematiky začal pracovat už před začátkem akademického roku, po celou dobu řešení pak ve vhodném rozsahu práci konzultoval a pravidelně mě informoval o jejím stavu.

Aktivita při dokončování

Implementační část byla dokončena s rozumným předstihem, výsledek práce tak mohl být částečně otestován už při hodnocení letošních projektů z předmětu IPP. Dokončený text práce byl poprvé zaslán ke kontrole 9 dnů před termínem odevzdání – zde bych vzhledem k rozsahu práce uvítal trochu větší časovou rezervu. Na důkladné přečtení odevzdávané verze jsem proto už bohužel neměl dostatek času, ale soudím, že většinu mých připomínek zvládl pan kolega vhodně zapracovat.

Publikační činnost, ocenění

Publikační činnost mi není známa. Realizační výstup je zveřejněn formou open source.

Points proposed by supervisor: 92

Grade proposed by supervisor: A

Reviewer’s report
Ing. Zbyněk Křivka, Ph.D.

Hutný a rozsáhlý text podporuje funkční a propracovanou implementaci. Oceňuji také velmi podrobnou analýzu dat z předchozích let a provedení řady analýz použitelnosti různých nástrojů pro potřeby projektu.

Evaluation criteria Verbal classification Points
Náročnost zadání

Evaluation level: obtížnější zadání

Práce se zabývá velmi aktuálním tématem augmentace hodnocení dokumentačních textů a především experimentálním vyhodnocením, zda jsou již vybrané LLM schopny spolehlivě vyhodnotit kritéria kladená na dokumentace studentských projektů. Vzhledem k aktuálnosti a populárnosti tématu je výčet literatury obrovský a nutnost se v celé problematice zorientovat a všechno si vyzkoušet považuji za nejnáročnější aspekt zadání.

Prezentační úroveň technické zprávy

V textu jsem nenarazil vyloženě na chyby, ale na řadě míst nechává čtenáře na pochybách, zda nějaký termín neměl být definován a nebo je pouze považován za samozřejmý a měl by si jej čtenář doplnit z četného seznamu literatury.

Např. pojmy "evidence anchor" a "traceable feedback" na str. 12 nebo "binary label" na str. 43. Nápomocný by mohl být slovník pojmů.

85
Formální úprava technické zprávy

Nenarazil jsem na žádný formální prohřešek.

97
Realizační výstup

Návrh celého systému je promyšlený, detailně zdokumentován a připraven na budoucí úpravy či rozšíření. Při implementaci student využívá řadu již existujících technologií (např. Docling) a rozhraní na LLM. Zdrojový text je v jazyce Python, je přehledný a vhodně komentovány. 

90
Využitelnost výsledků

Samotný systém je velmi dobře použitelný a proběhlo i neoficiální testování nad letošními projekty IPP. Především je šitá na míru architektura systému, kdy je oddělena část používající i placené LLM a část podporující hodnocení cvičících.

Rozsah splnění požadavků zadání

Evaluation level: zadání splněno

Rozsah technické zprávy

Evaluation level: přesahuje obvyklé rozmezí

Text dosahuje doporučené maximální hranice kolem 100 normostran a k tomu obsahuje řadu schémat a diagramů na lepší orientaci v navrženém systému. Nicméně text neobsahuje žádnou vatu a pouze pečlivě pokrývá všechny analyzované a navrhované aspekty.

Práce s literaturou

Student využil přes 50 pramenů a řada z nich jsou velmi aktuální. Všechny reference jsou odkazovány v textu. 

96
Topics for thesis defence:
  1. Jaký je váš expertní názor na možnost detekovat studentské dokumentace, které vznikly přespřílišným využitím generativní AI?
  2. Jakým způsobem je zajištěno, že otázka (prompt) položená pro hodnocení kvalitativních ukazatelů v textu je položena správně, či zda lze položit ještě lépe?
  3. Jak se zlepší odvození pohřešku UMLBAD při dotrénování modelu (tzv. fine-tuning) oproti základnímu modelu?
Points proposed by reviewer: 92

Grade proposed by reviewer: A

Responsibility: Mgr. et Mgr. Hana Odstrčilová