Master's Thesis

Improvements of AI-Based Code Assistants and Automation Tools

Final Thesis 3.02 MB

Author of thesis: Bc. Rastislav Budinský

Acad. year: 2025/2026

Supervisor: doc. Ing. Ivan Homoliak, Ph.D.

Reviewer: Ing. Samuel Olekšák

Abstract:

This thesis presents the design, implementation, and evaluation of a multi-agent AI code
review system deployed in an enterprise environment. The system distributes review re-
sponsibilities across eight specialized agents, each operating within a focused context of
thematically related organizational rules. The design centers on giving the organization
full control over which rules apply, how they are categorized, and how they evolve over
time. A middleware layer standardizes rule definitions and Azure DevOps integration,
while a knowledge base service provides structural and semantic codebase context through
graph queries and retrieval-augmented generation. A deduplication engine ensures that only
non-redundant feedback reaches developers. The primary evaluation criterion is the code-
change rate, defined as the proportion of review comments that triggered a modification
of the targeted code relative to the total number of comments produced. Evaluation over
436 pull requests spanning five months shows that the system’s code change rate climbed
from 32% in November 2025 to 50% in March 2026, averaging 41.8% across 1,104 review
threads. By the final month the rate approached that of the commercial CodeRabbit tool
(51.2% across 295 actionable threads), while human reviewers remained the strongest sig-
nal at 80.1%. Total review coverage tripled relative to the pre-deployment baseline while
human review effort remained stable, confirming that AI review augmented rather than
displaced human judgment. The evaluation also identifies a developer trust deficit caused
by premature deployment of a system with incomplete deduplication. The results demon-
strate that custom multi-agent AI code review is viable in enterprise settings and can reach
quality comparable to commercial tools, though the experience highlights that maintaining
high comment quality from the first deployment is essential–premature deployment erodes
developer trust in ways that are difficult to reverse.

Keywords:

code review, multi-agent system, large language model, software development automation,
context engineering, graph database, retrieval-augmented generation, duplicate detection

Date of defence

23.06.2026

Result of the defence

Defended (thesis was successfully defended)

znamkaAznamka

Grading

A

Process of defence

Student nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta a na další otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm A.

Topics for thesis defence

  1. V kapitole 7 spomínate, že porovnávať kvalitu individuálnych recenzií (komentárov) AI nástrojov sa nedalo pre veľký objem dát. Prečo ste neimplementovali systém spätnej väzby k jednotlivým komentárom ako to robí napr. Copilot pomocou reakcií palec nahor a palec nadol?
  2. Voľbu multiagentovej architektúry odôvodňujete degradáciou efektívneho využitia kontextu (context rot) pri veľkom počte pravidiel v prompte. Zvažovali ste využitie AI na jednorazovú konverziu tých pravidiel, ktoré sa dajú vyjadriť deterministicky, do statického analyzátora, aby ste kontext šetrili len pre pravidlá, ktoré takto previesť nemožno?
  3. Uvažoval jste o možnosti použít agenta i pro kontrolu bezpečnosti?

Language of thesis

English

Faculty

Department

Study programme

Information Technology and Artificial Intelligence (MITAI)

Specialization

Cybersecurity (NSEC)

Composition of Committee

doc. Mgr. Kamil Malinka, Ph.D. (předseda)
doc. Ing. Ivan Homoliak, Ph.D. (místopředseda)
Ing. Vojtěch Havlena, Ph.D. (člen)
doc. Ing. Ondřej Ryšavý, Ph.D. (člen)
Ing. Vladimír Veselý, Ph.D. (člen)
Ing. Tomáš Goldmann, Ph.D. (člen)

Supervisor’s report
doc. Ing. Ivan Homoliak, Ph.D.

Prácu hodnotím ako veľmi kvalitnú, prakticky orientovanú a nadštandardnú najmä z pohľadu reálneho nasadenia a vyhodnotenia v podnikovom prostredí. Študentovi sa podarilo vytvoriť funkčné riešenie, ktoré síce mierne zaostáva za komerčným plateným nástrojom, no vzhľadom na jeho účel, prispôsobiteľnosť a nákladové hľadisko ide o veľmi dobrý výsledok. Pozitívne hodnotím aj publikačný výstup a externé ocenenie práce. 

Evaluation criteria Verbal classification
Informace k zadání

Zadanie hodnotím ako nadpriemerne obtiažne, keďže vyžadovalo oboznámenie sa s problematikou veľkých jazykových modelov, existujúcich AI nástrojov pre recenzovanie kódu, návrh vlastného riešenia, jeho implementáciu a následné vyhodnotenie v reálnom firemnom prostredí. Práca bola riešená v spolupráci so spoločnosťou RIXO a motiváciou bolo najmä zníženie nákladov na komerčné nástroje pre AI recenzovanie kódu pri zachovaní použiteľnej kvality výstupov.

Zadanie bolo splnené vo všetkých bodoch. Študent navrhol a implementoval multiagentný systém pre automatizovanú revíziu kódu, ktorý bol integrovaný do vývojového procesu firmy. Súčasťou práce bolo aj rozsiahle vyhodnotenie na reálnych pull requestoch a porovnanie s komerčným plateným riešením. Hoci dosiahnuté výsledky sú mierne horšie ako pri komerčnom nástroji, vzhľadom na vlastnú implementáciu, možnosť prispôsobenia pravidiel a optimalizáciu nákladov hodnotím výsledok ako veľmi pozitívny. Práca má praktický dopad a jej výstupy sú použiteľné v reálnom prostredí.

Aktivita při dokončování

Práca bola dokončená včas a jej finálna podoba bola dostatočne konzultovaná. Študent do práce zahrnul nielen návrh a implementáciu systému, ale aj vyhodnotenie jeho kvality, nákladov a limitácií, čo považujem za dôležitú súčasť výsledku.

Publikační činnost, ocenění

Študent publikoval článok súvisiaci s výsledkami práce na študentskej konferencii EXCEL@FIT. Práca bola zároveň ocenená firmou Red Hat, čo potvrdzuje jej odbornú aj praktickú kvalitu.

Práce s literaturou

Študent si študijné pramene získaval samostatne na základe vlastného uváženia aj odporúčaní vedúceho. Pracoval s aktuálnymi zdrojmi z oblasti veľkých jazykových modelov, multiagentových systémov, automatizovanej revízie kódu, retrieval-augmented generation a súvisiacich technológií. Použité zdroje považujem za relevantné a vhodne začlenené do práce.

Aktivita během řešení, konzultace, komunikace

Aktivita študenta počas riešenia bola na veľmi dobrej úrovni. Študent pracoval samostatne, priebežne riešil technické problémy vyplývajúce z nasadenia systému v reálnom firemnom prostredí a konzultoval dôležité rozhodnutia. Na pripomienky reagoval primerane a výsledné riešenie bolo priebežne overované v spolupráci s firmou.

Points proposed by supervisor: 95

Grade proposed by supervisor: A

Reviewer’s report
Ing. Samuel Olekšák

Študent analyzoval formy využitia LLM na asistenciu pri vývoji kódu a následne navrhol, implementoval a niekoľko mesiacov v produkcii vo firme prevádzkoval multiagentový systém na AI revíziu pull requestov. Implementácia je kvalitná, modulárna a konfigurovateľná.


K práci mám dve hlavné výhrady:



  • Technická správa sa len okrajovo zaoberá existujúcimi riešeniami na AI revíziu kódu – v sekcii 3.4 sú rozpracované iba tri nástroje na troch stranách, čo neposkytuje dostatočný prehľad o aktuálnom stave komerčného trhu.

  • Hlavná deklarovaná výhoda systému oproti komerčným riešeniam stojí na hypotéze, že multiagentový prístup je vďaka užšiemu kontextu jednotlivých agentov lepší než jednoagentový. Táto hypotéza však nie je podložená žiadnym objektívnym benchmarkom. Hodnotenie sa opiera o jedinú nepriamu metriku – podiel komentárov, ktoré viedli k zmene kódu – ktorú autor sám označuje za nedostatočnú.

Evaluation criteria Verbal classification Points
Rozsah splnění požadavků zadání

Evaluation level: zadání splněno

Všetky body zadania boli splnené bez výhrad.

Rozsah technické zprávy

Evaluation level: přesahuje obvyklé rozmezí

Technická správa pozostáva zo 111 normostrán, pričom rozsah je z väčšej časti opodstatnený. Prílohy B a C sa zaoberajú manuálom na inštaláciu a použitie programovej časti práce a mohli by byť uvedené iba v README na priloženom médiu.

Prezentační úroveň technické zprávy

Technická správa je logicky štruktúrovaná a dobre pochopiteľná, iba s menšími nedostatkami:

  • Abstrakt je pridlhý a presahuje až na druhú stranu.
  • Niektoré pojmy sú použité skôr, než sú definované (napríklad kontextové okno je vysvetlené pomocou tokenov, hoci tokeny sú definované až neskôr).
  • Kapitola 6 má viacero nekonzistencií v údajoch:
    • Hodnoty uvedené v obrázku 6.4 sa nezhodujú s hodnotami v jeho popisku.
    • V sekcii 6.1.1 čísla uvedené v texte nesedia s hodnotami v obrázku 6.1.
85
Formální úprava technické zprávy

Jazyková stránka technickej správy je veľmi dobrá, avšak typograficky a sadzbou je v niektorých aspektoch problematická:

  • Druhá strana technickej správy je prázdna.
  • Referencie na štruktúrne celky (chapter, section, subsection) sú písané s malým začiatočným písmenom.
  • Nekonzistentná sadzba odrážkových zoznamov (napr. zoznamy v sekciách 2.3., 6.1.2, 6.2.1).
  • Kapitola 4 nezačína na samostatnej strane.
  • Tabuľka 4.2 je neprehľadná.
  • Veľmi často je nesprávne použitá krátka pomlčka (en dash) bez medzier na oddelenie vnorenej vety.
80
Práce s literaturou

Technická správa obsahuje 35 bibliografických zdrojov. Zdroje sú kvalitné, relevantné a aktuálne.

95
Realizační výstup

Študent vytvoril plne funkčný a production-ready systém na AI code review pull requestov, ktorý bol vo firme prakticky využívaný v prostredí Microsoft Azure a iteratívne vylepšovaný niekoľko mesiacov.

Implementácia je kvalitná, dobre zdokumentovaná a kontajnerizovaná. Zdrojový kód bol zverejnený na stránke GitHub.

95
Využitelnost výsledků

Práca sa zaoberá v súčasnosti veľmi aktuálnym a rýchlo sa vyvíjajúcim odvetvím. Systém je už nasadený vo firme a niekoľko mesiacov aktívne reviduje pull requesty. Možnosť jednoducho vymeniť samotný AI model, ktorý agenti využívajú, robí riešenie odolnejším voči zastaraniu a zároveň znižuje závislosť na konkrétnom poskytovateľovi (pri vydaní schopnejšieho modelu ho stačí nakonfigurovať bez zásahov do architektúry).

Náročnost zadání

Evaluation level: průměrně obtížné zadání

Zadanie vyžadovalo analýzu existujúcich nástrojov založených na veľkých jazykových modeloch a vylepšenie jedného z nich vrátane implementácie a evaluácie.

Topics for thesis defence:
  1. V kapitole 7 spomínate, že porovnávať kvalitu individuálnych recenzií (komentárov) AI nástrojov sa nedalo pre veľký objem dát. Prečo ste neimplementovali systém spätnej väzby k jednotlivým komentárom ako to robí napr. Copilot pomocou reakcií palec nahor a palec nadol?
  2. Voľbu multiagentovej architektúry odôvodňujete degradáciou efektívneho využitia kontextu (context rot) pri veľkom počte pravidiel v prompte. Zvažovali ste využitie AI na jednorazovú konverziu tých pravidiel, ktoré sa dajú vyjadriť deterministicky, do statického analyzátora, aby ste kontext šetrili len pre pravidlá, ktoré takto previesť nemožno?
Points proposed by reviewer: 88

Grade proposed by reviewer: B

Responsibility: Mgr. et Mgr. Hana Odstrčilová