Bachelor's Thesis

AI Agent-based Website Evaluation

Author of thesis: Bc. Roman Poliačik

Acad. year: 2025/2026

Abstract:

This thesis addresses the limitations of current website usability evaluation methods, which either rely on expensive human participants or scripted automation that cannot simulate real user behavior. The only existing persona-driven agentic approach for website evaluation, UXAgent, compromises realism by giving agents access to the underlying HTML, information real users never have. This thesis presents APEX-UX (Autonomous Persona Evaluation eXpert for UX), the first vision-only persona-driven system for website usability evaluation, where agents perceive websites exclusively through vision using a two-agent architecture that separates planning from visual grounding. Two studies validated the system. The first confirmed it can autonomously conduct usability evaluations, the second compared it against five real participants, with both groups independently identifying the same usability issues and producing closely matching behavioral metrics and usability scores. The agent evaluation completed in a fraction of the time and cost of the equivalent human study.

Keywords:

website usability, UX evaluation, AI agents, personas, multimodal models, vision-based web navigation, UI grounding.

Date of defence

17.06.2026

Result of the defence

Defended (thesis was successfully defended)

znamkaAznamka

Grading

Process of defence

Student nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta a na další otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm A.

Topics for thesis defence

Mohl byste ukázat konkrétní příklad nebo příklady výstupu plánovacího agenta a postup jeho dalšího zpracování?
Mohl by být případně plánovací agent nahrazen univerzálním agentem typu Claude Code a pokud ano, jakým způsobem?

Language of thesis

English

Faculty

Fakulta informačních technologií

Department

Department of Information Systems

Study programme

Information Technology (BIT)

Composition of Committee

prof. Ing. Martin Čadík, Ph.D. (předseda)
doc. Ing. Ondřej Ryšavý, Ph.D. (místopředseda)
Ing. Marcela Zachariášová, Ph.D. (člen)
Ing. Tomáš Goldmann, Ph.D. (člen)
Ing. Vojtěch Havlena, Ph.D. (člen)

Supervisor’s report
Ing. Radek Hranický, Ph.D.

Z mého pohledu se jedná o perfektně zpracovanou bakalářskou práci, která navíc obsahuje rozšíření (webovou aplikaci) nad rámec zadání. Student byl nadprůměrně aktivní a dílo dokončil v předstihu před odevzdáním.

Evaluation criteria	Verbal classification
Information about assignment	Práce souvisí s podávaným projektem MPO AXEL (Lakmoos AI + FIT). Zadání bylo splněno v celém rozsahu. Nad rámec implementovaného agenta student vytvořil webovou aplikaci s přívětivým GUI pro jeho ovládání.
Work with literature	Student využil doporučené literatury a další relevantní zdroje si samostatně dohledal.
Activity during solution, consultations, communication	Aktivita studenta byla příkladná. Na konzultace docházel vždy připraven a dohodnuté termíny plnil typicky v předstihu.
Activity during completion	Student práci dokončil v předstihu před odevzdáním, předložil mi ji ke kontrole a mé připomínky následně zapracoval.
Publication activity, awards

Points proposed by supervisor: 95

Grade proposed by supervisor: A

Reviewer’s report
doc. Ing. Radek Burget, Ph.D.

Student prostudoval související problematiku do značné šíře a navrhl a implementoval propracovaný systém využívající agenty umělé inteligence pro vedení průzkumů použitelnosti webových stránek. Systém je kvalitně navržený a implementovaný a jeho experimentální ověření je také kvalitně zpracované. Podle mého názoru by výsledek velmi dobře obstál i jako diplomová práce. Proto navrhuji hodnotit stupněm A.

Evaluation criteria	Verbal classification	Points
The difficulty of the assignment	Evaluation level: more difficult assignment Zadání předpokládá nejen studium a praktické využití nejnovějších jazykových a multimodálních modelů, ale také studium rozsáhlé problematiky použitelnosti webů a jejího vyhodnocení a v neposlední řadě implementaci poměrně rozsáhlé aplikace. Zadání proto hodnotím jako poměrně obtížné.
Presentation level of the technical report	Práce v teoretické části pokrývá jak samotnou problematiku testování použitelnosti webových stránek, tak i současný stav v souvisejících oblastech umělé inteligence. Dále je velmi podrobně rozpracován návrh agentního systému pro vyhodnocení použitelnosti a jeho implementace. Velmi kladně rovněž hodnotím provedené experimentální vyhodnocení včetně podrobné srovnávací studie vytvořeného systému a uživatelského hodnocení s reálnými hodnotiteli. Technická zpráva je velmi dobře strukturovaná, účel i obsah jednotlivých kapitol je jasný a srozumitelný.	92
Formal preparation of a technical report	Technická zpráva je psána v anglickém jazyce na velmi dobré úrovni. Rovněž po typografické stránce ji považuji za velmi zdařilou.	94
Realisation output	Realizačním výstupem je kompletní systém pro autonomní průzkum použitelnosti webových stránek. Kromě samotných inteligentních agentů pro práci s webovými stránkami pokrývá i definici vlastností účastníků průzkumu, úloh, jejich spuštění i sběr výsledků. Systém je kvalitně implementovaný a dotažený do detailů včetně snadného nasazení v praxi. Dalším výsledkem je pak studie srovnávající průzkum s umělými agenty s průzkumem provedeným s reálnými účastníky z pohledu zjištěných výsledků, času i finančních nákladů.	95
Usability of results	Výsledek představuje prakticky použitelný základ systému pro hodnocení použitelnosti webových stránek, který podle mého názoru nemá dosud obdobu v existujících dostupných nástrojích.
The extent to which the requirements of the assignment have been met	Evaluation level: assignment fulfilled Zadání bylo splněno ve všech bodech.
Extent of the technical report	Evaluation level: exceeds the usual extent Technická zpráva svým rozsahem přesahuje rozmezí obvyklé pro bakalářskou práci, což odpovídá náročnějšímu zadání. Všechny části jsou opodstatněné a relevantní k řešenému tématu.
Work with literature	Seznam použité literatury je velmi rozsáhlý, všechny zdroje jsou aktuální, relevantní k dané problematice a jsou řádně citovány. Výběr zdrojů odráží šíři zaměření práce od modelování chování a uživatelské testování až po praktickou implementaci agentů.	95

Topics for thesis defence:

Mohl byste ukázat konkrétní příklad nebo příklady výstupu plánovacího agenta a postup jeho dalšího zpracování?
Mohl by být případně plánovací agent nahrazen univerzálním agentem typu Claude Code a pokud ano, jakým způsobem?

Points proposed by reviewer: 95

Grade proposed by reviewer: A

Responsibility: Mgr. et Mgr. Hana Odstrčilová

VUT

Faculties and university institutes

Parts

AI Agent-based Website Evaluation