Bachelor's Thesis

AI Agent-based Website Evaluation

Final Thesis 3.44 MB

Author of thesis: Roman Poliačik

Acad. year: 2025/2026

Supervisor: Ing. Radek Hranický, Ph.D.

Reviewer: doc. Ing. Radek Burget, Ph.D.

Abstract:

This thesis addresses the limitations of current website usability evaluation methods, which either rely on expensive human participants or scripted automation that cannot simulate real user behavior. The only existing persona-driven agentic approach for website evaluation, UXAgent, compromises realism by giving agents access to the underlying HTML, information real users never have. This thesis presents APEX-UX (Autonomous Persona Evaluation eXpert for UX), the first vision-only persona-driven system for website usability evaluation, where agents perceive websites exclusively through vision using a two-agent architecture that separates planning from visual grounding. Two studies validated the system. The first confirmed it can autonomously conduct usability evaluations, the second compared it against five real participants, with both groups independently identifying the same usability issues and producing closely matching behavioral metrics and usability scores. The agent evaluation completed in a fraction of the time and cost of the equivalent human study.

Keywords:

website usability, UX evaluation, AI agents, personas, multimodal models, vision-based web navigation, UI grounding.

Date of defence

17.06.2026

Result of the defence

Defended (thesis was successfully defended)

znamkaAznamka

Grading

A

Process of defence

Student nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta a na další otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm A.

Topics for thesis defence

  1. Mohl byste ukázat konkrétní příklad nebo příklady výstupu plánovacího agenta a postup jeho dalšího zpracování?
  2. Mohl by být případně plánovací agent nahrazen univerzálním agentem typu Claude Code a pokud ano, jakým způsobem?

Language of thesis

English

Faculty

Department

Study programme

Information Technology (BIT)

Composition of Committee

prof. Ing. Martin Čadík, Ph.D. (předseda)
doc. Ing. Ondřej Ryšavý, Ph.D. (místopředseda)
Ing. Marcela Zachariášová, Ph.D. (člen)
Ing. Tomáš Goldmann, Ph.D. (člen)
Ing. Vojtěch Havlena, Ph.D. (člen)

Supervisor’s report
Ing. Radek Hranický, Ph.D.

Z mého pohledu se jedná o perfektně zpracovanou bakalářskou práci, která navíc obsahuje rozšíření (webovou aplikaci) nad rámec zadání. Student byl nadprůměrně aktivní a dílo dokončil v předstihu před odevzdáním.

Evaluation criteria Verbal classification
Informace k zadání

Práce souvisí s podávaným projektem MPO AXEL (Lakmoos AI + FIT). Zadání bylo splněno v celém rozsahu. Nad rámec implementovaného agenta student vytvořil webovou aplikaci s přívětivým GUI pro jeho ovládání.

Práce s literaturou

Student využil doporučené literatury a další relevantní zdroje si samostatně dohledal.

Aktivita během řešení, konzultace, komunikace

Aktivita studenta byla příkladná. Na konzultace docházel vždy připraven a dohodnuté termíny plnil typicky v předstihu.

Aktivita při dokončování

Student práci dokončil v předstihu před odevzdáním, předložil mi ji ke kontrole a mé připomínky následně zapracoval.

Publikační činnost, ocenění
Points proposed by supervisor: 95

Grade proposed by supervisor: A

Reviewer’s report
doc. Ing. Radek Burget, Ph.D.

Student prostudoval související problematiku do značné šíře a navrhl a implementoval propracovaný systém využívající agenty umělé inteligence pro vedení průzkumů použitelnosti webových stránek. Systém je kvalitně navržený a implementovaný a jeho experimentální ověření je také kvalitně zpracované. Podle mého názoru by výsledek velmi dobře obstál i jako diplomová práce. Proto navrhuji hodnotit stupněm A.

Evaluation criteria Verbal classification Points
Náročnost zadání

Evaluation level: obtížnější zadání

Zadání předpokládá nejen studium a praktické využití nejnovějších jazykových a multimodálních modelů, ale také studium rozsáhlé problematiky použitelnosti webů a jejího vyhodnocení a v neposlední řadě implementaci poměrně rozsáhlé aplikace. Zadání proto hodnotím jako poměrně obtížné.

Prezentační úroveň technické zprávy

Práce v teoretické části pokrývá jak samotnou problematiku testování použitelnosti webových stránek, tak i současný stav v souvisejících oblastech umělé inteligence. Dále je velmi podrobně rozpracován návrh agentního systému pro vyhodnocení použitelnosti a jeho implementace. Velmi kladně rovněž hodnotím provedené experimentální vyhodnocení včetně podrobné srovnávací studie vytvořeného systému a uživatelského hodnocení s reálnými hodnotiteli. Technická zpráva je velmi dobře strukturovaná, účel i obsah jednotlivých kapitol je jasný a srozumitelný.

92
Formální úprava technické zprávy

Technická zpráva je psána v anglickém jazyce na velmi dobré úrovni. Rovněž po typografické stránce ji považuji za velmi zdařilou.

94
Realizační výstup

Realizačním výstupem je kompletní systém pro autonomní průzkum použitelnosti webových stránek. Kromě samotných inteligentních agentů pro práci s webovými stránkami pokrývá i definici vlastností účastníků průzkumu, úloh, jejich spuštění i sběr výsledků. Systém je kvalitně implementovaný a dotažený do detailů včetně snadného nasazení v praxi. Dalším výsledkem je pak studie srovnávající průzkum s umělými agenty s průzkumem provedeným s reálnými účastníky z pohledu zjištěných výsledků, času i finančních nákladů.

95
Využitelnost výsledků

Výsledek představuje prakticky použitelný základ systému pro hodnocení použitelnosti webových stránek, který podle mého názoru nemá dosud obdobu v existujících dostupných nástrojích.

Rozsah splnění požadavků zadání

Evaluation level: zadání splněno

Zadání bylo splněno ve všech bodech.

Rozsah technické zprávy

Evaluation level: přesahuje obvyklé rozmezí

Technická zpráva svým rozsahem přesahuje rozmezí obvyklé pro bakalářskou práci, což odpovídá náročnějšímu zadání. Všechny části jsou opodstatněné a relevantní k řešenému tématu.

Práce s literaturou

Seznam použité literatury je velmi rozsáhlý, všechny zdroje jsou aktuální, relevantní k dané problematice a jsou řádně citovány. Výběr zdrojů odráží šíři zaměření práce od modelování chování a uživatelské testování až po praktickou implementaci agentů.

95
Topics for thesis defence:
  1. Mohl byste ukázat konkrétní příklad nebo příklady výstupu plánovacího agenta a postup jeho dalšího zpracování?
  2. Mohl by být případně plánovací agent nahrazen univerzálním agentem typu Claude Code a pokud ano, jakým způsobem?
Points proposed by reviewer: 95

Grade proposed by reviewer: A

Responsibility: Mgr. et Mgr. Hana Odstrčilová