Přístupnostní navigace
E-application
Search Search Close
Bachelor's Thesis
Author of thesis: Martin Okrucký
Acad. year: 2025/2026
Supervisor: Ing. Radek Hranický, Ph.D.
Reviewer: Ing. Ivana Burgetová, Ph.D.
This Bachelor's thesis addresses the problem of automatic categorization of synthetically generated open-ended questionnaire responses in the Lakmoos AI environment, where simple one-shot clustering cannot reliably capture their semantic structure. The goal of the thesis is to design a robust approach suitable for quantitative research, capable of processing longer textual responses under limited computational resources while still providing interpretable results. The thesis examines existing text-clustering methods. It also presents the design and implementation of the experimental framework ClusteringTester and the adaptive algorithm lakmoos_iterative_v3. The algorithm iteratively compares K-Means and HDBSCAN over semantic embeddings, optimizes parameters, and evaluates candidate solutions using multiple metrics. Experiments showed that the proposed method achieved an average agreement with reference labels of 86.55%, outperforming the strongest baseline and the previous Lakmoos implementation. The contribution of the thesis is a practically usable solution that improves the quality, stability, and interpretability of automated questionnaire-response processing.
clustering, quantitative research analysis, open-ended question categorization, topic discovery, HDBSCAN, K-Means, adaptive clustering
Date of defence
16.06.2026
Result of the defence
Defended (thesis was successfully defended)
Grading
C
Process of defence
Student nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta a na další otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm C.
Topics for thesis defence
Language of thesis
English
Faculty
Fakulta informačních technologií
Department
Department of Information Systems
Study programme
Information Technology (BIT)
Composition of Committee
prof. Ing. Adam Herout, Ph.D. (předseda) doc. Ing. Michal Bidlo, Ph.D. (místopředseda) Ing. Jaroslav Dytrych, Ph.D. (člen) Ing. Ivana Burgetová, Ph.D. (člen) Dr. Ing. Petr Peringer (člen)
Supervisor’s reportIng. Radek Hranický, Ph.D.
Pan Okrucký navrhl, implementoval a experimentálně ověřil vlastní řešení pro třídění dotazníkových odpovědí s adaptivním algoritmem. Oceňuji, že při vyhodnocení nespoléhal jen na jednu metriku, ale zohlednil, že při shlukování otevřených odpovědí je potřeba zkoumat též míru šumu, štěpení, interpretovatelnost a praktickou použitelnost.
Návrh algoritmu je v kontextu práce smyslupný. Skórovací funkci pan Okrucký zvolil spíše heuristicky, přičemž přínos demonstroval na srovnání s jednoduchými "baseline" metodami a předchozím řešením společnosti Lakmoos. Rezervy však vidím v hlubším ověření samotné skladby skóre. Je škoda, že nebylo detailněji prozkoumáno, jak moc jsou jednotlivé váhy a penalizace přínosné.
Celkově jde ale o rozumně navržené a funkční řešení s praktickým potenciálem. Firma plánuje řešení otestovat v praxi a po případných úpravách zahrnout do svého podnikového řešení.
Proto práci hodnotím jako dobrou (C).
Jedná se o firemní zadání pro spoječnost Lakmoos AI. Práce navazuje na praktickou potřebu firmy zlepšit automatické třídění otevřených odpovědí. Zadání považuji za splněné.
Student využil doporučené literatury a další relevantní zdroje si samostatně dohledal.
Student byl během řešení aktivní a k finálnímu řešení postupoval iterativně. Na konzultace docházel obvykle připraven a dohodnuté termíny plnil typicky bez větších problémů. Největší výzvou v průběhu práce bylo nalezení vhodného způsobu, jak dostatečně zdůvodnit navržený adaptivní algoritmus a související skórovací funkci. Tuto část bylo potřeba průběžně diskutovat a zpřesňovat, nicméně výsledné zdůvodnění považuji za obhájitelné.
I přes drobné překážky v řešení byla práce dokončena ve smluveném termínu a její obsah jsem měl možnost zkontrolovat. Mé připomínky student následně zapracoval.
Grade proposed by supervisor: C
Reviewer’s reportIng. Ivana Burgetová, Ph.D.
Předložená bakalářská práce sestává z nadprůměrného realizačního výstupu, který je dobře použitelný v praxi, a z textové zprávy, jejíž logická struktura není dobrá. Celkově proto hodnotím práci jako průměrnou.
Evaluation level: průměrně obtížné zadání
Prezentační úroveň technické zprávy je nejslabším bodem této bakalářské práce. Text práce jasně nepopisuje, co vše student udělal a co bylo převzato od firmy Lakmoos. Toto je v celé zprávě poněkud mlhavé a není jasné, zda firma už nějaký shlukovací algoritmus měla navržený, nebo zda jde o návrh studenta. V kapitole 7.4 je zmiňována předchozí implementace firmy Lakmoos, ale opět není jasné, čeho se tato implementace měla týkat.Logická návaznost textu je oslabena tím, že úvody kapitol často předjímají závěry a teprve v dalších pasážích jsou doplňovány o nezbytný kontext a výchozí témata. Obrácené pořadí informací by pro čtenáře bylo mnohem srozumitelnější. Text se také občas odkazuje na předchozí verze nebo návrhy, ale z textu není vůbec jasné, jaké verze má student na mysli. V textu práce také student používá nejednotné označení tabulek/obrázků. Tabulky jsou vkládány jako obrázky, ale z textu se na ně student odkazuje jako na tabulky s daným číslem. Za nevhodně označené považuji to, že student uvádí, že navrhl nový kombinovaný shlukovací algoritmus. Ve finále se ale nejedná o žádnou kombinaci. Student jen aplikuje dvě různé shlukovací metody a nakonec vybírá metodu, která dává pro daná data lepší výsledky.
Jazykovou stránku práce hodnotím jako mírně podprůměrnou. I když jsou věty gramaticky správně, jsou často zbytečně dlouhé a překombinované a celý text je tak velmi těžkopádný. Po typografické stránce se jedná o standardní práci.
Realizační výstup práce sestává ze dvou komponent: testovacího prostředí pro shlukování syntetických dotazníkových dat a implementace navrženého iterativního kombinovaného shlukovacího algoritmu. Návrh a implementaci testovacího prostředí považuji za velmi dobrou, protože umožňuje snadné přidání dalších shlukovacích metod. Implementace iterativního kombinovaného shlukovacího algoritmu je také zajímavá, i když se nejedná přímo o kombinaci použitých metod. Nicméně algoritmus se snaží najít ideální vstupní parametry metod k-means a HDBSCAN jejich postupnými úpravami.Realizační výstup práce je plně funkční a dobře použitelný.
Práce kombinuje kompilační část s implementací vlastního návrhu. V první části student z dostupných komponent vytvořil testovací prostředí pro shlukování syntetických dotazníkových dat. Zároveň ale implementoval vlastní návrh adaptivního hledání vhodných parametrů metod k-means a HDBSCAN, který představuje zajímavou alternativu k běžně používanému postupnému vyhledávání (grid-search) optimálních hodnot parametrů.Vytvořené řešení je dobře využitelné v praxi a očekávám jeho využití ve firmě Lakmoos.
Evaluation level: zadání splněno
Evaluation level: je v obvyklém rozmezí
Seznam použité literatury je dostatečně obsáhlý a pokrývá řešené téma. Vlastní výsledky jsou odlišeny od převzatých prvků, nicméně minimálně úvodní kapitola mohla určitě obsahovat více odkazů na zdroje, ze kterých student dané informace čerpal.
Grade proposed by reviewer: C
Responsibility: Mgr. et Mgr. Hana Odstrčilová