Bachelor's Thesis

Categorizing Questionnaire Responses using Machine Learning

Final Thesis 1.01 MB

Author of thesis: Martin Okrucký

Acad. year: 2025/2026

Supervisor: Ing. Radek Hranický, Ph.D.

Reviewer: Ing. Ivana Burgetová, Ph.D.

Abstract:

This Bachelor's thesis addresses the problem of automatic categorization of synthetically generated open-ended questionnaire responses in the Lakmoos AI environment, where simple one-shot clustering cannot reliably capture their semantic structure. The goal of the thesis is to design a robust approach suitable for quantitative research, capable of processing longer textual responses under limited computational resources while still providing interpretable results. The thesis examines existing text-clustering methods. It also presents the design and implementation of the experimental framework ClusteringTester and the adaptive algorithm lakmoos_iterative_v3. The algorithm iteratively compares K-Means and HDBSCAN over semantic embeddings, optimizes parameters, and evaluates candidate solutions using multiple metrics. Experiments showed that the proposed method achieved an average agreement with reference labels of 86.55%, outperforming the strongest baseline and the previous Lakmoos implementation. The contribution of the thesis is a practically usable solution that improves the quality, stability, and interpretability of automated questionnaire-response processing.

Keywords:

clustering, quantitative research analysis, open-ended question categorization, topic discovery, HDBSCAN, K-Means, adaptive clustering

Date of defence

16.06.2026

Result of the defence

Defended (thesis was successfully defended)

znamkaCznamka

Grading

C

Process of defence

Student nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta a na další otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm C.

Topics for thesis defence

  1. Jak probíhá normalizace metrik použitých při výpočtu skóre dosaženého pro dané hodnoty parametrů metod HDBSCAN a k-means?
  2. Jakým způsobem jste vygeneroval teplotní mapy v kapitole 7.1? Jaký je jejich hlavní přínos?

Language of thesis

English

Faculty

Department

Study programme

Information Technology (BIT)

Composition of Committee

prof. Ing. Adam Herout, Ph.D. (předseda)
doc. Ing. Michal Bidlo, Ph.D. (místopředseda)
Ing. Jaroslav Dytrych, Ph.D. (člen)
Ing. Ivana Burgetová, Ph.D. (člen)
Dr. Ing. Petr Peringer (člen)

Supervisor’s report
Ing. Radek Hranický, Ph.D.

Pan Okrucký navrhl, implementoval a experimentálně ověřil vlastní řešení pro třídění dotazníkových odpovědí s adaptivním algoritmem. Oceňuji, že při vyhodnocení nespoléhal jen na jednu metriku, ale zohlednil, že při shlukování otevřených odpovědí je potřeba zkoumat též míru šumu, štěpení, interpretovatelnost a praktickou použitelnost.


Návrh algoritmu je v kontextu práce smyslupný. Skórovací funkci pan Okrucký zvolil spíše heuristicky, přičemž přínos demonstroval na srovnání s jednoduchými "baseline" metodami a předchozím řešením společnosti Lakmoos. Rezervy však vidím v hlubším ověření samotné skladby skóre. Je škoda, že nebylo detailněji prozkoumáno, jak moc jsou jednotlivé váhy a penalizace přínosné.


Celkově jde ale o rozumně navržené a funkční řešení s praktickým potenciálem. Firma plánuje řešení otestovat v praxi a po případných úpravách zahrnout do svého podnikového řešení.


Proto práci hodnotím jako dobrou (C).

Evaluation criteria Verbal classification
Informace k zadání

Jedná se o firemní zadání pro spoječnost Lakmoos AI. Práce navazuje na praktickou potřebu firmy zlepšit automatické třídění otevřených odpovědí. Zadání považuji za splněné.

Práce s literaturou

Student využil doporučené literatury a další relevantní zdroje si samostatně dohledal.

Aktivita během řešení, konzultace, komunikace

Student byl během řešení aktivní a k finálnímu řešení postupoval iterativně. Na konzultace docházel obvykle připraven a dohodnuté termíny plnil typicky bez větších problémů. Největší výzvou v průběhu práce bylo nalezení vhodného způsobu, jak dostatečně zdůvodnit navržený adaptivní algoritmus a související skórovací funkci. Tuto část bylo potřeba průběžně diskutovat a zpřesňovat, nicméně výsledné zdůvodnění považuji za obhájitelné.

Aktivita při dokončování

I přes drobné překážky v řešení byla práce dokončena ve smluveném termínu a její obsah jsem měl možnost zkontrolovat. Mé připomínky student následně zapracoval.

Publikační činnost, ocenění
Points proposed by supervisor: 73

Grade proposed by supervisor: C

Reviewer’s report
Ing. Ivana Burgetová, Ph.D.

Předložená bakalářská práce sestává z nadprůměrného realizačního výstupu, který je dobře použitelný v praxi, a z textové zprávy, jejíž logická struktura není dobrá. Celkově proto hodnotím práci jako průměrnou.

Evaluation criteria Verbal classification Points
Náročnost zadání

Evaluation level: průměrně obtížné zadání

Prezentační úroveň technické zprávy

Prezentační úroveň technické zprávy je nejslabším bodem této bakalářské práce. Text práce jasně nepopisuje, co vše student udělal a co bylo převzato od firmy Lakmoos. Toto je v celé zprávě poněkud mlhavé a není jasné, zda firma už nějaký shlukovací algoritmus měla navržený, nebo zda jde o návrh studenta. V kapitole 7.4 je zmiňována předchozí implementace firmy Lakmoos, ale opět není jasné, čeho se tato implementace měla týkat.
Logická návaznost textu je oslabena tím, že úvody kapitol často předjímají závěry a teprve v dalších pasážích jsou doplňovány o nezbytný kontext a výchozí témata. Obrácené pořadí informací by pro čtenáře bylo mnohem srozumitelnější. Text se také občas odkazuje na předchozí verze nebo návrhy, ale z textu není vůbec jasné, jaké verze má student na mysli. V textu práce také student používá nejednotné označení tabulek/obrázků. Tabulky jsou vkládány jako obrázky, ale z textu se na ně student odkazuje jako na tabulky s daným číslem. 
Za nevhodně označené považuji to, že student uvádí, že navrhl nový kombinovaný shlukovací algoritmus. Ve finále se ale nejedná o žádnou kombinaci. Student jen aplikuje dvě různé shlukovací metody a nakonec vybírá metodu, která dává pro daná data lepší výsledky. 

62
Formální úprava technické zprávy

Jazykovou stránku práce hodnotím jako mírně podprůměrnou. I když jsou věty gramaticky správně, jsou často zbytečně dlouhé a překombinované a celý text je tak velmi těžkopádný. Po typografické stránce se jedná o standardní práci. 

72
Realizační výstup

Realizační výstup práce sestává ze dvou komponent: testovacího prostředí pro shlukování syntetických dotazníkových dat a implementace navrženého iterativního kombinovaného shlukovacího algoritmu. 
Návrh a implementaci testovacího prostředí považuji za velmi dobrou, protože umožňuje snadné přidání dalších shlukovacích metod. Implementace iterativního kombinovaného shlukovacího algoritmu je také zajímavá, i když se nejedná přímo o kombinaci použitých metod. Nicméně algoritmus se snaží najít ideální vstupní parametry metod k-means a HDBSCAN jejich postupnými úpravami.
Realizační výstup práce je plně funkční a dobře použitelný.

90
Využitelnost výsledků

Práce kombinuje kompilační část s implementací vlastního návrhu. V první části student z dostupných komponent vytvořil testovací prostředí pro shlukování syntetických dotazníkových dat. Zároveň ale implementoval vlastní návrh adaptivního hledání vhodných parametrů metod k-means a HDBSCAN, který představuje zajímavou alternativu k běžně používanému postupnému vyhledávání (grid-search) optimálních hodnot parametrů.
Vytvořené řešení je dobře využitelné v praxi a očekávám jeho využití ve firmě Lakmoos.

Rozsah splnění požadavků zadání

Evaluation level: zadání splněno

Rozsah technické zprávy

Evaluation level: je v obvyklém rozmezí

Práce s literaturou

Seznam použité literatury je dostatečně obsáhlý a pokrývá řešené téma. Vlastní výsledky jsou odlišeny od převzatých prvků, nicméně minimálně úvodní kapitola mohla určitě obsahovat více odkazů na zdroje, ze kterých student dané informace čerpal.

75
Topics for thesis defence:
  1. Jak probíhá normalizace metrik použitých při výpočtu skóre dosaženého pro dané hodnoty parametrů metod HDBSCAN a k-means?
Points proposed by reviewer: 78

Grade proposed by reviewer: C

Responsibility: Mgr. et Mgr. Hana Odstrčilová