Bachelor's Thesis

Answer Prediction in Questionnaire Surveys using Machine Learning

Author of thesis: Juraj Štibrány

Acad. year: 2025/2026

Abstract:

This thesis addresses answer prediction of virtual respondents in questionnaire-based surveys using large language models and machine learning methods. The work was carried out in collaboration with Lakmoos AI, s.r.o., which uses synthetic respondents in market research. The thesis analyzes the existing system and identifies its main limitations, including excessive context, imprecise routing of profile information, and insufficient specialization for question types. Based on this analysis, a new system was designed, implemented and experimentally validated. It consists of a hybrid routing mechanism for profile sections, specialized processing of single-choice, multiple-choice, and open-ended questions, and an extended evaluation framework. The results demonstrate improved prediction quality, with hybrid routing increasing the micro F1 from 64.33% to 92.14% on the evaluation set while reducing the average number of selected sections from 8.15 to 5.04. Across the main production-oriented evaluations, phi-4 with the best specialized prompts emerged as the most suitable candidate for local deployment and outperformed the previous tuned Mistral 24B baseline with a generic prompt on multiple benchmarks. The thesis shows that the strongest gains came from improvements in system architecture, more accurate context selection and task-specific prompt design.

Keywords:

large language models, survey answer prediction, hybrid context routing, semantic relevance modeling, persona-conditioned inference, prompt engineering, constrained output generation, synthetic dataset generation, LLM evaluation

Date of defence

17.06.2026

Date of publish

16.06.2031

Result of the defence

Defended (thesis was successfully defended)

znamkaAznamka

Grading

Process of defence

Student nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta a na další otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm A.

Topics for thesis defence

Výsledky na benchmarku World Values Survey jsou výrazně nižší (~50 %) než na produkčních datech Lakmoos (~90 %). Je toto snížení způsobeno tím, že reální lidé jsou méně předvídatelní, nebo je Váš systém „přetrénován" na styl a strukturu profilů používaných ve firmě Lakmoos?
Jaká je motivace Vaší práce? Čeho se má dosáhnout?
Můžete okomentovat prezentovanou tabulku?
Jakým způsobem probíhalo vyhodnocení?

Language of thesis

English

Faculty

Fakulta informačních technologií

Department

Department of Information Systems

Study programme

Information Technology (BIT)

Composition of Committee

doc. Ing. František Zbořil, CSc. (předseda)
doc. Ing. Michal Španěl, Ph.D. (místopředseda)
Ing. Jan Pluskal, Ph.D. (člen)
Ing. Aleš Smrčka, Ph.D. (člen)
Ing. Josef Strnadel, Ph.D. (člen)

Supervisor’s report
Ing. Radek Hranický, Ph.D.

Bakalářskou práci hodnotím jako výbornou. Student byl nadprůměrně aktivní, při řešení postupoval systematicky a samostatně. Odvedl, dle mého názoru, značný kus poctivé práce, především rozsáhlé experimenty s velkým množstvím různých jazykových modelů. Získané poznatky zároveň detailně zdokumentoval v kvalitně zpracované technické zprávě.

Pozitivně hodnotím také to, že realizační výstup již byl integrován do podnikového řešení společnosti Lakmoos, tzn. již je používán v praxi.

Evaluation criteria	Verbal classification
Informace k zadání	Jedná se o firemní zadání pro společnost Lakmoos AI. Zadání považuji za splněné v celém rozsahu.
Práce s literaturou	Student využil doporučené literatury a další relevantní zdroje si samostatně dohledal.
Aktivita během řešení, konzultace, komunikace	Aktivitu studenta hodnotím jako vysoce nadprůměrnou. Pan Štibrány byl velmi samostatný a průběžně přicházel s novými vlastními nápady, které za konzultace se mnou realizoval. Zároveň také sám poskytl užitečné rady jiným studentům s tématický příbuzným zadáním, což jako vedoucí oceňuji. Značnou část implementační práce měl hotovu již v zimním semestru. Na schůzky docházel vždy dobře připraven a dohodnuté termíny plnil bez problémů.
Aktivita při dokončování	Práce byla dokončena ve výrazném předstihu před odevzdáním. Mé připomínky student do finální verze zapracoval.
Publikační činnost, ocenění	Výsledky práce mají, dle mého názoru, publikační potenciál. Zdrojové kódy díla zveřejněny nebyly z důvodu zachování soukromí firemního know-how společnosti Lakmoos.

Points proposed by supervisor: 95

Grade proposed by supervisor: A

Reviewer’s report
Ing. Jiří Hynek, Ph.D.

Bakalářská práce je kvalitní jak po teoretické, tak po praktické stránce. Oceňuji, že se student rozhodl psát práci v anglickém jazyce. Dosažené výsledky budou dále využity v nástroji firmy Lakmoos AI. Navrhuji hodnocení stupněm A.

Evaluation criteria	Verbal classification	Points
Náročnost zadání	Evaluation level: obtížnější zadání Práce vznikla ve spolupráci se společností Lakmoos AI, která využívá syntetické respondenty v oblasti průzkumu trhu. Cílem práce bylo analyzovat a vylepšit stávající systém pro predikci odpovědí virtuálních respondentů v dotazníkových průzkumech s využitím velkých jazykových modelů. Student navrhl novou modulární architekturu zahrnující hybridní směrovač dat a specializované zpracování pro různé typy otázek. Součástí práce bylo i vytvoření robustního hodnotícího rámce a testování systému na reálných i syntetických datech. Student se musel seznámit s velkými jazykovými modely (phi-4, GPT-4o, Mistral 24B), knihovnou sentence-transformers, frameworkem vLLM, rozhraním Azure OpenAI a technikami prompt engineeringu. Práce byla psána v anglickém jazyce. Zadání hodnotím jako obtížnější. Považuji ho za splněné.
Prezentační úroveň technické zprávy	Kapitoly na sebe logicky navazují. Některé části jsou stručnější, nicméně dostačující.	90
Formální úprava technické zprávy	Po jazykové i typografické stránce je práce kvalitní. Student zmiňuje využití nástrojů Grammarly a DeepL. Oceňuji, že se student rozhodl psát práci v anglickém jazyce. Vytkl bych, že uveené vzorce nejsou číslovány.	90
Realizační výstup	Výstupy práce působí dobrým dojmem. Student navrhl hybridní směrovací mechanismus kombinující sémantické modelování relevance s uvažováním LLM, predikci specializovanou dle typu otázky (jednovýběrové, vícevýběrové, otevřené) a evaluační pipeline umožňující transparentní srovnání přístupů včetně negativních výsledků.	95
Využitelnost výsledků	Dosažené výsledky rozšíří jádro nástroje vyvíjeného firmou Lakmoos AI.
Rozsah splnění požadavků zadání	Evaluation level: zadání splněno
Rozsah technické zprávy	Evaluation level: je v obvyklém rozmezí
Práce s literaturou	Práce s literaturou je na dobré úrovni. Student citoval dostatečné množství odborných zdrojů z oblasti umělé inteligence, strojového učení a zpracování přirozeného jazyka, včetně relevantních studií o velkých jazykových modelech a jejich aplikacích v simulaci lidského chování.	90

Topics for thesis defence:

Výsledky na benchmarku World Values Survey jsou výrazně nižší (~50 %) než na produkčních datech Lakmoos (~90 %). Je toto snížení způsobeno tím, že reální lidé jsou méně předvídatelní, nebo je Váš systém „přetrénován" na styl a strukturu profilů používaných ve firmě Lakmoos?

Points proposed by reviewer: 92

Grade proposed by reviewer: A

Reasons for publication postponement

Publication of the final thesis has been postponed in compliance with the provisions of Section 47b (4) of Act No. 111/1998 Coll., on the Higher Education Institutions and on amendments and supplements to other acts, as amended.

Responsibility: Mgr. et Mgr. Hana Odstrčilová

VUT

Faculties and university institutes

Parts

Answer Prediction in Questionnaire Surveys using Machine Learning