Přístupnostní navigace
E-application
Search Search Close
Master's Thesis
Author of thesis: Bc. Pavel Osinek
Acad. year: 2025/2026
Supervisor: Ing. Martin Hurta, Ph.D.
Reviewer: doc. Ing. Vojtěch Mrázek, Ph.D.
This master’s thesis investigates the integration of large language models (LLMs) into the genetic programming (GP) framework to overcome the limitations of both approaches when solving symbolic regression tasks. The theoretical part summarizes the fundamentals of language modeling and describes the Transformer architecture, principles of model training and adaptation, prompting techniques, and the inference process. It also briefly analyzes selected limitations of LLMs. Subsequently, the principles of evolutionary algorithms and genetic programming are introduced, including representations, with a particular emphasis on Cartesian Genetic Programming (CGP). The core part of the thesis analyzes approaches to integrating LLMs into the CGP evolutionary loop and defines the role of the model in the optimization process. In the proposed dual-island system, the model acts as an informed assistant that recommends mutation strategies based on the current evolutionary state, complementing the standard CGP. The proposed approach was evaluated on the Nguyen, Feynman and LLM-SRBench benchmarks. The results demonstrate that LLM provide a statistically significant benefit, particularly in more complex tasks where the reference CGP tends to stagnate. For instance, on the LLM-SRBench benchmark, the method achieved a 48.1 % reduction in median test error on the Physical Oscillations dataset.
Genetic Programming, Cartesian Genetic Programming, Large Language Models, LLM, Symbolic Regression, Evolutionary Algorithms, Mutation Control
Date of defence
25.06.2026
Result of the defence
Defended (thesis was successfully defended)
Grading
B
Process of defence
Student nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta a na další otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm B.
Topics for thesis defence
Language of thesis
Czech
Faculty
Fakulta informačních technologií
Department
Department of Computer Systems
Study programme
Information Technology and Artificial Intelligence (MITAI)
Specialization
Machine Learning (NMAL)
Composition of Committee
prof. Dr. Ing. Jan Černocký (předseda) prof. Ing. Hynek Heřmanský, Dr. Eng. (místopředseda) prof. RNDr. Alexandr Meduna, CSc. (člen) Ing. Michal Hradiš, Ph.D. (člen) Ing. František Grézl, Ph.D. (člen) Ing. Martin Fajčík, Ph.D. (člen)
Supervisor’s reportIng. Martin Hurta, Ph.D.
Student zadání splnil a navrhl, implementoval a experimentálně ověřil metodu kombinující kartézské genetické programování (CGP) s LLM, které je využito pro řízení mutace kandidátních řešení v úlohách symbolické regrese. S ohledem na náročnost zadání, aktivní a samostatný přístup studenta a dosažené výsledky navrhuji hodnocení stupněm A – výborně.
Cílem práce bylo nastudovat problematiku genetického programování (GP) a velkých jazykových modelů (LLM). Na základě získaných znalostí měl student navrhnout a implementovat metodu rozšiřující GP o využití LLM a tuto metodu experimentálně vyhodnotit a porovnat s referenčním řešením na zvolené sadě úloh. S ohledem na komplexitu obou oblastí a skutečnost, že jejich propojení představuje relativně novou experimentální oblast, považuji zadání za obtížnější.
Na práci student pracoval průběžně a její text byl opakovaně konzultován, včetně finální verze. Veškeré mé připomínky byly řádně zapracovány.
Publikační činnost studenta není známa.
Student samostatně vyhledával relevantní odborné zdroje, které vhodně využil při řešení práce.
Po celou dobu řešení pracoval student aktivně a samostatně a průběžně navrhoval konkrétní způsoby řešení. Konzultací se účastnil pravidelně a byl na ně vždy dobře připraven.
Grade proposed by supervisor: A
Reviewer’s reportdoc. Ing. Vojtěch Mrázek, Ph.D.
Autor ve své práci navrhl genetický algoritmus pro řešení oblasti symbolické regrese. Tento algoritmus využíval LLM (bez zpětné vazby) jako genetický operátor. Vlastní aplikace je funkční a student provedl velké množství různých experimentů (byť by některé pohledy mohly být detailnější i na chování LLM). Proto navrhuji souhrnné hodnocení stupněm B - velmi dobře.
Evaluation level: zadání splněno
Zadání považuji za splněné, student velmi dobře vyřešil všechny požadované body zadání.
Evaluation level: je v obvyklém rozmezí
Rozsah práce je v obvyklém rozmezí.
Práce je logicky členěna a obsahuje všechny důležité informace. Autor výborně rozebírá problematiku LLM i jejich využití v genetickém programování. Z mého pohledu však téma genetického programování popsal spíše izolovaně podle jednotlivých témat bez výraznějšího propojení. Celkově je však text velmi dobře koncipován a vnáší pohled na řešenou problematiku, způsob řešení i výsledky.
Práce je jazykově i typograficky na vysoké úrovni a téměř bez chyb. Výraznější chybou je jen obr. 2.2, který špatně znázorňuje rekurzi v NN (v textu je však popsána správně).
Autor čerpal z aktuální literatury, při řešení se inspiroval různými publikovanými přístupy a literatura je správně referencována.
Autor ve své práci realizoval genetické programování pro úlohu symbolické regrese. Využil dva volně dostupné jazykové modely a několik variant dotazů pro zlepšení evolučního hledání předpisu funkce. Svůj program evaluoval na benchmarkových úlohách. Implementoval několik rozšíření: ostrovní model, dodání informace o jednotkách v rámci řešení fyzikální rovnice a několik úrovní informovanosti.
Zdrojové kódy jsou dobře strukturované, drobnou výtkou může být to, že ačkoliv jsou velmi dobře dokumentované pomocí dokumentačních řetězců, dokumentace je pouze v češtině, což znesnadňuje možnost sdílení kódů s vědeckou komunitou.
Kladně hodnotím vyhodnocení různých variant dotazů na LLM. Autor se snaží přinést velké množství konfigurací tohoto LLM-řízeného genetického operátoru a vyhodnocuje úspěšnost zejména na základě konvergenčních křivek. Ocenil bych však větší vhled do toho, co LLM generovala, jestli měla tendenci vracet podobná řešení, jestli byla nějak limitována a podobně.
Samotné výsledky pro publikaci mají pár limitací (např. řešení známých benchmarkových problémů), což by před případnou publikací výsledků mělo být porovnáno. Podobně by bylo potřeba přidat i porovnání vůči nějakému standardnímu LLM-řízeného přístupu. Výsledky však mohou sloužit jako základ a po doplnění takových experimentů se může jednat o kvalitní vědecké dílo. Z pohledu implementace je tedy práce na vynikající úrovni.
Evaluation level: obtížnější zadání
Zadání hodnotím jako obtížnější, jelikož aplikace velkých jazykových modelů (LLM) do evolučních algoritmů je aktuální vědecké téma.
Grade proposed by reviewer: B
Responsibility: Mgr. et Mgr. Hana Odstrčilová