Master's Thesis

Prediction of the Effect of Mutations on Protein Stability

Author of thesis: Ing. Jakub Vlk

Acad. year: 2025/2026

Reviewer: doc. Ing. Tomáš Martínek, Ph.D.

Abstract:

This Master's thesis focuses on developing and evaluating deep learning models for predicting the impact of point mutations on protein stability. The goal was to create a robust predictor based on protein language models (PLMs), specifically the ProtBERT and ESM-2 architectures. For training, a comprehensive dataset was constructed by merging experimental data, containing a total of 864,033 mutation records. The results showed that the model using ProtBERT, due to its inherent ability to process paired sequences, achieved better predictive performance than models based on ESM-2 on independent benchmark datasets. The work thus confirms that fine‑tuning suitable PLMs is an effective strategy for this bioinformatics task.

Keywords:

protein stability prediction, mutation effect, protein language models (PLMs), machine learning, deep learning, transformers, bioinformatics, ProtBERT, Evolutionary Scale Modeling (ESM), tokenization, embedding, attention mechanism, fine-tuning, dataset preprocessing, CATH classification, computational biology, deep mutational scanning (DMS)

Date of defence

23.06.2026

Result of the defence

Defended (thesis was successfully defended)

znamkaAznamka

Grading

Process of defence

Student nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta a na další otázky přítomných, např. ohledně komplikací při klasifikaci proteinů či vliv mutací na stabilitu. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm A - výborně.

Topics for thesis defence

U modelu ESM-2 jste se potýkal s chybějícím tokenem pro oddělení sekvencí (SEP) a řešil jste to resetováním pozičního kódování. Jaké alternativní přístupy k fúzi informací z původní a zmutované sekvence jste zvažoval?
ProtBERT překonal ESM-2 díky tomu, že byl předtrénován na úkol predikce následující věty (Next Sentence Prediction). Myslíte si, že by pro predikci stability bylo výhodnější modely od základu pře-trénovat na specifických bioinformatických úlohách, nebo je fine-tuning (přeučování) univerzálních jazykových modelů dlouhodobě lepší cesta?
Vaše práce se zaměřuje na bodové mutace. Jak by se vaše řešení chovalo v případě vícenásobných mutací? Vyžadovalo by to změnu architektury?

Language of thesis

English

Faculty

Fakulta informačních technologií

Department

Department of Information Systems

Study programme

Information Technology and Artificial Intelligence (MITAI)

Specialization

Bioinformatics and Biocomputing (NBIO)

Composition of Committee

doc. Ing. Petr Matoušek, Ph.D., M.A. (předseda)
doc. Ing. Tomáš Martínek, Ph.D. (místopředseda)
Ing. Zbyněk Křivka, Ph.D. (člen)
Ing. Ivana Burgetová, Ph.D. (člen)
Ing. Matěj Grégr, Ph.D. (člen)
Ing. Šárka Květoňová, Ph.D. (člen)

Supervisor’s report
Ing. Miloš Musil, Ph.D.

Práce splnila má očekávání a její výsledky byly prezentovány na konferenci Excel@FIT. S ohledem na obtížnost zadání a aktivní přístup studenta k řešení projektu po celý rok hodnotím z pohledu vedoucího práci stupněm A (90 b).

Evaluation criteria	Verbal classification
Informace k zadání	Jedná se o náročnější zadání, jelikož si student musel nastudovat nejenom problematiku velkých jazykových modelů, ale i biologickou podstatu řešeného problému. Zadání práce, vypracované ve spolupráci s Loschmidtovými laboratořemi, bylo splněno, přičemž dosažené výsledky odpovídají očekávání.
Aktivita při dokončování	Práce byla dokončena v dostatečném předstihu. Měl jsem tedy příležitost si práci přečíst a mé komentáře byly zapracovány.
Publikační činnost, ocenění	Práce byla prezentována na konferenci Excel@FIT.
Práce s literaturou	Student obdržel základní studijní materiály. Ostatní zdroje si dohledával sám.
Aktivita během řešení, konzultace, komunikace	Student byl aktivní po celý čas roku a výsledky práce byly v pravidelných intervalech konzultovány.

Points proposed by supervisor: 90

Grade proposed by supervisor: A

Reviewer’s report
doc. Ing. Tomáš Martínek, Ph.D.

Jedná se o velmi zdařilou diplomovou práci. Student zde prokázal rozsáhlé znalosti a zkušenosti v oblasti jazykových modelů a technik pro jejich rozšiřování na úlohu predikce vlivu mutace na stabilitu proteinu. Současně po metodické stránce je práce velmi dobře zpracovaná, včetně kvalitní přípravy datové sady a promyšleného experimentálního designu. To vše pak bylo implementováno pro prostředí superpočítače LUMI a Metacentra. S ohledem na tyto skutečnosti a obtížnější zadání navrhuji hodnocení stupněm výborně (A) a doporučuji komisi zvážit případná další ocenění této práce.

Evaluation criteria	Verbal classification	Points
Rozsah splnění požadavků zadání	Evaluation level: zadání splněno Zadání bylo splněno ve všech bodech.
Rozsah technické zprávy	Evaluation level: je v obvyklém rozmezí Rozsah technické zprávy je v obvyklém rozmezí. Teoretická i praktická část technické zprávy jsou vyvážené a informačně bohaté.
Prezentační úroveň technické zprávy	Struktura technické zprávy je v pořádku a jednotlivé části na sebe logicky navazují. Samotný text jednotlivých kapitol je pro čtenáře velice dobře čitelný a snadno pochopitelný.	98
Formální úprava technické zprávy	Po typografické stránce je text na velmi vysoké úrovni. Podobně, po jazykové stránce není co vytknout. Práce je navíc psaná v anglickém jazyce.	95
Práce s literaturou	Práce s literaturou je na velmi vysoké úrovni. Autor vybírá z kvalitních publikací z oblasti molekulární biologie, predikce vlivu mutace na stabilitu proteinu a strojového učení. Všechny převzaté prvky jsou v textu řádně odlišeny a odděleny od vlastního přínosu.	100
Realizační výstup	Výstupem práce je sada skriptů pro přípravu datové sady. Dále pak kódy rozšiřující vybrané jazykové modely o predikci vlivu mutace na stabilitu proteinu. V neposlední řadě pak sada skriptů pro ohodnocení modelů na připravených datových sadách v prostředí superpočítače LUMI a Metacentra. Tyto kódy jsou plně funkční a vhodně strukturovány/komentovány. Po metodické stránce je práce zpracována velmi precizně, ať už se jedná o přípravu datové sady s ohledem na "únik dat" nebo samotné rozšíření a ohodnocení jazykových modelu.	95
Využitelnost výsledků	Vytvořená práce je experimentálního charakteru a rozšiřuje již publikované výsledky o nové poznatky z oblasti aplikace jazykových modelů na úlohu predikce vlivu mutace na stabilitu proteinu. Přestože se nepodařilo překonat nejlepší metody v této oblasti, přináší práce zajímavá zjištění a má potenciál pro další zlepšování do budoucna.
Náročnost zadání	Evaluation level: obtížnější zadání Student měl za úkol připravit novou datovou sadu pro trénování modelů zaměřených na predikci vlivu mutace na stabilitu proteinu. Následně bylo potřeba prozkoumat existující jazykové modely pro práci s proteinovými sekvencemi (pLM) a tyto modely vhodným způsobem upravit/dotrénovat pro účely úlohy predikce vlivu mutace na stabilitu proteinu. Zadání považuji za obtížnější, jelikož bylo nutné se seznámit s poměrně náročnou problematikou jazykových modelů a technikami jejich přetrénování. Současně bylo nutné veškeré experimenty s modely implementovat v rámci prostředí superpočítače (LUMI) nebo gridové výpočetní platformy (Metacentrum).

Topics for thesis defence:

U modelu ESM-2 jste se potýkal s chybějícím tokenem pro oddělení sekvencí (SEP) a řešil jste to resetováním pozičního kódování. Jaké alternativní přístupy k fúzi informací z původní a zmutované sekvence jste zvažoval?
ProtBERT překonal ESM-2 díky tomu, že byl předtrénován na úkol predikce následující věty (Next Sentence Prediction). Myslíte si, že by pro predikci stability bylo výhodnější modely od základu pře-trénovat na specifických bioinformatických úlohách, nebo je fine-tuning (přeučování) univerzálních jazykových modelů dlouhodobě lepší cesta?
Vaše práce se zaměřuje na bodové mutace. Jak by se vaše řešení chovalo v případě vícenásobných mutací? Vyžadovalo by to změnu architektury?

Points proposed by reviewer: 95

Grade proposed by reviewer: A

Responsibility: Mgr. et Mgr. Hana Odstrčilová

VUT

Faculties and university institutes

Parts

Prediction of the Effect of Mutations on Protein Stability