Master's Thesis

Prediction of the Effect of Mutations on Protein Stability

Final Thesis 3.07 MB

Author of thesis: Ing. Jakub Vlk

Acad. year: 2025/2026

Supervisor: Ing. Miloš Musil, Ph.D.

Reviewer: doc. Ing. Tomáš Martínek, Ph.D.

Abstract:

This Master's thesis focuses on developing and evaluating deep learning models for predicting the impact of point mutations on protein stability. The goal was to create a robust predictor based on protein language models (PLMs), specifically the ProtBERT and ESM-2 architectures. For training, a comprehensive dataset was constructed by merging experimental data, containing a total of 864,033 mutation records. The results showed that the model using ProtBERT, due to its inherent ability to process paired sequences, achieved better predictive performance than models based on ESM-2 on independent benchmark datasets. The work thus confirms that fine‑tuning suitable PLMs is an effective strategy for this bioinformatics task.

Keywords:

protein stability prediction, mutation effect, protein language models (PLMs), machine learning, deep learning, transformers, bioinformatics, ProtBERT, Evolutionary Scale Modeling (ESM), tokenization, embedding, attention mechanism, fine-tuning, dataset preprocessing, CATH classification, computational biology, deep mutational scanning (DMS)

Date of defence

23.06.2026

Result of the defence

Defended (thesis was successfully defended)

znamkaAznamka

Grading

A

Process of defence

Student nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta a na další otázky přítomných, např. ohledně komplikací při klasifikaci proteinů či vliv mutací na stabilitu. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm A - výborně.

Topics for thesis defence

  1. U modelu ESM-2 jste se potýkal s chybějícím tokenem pro oddělení sekvencí (SEP) a řešil jste to resetováním pozičního kódování. Jaké alternativní přístupy k fúzi informací z původní a zmutované sekvence jste zvažoval?
  2. ProtBERT překonal ESM-2 díky tomu, že byl předtrénován na úkol predikce následující věty (Next Sentence Prediction). Myslíte si, že by pro predikci stability bylo výhodnější modely od základu pře-trénovat na specifických bioinformatických úlohách, nebo je fine-tuning (přeučování) univerzálních jazykových modelů dlouhodobě lepší cesta?
  3. Vaše práce se zaměřuje na bodové mutace. Jak by se vaše řešení chovalo v případě vícenásobných mutací? Vyžadovalo by to změnu architektury?

Language of thesis

English

Faculty

Department

Study programme

Information Technology and Artificial Intelligence (MITAI)

Specialization

Bioinformatics and Biocomputing (NBIO)

Composition of Committee

doc. Ing. Petr Matoušek, Ph.D., M.A. (předseda)
doc. Ing. Tomáš Martínek, Ph.D. (místopředseda)
Ing. Zbyněk Křivka, Ph.D. (člen)
Ing. Ivana Burgetová, Ph.D. (člen)
Ing. Matěj Grégr, Ph.D. (člen)
Ing. Šárka Květoňová, Ph.D. (člen)

Supervisor’s report
Ing. Miloš Musil, Ph.D.

Práce splnila má očekávání a její výsledky byly prezentovány na konferenci Excel@FIT. S ohledem na obtížnost zadání a aktivní přístup studenta k řešení projektu po celý rok hodnotím z pohledu vedoucího práci stupněm A (90 b).

Evaluation criteria Verbal classification
Informace k zadání

Jedná se o náročnější zadání, jelikož si student musel nastudovat nejenom problematiku velkých jazykových modelů, ale i biologickou podstatu řešeného problému. Zadání práce, vypracované ve spolupráci s Loschmidtovými laboratořemi, bylo splněno, přičemž dosažené výsledky odpovídají očekávání.

Aktivita při dokončování

Práce byla dokončena v dostatečném předstihu. Měl jsem tedy příležitost si práci přečíst a mé komentáře byly zapracovány.

Publikační činnost, ocenění

Práce byla prezentována na konferenci Excel@FIT.

Práce s literaturou

Student obdržel základní studijní materiály. Ostatní zdroje si dohledával sám.

Aktivita během řešení, konzultace, komunikace

Student byl aktivní po celý čas roku a výsledky práce byly v pravidelných intervalech konzultovány.

Points proposed by supervisor: 90

Grade proposed by supervisor: A

Jedná se o velmi zdařilou diplomovou práci. Student zde prokázal rozsáhlé znalosti a zkušenosti v oblasti jazykových modelů a technik pro jejich rozšiřování na úlohu predikce vlivu mutace na stabilitu proteinu. Současně po metodické stránce je práce velmi dobře zpracovaná, včetně kvalitní přípravy datové sady a promyšleného experimentálního designu. To vše pak bylo implementováno pro prostředí superpočítače LUMI a Metacentra. S ohledem na tyto skutečnosti a obtížnější zadání navrhuji hodnocení stupněm výborně (A) a doporučuji komisi zvážit případná další ocenění této práce.

Evaluation criteria Verbal classification Points
Rozsah splnění požadavků zadání

Evaluation level: zadání splněno

Zadání bylo splněno ve všech bodech.

Rozsah technické zprávy

Evaluation level: je v obvyklém rozmezí

Rozsah technické zprávy je v obvyklém rozmezí. Teoretická i praktická část technické zprávy jsou vyvážené a informačně bohaté.

Prezentační úroveň technické zprávy

Struktura technické zprávy je v pořádku a jednotlivé části na sebe logicky navazují. Samotný text jednotlivých kapitol je pro čtenáře velice dobře čitelný a snadno pochopitelný.

98
Formální úprava technické zprávy

Po typografické stránce je text na velmi vysoké úrovni. Podobně, po jazykové stránce není co vytknout. Práce je navíc psaná v anglickém jazyce.

95
Práce s literaturou

Práce s literaturou je na velmi vysoké úrovni. Autor vybírá z kvalitních publikací z oblasti molekulární biologie, predikce vlivu mutace na stabilitu proteinu a strojového učení. Všechny převzaté prvky jsou v textu řádně odlišeny a odděleny od vlastního přínosu.

100
Realizační výstup

Výstupem práce je sada skriptů pro přípravu datové sady. Dále pak kódy rozšiřující vybrané jazykové modely o predikci vlivu mutace na stabilitu proteinu. V neposlední řadě pak sada skriptů pro ohodnocení modelů na připravených datových sadách v prostředí superpočítače LUMI a Metacentra. Tyto kódy jsou plně funkční a vhodně strukturovány/komentovány. Po metodické stránce je práce zpracována velmi precizně, ať už se jedná o přípravu datové sady s ohledem na "únik dat" nebo samotné rozšíření a ohodnocení jazykových modelu.

95
Využitelnost výsledků

Vytvořená práce je experimentálního charakteru a rozšiřuje již publikované výsledky o nové poznatky z oblasti aplikace jazykových modelů na úlohu predikce vlivu mutace na stabilitu proteinu. Přestože se nepodařilo překonat nejlepší metody v této oblasti, přináší práce zajímavá zjištění a má potenciál pro další zlepšování do budoucna. 

Náročnost zadání

Evaluation level: obtížnější zadání

Student měl za úkol připravit novou datovou sadu pro trénování modelů zaměřených na predikci vlivu mutace na stabilitu proteinu. Následně bylo potřeba prozkoumat existující jazykové modely pro práci s proteinovými sekvencemi (pLM) a tyto modely vhodným způsobem upravit/dotrénovat pro účely úlohy predikce vlivu mutace na stabilitu proteinu. Zadání považuji za obtížnější, jelikož bylo nutné se seznámit s poměrně náročnou problematikou jazykových modelů a technikami jejich přetrénování. Současně bylo nutné veškeré experimenty s modely implementovat v rámci prostředí superpočítače (LUMI) nebo gridové výpočetní platformy (Metacentrum).

Topics for thesis defence:
  1. U modelu ESM-2 jste se potýkal s chybějícím tokenem pro oddělení sekvencí (SEP) a řešil jste to resetováním pozičního kódování. Jaké alternativní přístupy k fúzi informací z původní a zmutované sekvence jste zvažoval?
  2. ProtBERT překonal ESM-2 díky tomu, že byl předtrénován na úkol predikce následující věty (Next Sentence Prediction). Myslíte si, že by pro predikci stability bylo výhodnější modely od základu pře-trénovat na specifických bioinformatických úlohách, nebo je fine-tuning (přeučování) univerzálních jazykových modelů dlouhodobě lepší cesta?
  3. Vaše práce se zaměřuje na bodové mutace. Jak by se vaše řešení chovalo v případě vícenásobných mutací? Vyžadovalo by to změnu architektury?
Points proposed by reviewer: 95

Grade proposed by reviewer: A

Responsibility: Mgr. et Mgr. Hana Odstrčilová