Přístupnostní navigace
E-application
Search Search Close
Master's Thesis
Author of thesis: Ing. Jakub Vlk
Acad. year: 2025/2026
Supervisor: Ing. Miloš Musil, Ph.D.
Reviewer: doc. Ing. Tomáš Martínek, Ph.D.
This Master's thesis focuses on developing and evaluating deep learning models for predicting the impact of point mutations on protein stability. The goal was to create a robust predictor based on protein language models (PLMs), specifically the ProtBERT and ESM-2 architectures. For training, a comprehensive dataset was constructed by merging experimental data, containing a total of 864,033 mutation records. The results showed that the model using ProtBERT, due to its inherent ability to process paired sequences, achieved better predictive performance than models based on ESM-2 on independent benchmark datasets. The work thus confirms that fine‑tuning suitable PLMs is an effective strategy for this bioinformatics task.
protein stability prediction, mutation effect, protein language models (PLMs), machine learning, deep learning, transformers, bioinformatics, ProtBERT, Evolutionary Scale Modeling (ESM), tokenization, embedding, attention mechanism, fine-tuning, dataset preprocessing, CATH classification, computational biology, deep mutational scanning (DMS)
Date of defence
23.06.2026
Result of the defence
Defended (thesis was successfully defended)
Grading
A
Process of defence
Student nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta a na další otázky přítomných, např. ohledně komplikací při klasifikaci proteinů či vliv mutací na stabilitu. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm A - výborně.
Topics for thesis defence
Language of thesis
English
Faculty
Fakulta informačních technologií
Department
Department of Information Systems
Study programme
Information Technology and Artificial Intelligence (MITAI)
Specialization
Bioinformatics and Biocomputing (NBIO)
Composition of Committee
doc. Ing. Petr Matoušek, Ph.D., M.A. (předseda) doc. Ing. Tomáš Martínek, Ph.D. (místopředseda) Ing. Zbyněk Křivka, Ph.D. (člen) Ing. Ivana Burgetová, Ph.D. (člen) Ing. Matěj Grégr, Ph.D. (člen) Ing. Šárka Květoňová, Ph.D. (člen)
Supervisor’s reportIng. Miloš Musil, Ph.D.
Práce splnila má očekávání a její výsledky byly prezentovány na konferenci Excel@FIT. S ohledem na obtížnost zadání a aktivní přístup studenta k řešení projektu po celý rok hodnotím z pohledu vedoucího práci stupněm A (90 b).
Jedná se o náročnější zadání, jelikož si student musel nastudovat nejenom problematiku velkých jazykových modelů, ale i biologickou podstatu řešeného problému. Zadání práce, vypracované ve spolupráci s Loschmidtovými laboratořemi, bylo splněno, přičemž dosažené výsledky odpovídají očekávání.
Práce byla dokončena v dostatečném předstihu. Měl jsem tedy příležitost si práci přečíst a mé komentáře byly zapracovány.
Práce byla prezentována na konferenci Excel@FIT.
Student obdržel základní studijní materiály. Ostatní zdroje si dohledával sám.
Student byl aktivní po celý čas roku a výsledky práce byly v pravidelných intervalech konzultovány.
Grade proposed by supervisor: A
Reviewer’s reportdoc. Ing. Tomáš Martínek, Ph.D.
Jedná se o velmi zdařilou diplomovou práci. Student zde prokázal rozsáhlé znalosti a zkušenosti v oblasti jazykových modelů a technik pro jejich rozšiřování na úlohu predikce vlivu mutace na stabilitu proteinu. Současně po metodické stránce je práce velmi dobře zpracovaná, včetně kvalitní přípravy datové sady a promyšleného experimentálního designu. To vše pak bylo implementováno pro prostředí superpočítače LUMI a Metacentra. S ohledem na tyto skutečnosti a obtížnější zadání navrhuji hodnocení stupněm výborně (A) a doporučuji komisi zvážit případná další ocenění této práce.
Evaluation level: zadání splněno
Zadání bylo splněno ve všech bodech.
Evaluation level: je v obvyklém rozmezí
Rozsah technické zprávy je v obvyklém rozmezí. Teoretická i praktická část technické zprávy jsou vyvážené a informačně bohaté.
Struktura technické zprávy je v pořádku a jednotlivé části na sebe logicky navazují. Samotný text jednotlivých kapitol je pro čtenáře velice dobře čitelný a snadno pochopitelný.
Po typografické stránce je text na velmi vysoké úrovni. Podobně, po jazykové stránce není co vytknout. Práce je navíc psaná v anglickém jazyce.
Práce s literaturou je na velmi vysoké úrovni. Autor vybírá z kvalitních publikací z oblasti molekulární biologie, predikce vlivu mutace na stabilitu proteinu a strojového učení. Všechny převzaté prvky jsou v textu řádně odlišeny a odděleny od vlastního přínosu.
Výstupem práce je sada skriptů pro přípravu datové sady. Dále pak kódy rozšiřující vybrané jazykové modely o predikci vlivu mutace na stabilitu proteinu. V neposlední řadě pak sada skriptů pro ohodnocení modelů na připravených datových sadách v prostředí superpočítače LUMI a Metacentra. Tyto kódy jsou plně funkční a vhodně strukturovány/komentovány. Po metodické stránce je práce zpracována velmi precizně, ať už se jedná o přípravu datové sady s ohledem na "únik dat" nebo samotné rozšíření a ohodnocení jazykových modelu.
Vytvořená práce je experimentálního charakteru a rozšiřuje již publikované výsledky o nové poznatky z oblasti aplikace jazykových modelů na úlohu predikce vlivu mutace na stabilitu proteinu. Přestože se nepodařilo překonat nejlepší metody v této oblasti, přináší práce zajímavá zjištění a má potenciál pro další zlepšování do budoucna.
Evaluation level: obtížnější zadání
Student měl za úkol připravit novou datovou sadu pro trénování modelů zaměřených na predikci vlivu mutace na stabilitu proteinu. Následně bylo potřeba prozkoumat existující jazykové modely pro práci s proteinovými sekvencemi (pLM) a tyto modely vhodným způsobem upravit/dotrénovat pro účely úlohy predikce vlivu mutace na stabilitu proteinu. Zadání považuji za obtížnější, jelikož bylo nutné se seznámit s poměrně náročnou problematikou jazykových modelů a technikami jejich přetrénování. Současně bylo nutné veškeré experimenty s modely implementovat v rámci prostředí superpočítače (LUMI) nebo gridové výpočetní platformy (Metacentrum).
Grade proposed by reviewer: A
Responsibility: Mgr. et Mgr. Hana Odstrčilová