Bachelor's Thesis

Computational detection of biosynthetic gene clusters RiPP in the Antarctic bacterial genomes

Final Thesis 7.01 MB Appendix 18.67 kB

Author of thesis: Ondřej Hykl

Acad. year: 2025/2026

Supervisor: Ing. Helena Vítková, Ph.D.

Reviewer: Mohammad Umair

Abstract:

This bachelor thesis focuses on the computational detection and analysis of biosynthetic gene clusters of ribosomally synthesized and post-translationally modified peptides (RiPPs) in Antarctic bacterial genomes. A dataset of 149 draft bacterial genomes was annotated using the DFAST tool and subsequently analyzed with three genome-mining tools: the rule-based antiSMASH and the artificial intelligence–based tools DeepBGC and DeepRiPP. The outputs generated by individual tools were standardized and integrated using custom Python scripts to enable overlap-based consensus analysis and downstream clustering. antiSMASH identified 588 potential RiPP-associated regions, while DeepBGC and DeepRiPP detected 1295 and 1262 candidate regions, respectively. All detected candidate regions were further analyzed using BiG-SCAPE and compared with 329 known RiPP biosynthetic gene clusters from the MIBiG database. The results of this work provide a reproducible computational workflow for prioritizing high-confidence RiPP candidates and indicate the presence of potentially novel RiPP biosynthetic pathways in Antarctic bacteria.

Keywords:

genome mining, RiPP, biosynthetic gene clusters, antarctic bacteria, artificial intelligence, natural product discovery

Date of defence

16.06.2026

Result of the defence

Defended (thesis was successfully defended)

znamkaAznamka

Grading

A

Process of defence

Student prezentoval výsledky své práce a komise byla seznámena s posudky. Ing. Jakubíčková položila otázku, zda by bylo možné navrženou pipeline použít i pro jiné bakterie, jaká je její citlivost a zda jsou použité prahové hodnoty pevně stanovené. Dále se dotázala, zda student analyzoval i jiné klastry v síťové vizualizaci a zda by bylo možné proces jejich výběru zautomatizovat. Doc. Kudrna položil otázku, kde lze nalézt použití model. Student obhájil bakalářskou práci a odpověděl na otázky členů komise a oponenta.

Language of thesis

English

Faculty

Department

Study programme

Biomedical Technology and Bioinformatics (BPC-BTB)

Composition of Committee

doc. Ing. Petr Kudrna, Ph.D. (předseda)
Ing. Markéta Jakubíčková, Ph.D. (místopředseda)
MUDr. Zuzana Nováková, Ph.D. (člen)
Ing. Lukáš Smital, Ph.D. (člen)
Ing. Vratislav Harabiš, Ph.D. (člen)
Ing. Larisa Chmelíková, Ph.D. (člen)

Supervisor’s report
Ing. Helena Vítková, Ph.D.

Student Ondřej Hykl se ve své bakalářské práci zaměřil na aktuální problematiku výpočetní detekce nových biosyntetických genových klastrů v genomech antarktických bakterií. Vzhledem k evoluční diverzitě analyzované mikrobiální populace bylo nutné navrhnout robustní výpočetní pipeline kombinující tři nástroje založené na odlišných detekčních principech a jejich vzájemně nekompatibilní výstupy integrovat do konsenzuálního výsledku dále zpracovatelného formou podobnostních sítí. Student k řešení tohoto úkolu přistupoval velmi svědomitě, nastudoval a prakticky otestoval současné nástroje pro detekci biosyntetických genových klastrů a na základě jejich vlastností vybral vhodné reprezentanty pro navrženou pipeline. Tuto část práce dokumentuje přehledná literární rešerše podložená 43 kvalitními odbornými zdroji. Navržená pipeline byla následně otestována na souboru 149 unikátních bakteriálních genomů, které dosud nebyly v dostupných databázích z hlediska biosyntetického potenciálu podrobně charakterizovány. Výsledky práce vedly k identifikaci dvou perspektivních kandidátů vhodných pro navazující experimentální ověření a další výzkum přírodních látek. Práce je zpracována v anglickém jazyce a nevykazuje významnější odborné ani formální nedostatky. S ohledem na aktivní přístup studenta, jeho samostatnost při řešení zadaného tématu a praktickou využitelnost dosažených výsledků hodnotím bakalářskou práci klasifikačním stupněm A (98 bodů). Points proposed by supervisor: 98

Grade proposed by supervisor: A

Reviewer’s report
Mohammad Umair

The submitted bachelor’s thesis by Ondrej Hykl explores the topic “Computational detection of RiPP biosynthetic gene clusters in Antarctic bacterial genomes.”
This thesis presents a well-executed computational project focused on the detection, comparison and prioritisation of RiPP biosynthetic gene cluster candidates using genome-mining approaches. The student demonstrates a solid understanding of both the biological background of BGCs and RiPPs and the bioinformatics methodology used for BGC detection. The thesis is clearly structured and includes a comprehensive literature review, a detailed description of the tool, the computational workflow, and a systematic presentation of the results obtained. The use of 149 Antarctic bacterial genomes, together with the DFAST annotation tool and complementary prediction tools such as antiSMASH, DeepBGC, and DeepRiPP, etc., represents an ambitious and technically strong approach at the bachelor’s level. The implementation of custom Python scripts to preprocess and prepare candidate regions for downstream analysis is one of the main strengths of the work. Overall, the thesis is well presented, and the scope is appropriate for a bachelor’s thesis.
The pipeline is not just a simple tool-execution process; it integrates multiple prediction methods, handles heterogeneous output formats, performs overlap-based consensus analysis, and includes BiG-SCAPE similarity network comparison with MIBiG reference clusters. The manual inspection of selected BiG-SCAPE families, including the identification of a likely false-positive secretion-related region and a promising sulfur-RiPP candidate, demonstrates biological reasoning beyond simple computational predictions and gives the work clear methodological and practical value. Certain aspects of the work could, however, be strengthened. The results section could provide a deeper biological interpretation of the large number of detected candidates, especially at the level of BiG-SCAPE families and their relationship to known MIBiG clusters. Another important limitation is the dependence on DFAST-derived CDS annotations for NLPPrecursor analysis. Since RiPP precursor genes are often short and may be missed by standard annotation tools, some potential precursor peptides may not have been evaluated. A more thorough reading frame analysis, rather than relying solely on standard CDS annotations, would strengthen the pipeline by ensuring that extremely short precursor genes are not overlooked. In addition, the chosen filtering threshold, overlap criteria, and fixed 10-kb extraction window would benefit from stronger justification or sensitivity analysis. Overall, the thesis successfully meets the objectives of the study. It presents a technically solid and ambitious bachelor-level pipeline for computational RiPP BGC detection and prioritisation. The main contribution lies in integrating multiple genome-mining tools into a reproducible workflow. Stronger validation, deeper biological interpretation and clearer justification of key methodological choices would be needed to place it among the strongest bachelor's theses, but these observations do not diminish the quality and ambition of the submitted work. Topics for thesis defence:
  1. You used a fixed 10-kb extraction window around predicted precursor peptides. How might this have affected the downstream BiG-SCAPE clustering for larger RiPP BGC classes that exceed this size?
  2. What specific computational steps would you recommend as the immediate next analysis for FAM_01183 before any experimental follow-up?
Points proposed by reviewer: 90

Grade proposed by reviewer: A

Responsibility: Mgr. et Mgr. Hana Odstrčilová