Master's Thesis

Genome-wide and Constrained Ordination-based Analyses of Bacteria

Author of thesis: Bc. Adéla Fialová

Acad. year: 2025/2026

Supervisor: doc. Mgr. Ing. Karel Sedlář, Ph.D.

Reviewer: Ing. Kateřina Šabatová

Abstract:

This thesis focuses on the use of whole-genome functional profiles for the taxonomic classification and characterization of bacterial species. The main objective was to evaluate whether functional genome annotation carries a sufficiently strong taxonomic signal to distinguish bacterial groups and whether it can complement conventional phylogenomic approaches. As part of the work, an analytical platform called FRODO was designed and implemented to enable automated processing of annotation data, construction of functional matrices, and application of multivariate statistical analyses. Approximately 100 bacterial genomes were analyzed using dimensionality reduction and ordination methods applied to enzymatic profiles. The results demonstrated a high concordance between functional profiles and current taxonomic nomenclature and confirmed substantial functional overlap between phylogenetically related genera, particularly Escherichia and Shigella. The thesis also included a case study focused on the classification of three previously uncharacterized bacterial isolates obtained from Antarctic seal mummies, revealing potential novel evolutionary lineages. The presented work demonstrates the potential of functional genomics as a complementary tool for modern bacterial taxonomy and comparative genomics.

Keywords:

Bacterial taxonomy, functional annotation, enzymatic repertoires, comparative genomics, dimensionality reduction, ordination analysis.

Date of defence

15.06.2026

Date of publish

14.06.2028

Result of the defence

Defended (thesis was successfully defended)

znamkaAznamka

Grading

A

Process of defence

Studentka prezentovala výsledky své práce a komise byla seznámena s posudky. Doc. Lengerová se zeptala zda se nenašel žádný příbuzný rod? Jak to probíhalo? Co bylo referencí? Ing. Vítková se doptala na překryv 2 vzorků a zda se nejedná o identické bakterie. Studentka obhájila diplomovou práci a odpověděla na otázky členů komise a oponenta.

Language of thesis

English

Faculty

Department

Study programme

Biomedical Engineering and Bioinformatics (MPC-BTB)

Composition of Committee

doc. Mgr. Martina Lengerová, Ph.D. (předseda)
doc. Mgr. Ing. Karel Sedlář, Ph.D. (místopředseda)
Ing. Helena Vítková, Ph.D. (člen)
Ing. Jiří Chmelík, Ph.D. (člen)
Ing. Lukáš Smital, Ph.D. (člen)

Studentka Adéla Fialová se ve své práci zabývá klasifikací bakterií dle jejich genové výbavy, konkrétně při využití funkční anotace různých ortologních genů. K tomu využívá kombinaci pokročilých metod redukce dimenzionality, různých metrik podobnosti a způsobů konstrukce iniciální matice zachycující podobnost či rozdílnost různých bakterií. Rešeršní část práce je rozsáhlá, na výborné úrovni a čtenáře podrobně seznamuje s problematikou klasifikace bakterií, funkční anotací i metodami redukce dimenzionality dat. V rámci praktické části pak navrhla a realizovala analytickou pipeline FRODO s grafickým rozhraním, která umožňuje praktickou a uživatelsky velmi přívětivou komparativní analýzu a klasifikaci bakteriálních genomů. Práce obsahuje i případovou studii klasifikace genomů, zatím neidentifikovaných bakterií. Celá práce je na vynikající úrovni, výzkum byl vedený rigorózně a práce má víc než dostatečný rozsah. Po technické stránce je práce také na vynikající úrovni, je psaná anglicky, dobře se čte, obsahuje názorné ilustrace a obsahuje všechny důležité reference. Vytknout mohu pouze výskyt osamocených řádků a krátký popis obrázků. Samotná pipeline FRODO je v publikační kvalitě, stejně tak i případová studie. Z tohoto důvodu má práce odklad zveřejnění, jelikož dílčí výsledky budou publikovány ve 2 impaktovaných článcích. Aktivita studentky byla celkově vysoce na nadprůměrná. Praktické výsledky své práce již studentka prezentovala na soutěžní konferenci Student EEICT, což ji přineslo výhru v kategorii biomedicínského inženýrství. Práci tedy hodnotím jako výbornou. Points proposed by supervisor: 99

Grade proposed by supervisor: A

Reviewer’s report
Ing. Kateřina Šabatová

Předložená diplomová práce se zaměřuje na analýzu bakteriálních genomů pomocí funkční anotace. Teoretický přehled poskytuje vhodný a přehledný úvod do problematiky funkčních anotací a nástrojů používaných pro jejich získání.
V praktické části, rozdělené do tří celků, studentka nejprve analyzuje dataset 100 bakteriálních genomů na základě funkční anotace přiřazené pomocí EC identifikátorů a aplikuje různé metody redukce dimenzionality. Zásadním nedostatkem však je, že tento dataset není součástí práce. Přiložen je pouze dataset s KO identifikátory, který však dle popisu nebyl v analýze použit, což omezuje možnost nezávislé reprodukce výsledků.
Přestože je popis výsledků jednotlivých analýz podrobný, některé vizualizace jsou problematické. Například u výstupů z t-SNE nelze plně ověřit jejich interpretaci, protože 16 přítomných druhů je v obrázcích 2.8 a 2.9 reprezentováno pouze 10 barvami, což znamená, že různé druhy sdílejí stejné barevné označení.
Za problematické považuji zařazení odhadu optimálního počtu shluků pomocí Elbow metody, jehož výsledek (čtyři shluky) není v další analýze nijak využit ani interpretován. Není zřejmé, jaký byl účel tohoto kroku, zejména když byl následně počet shluků stanoven na 16 podle počtu druhů v datech. Samotné výsledky shlukování jsou navíc prezentovány pouze graficky a jejich porovnání s předchozími vizualizacemi je obtížné (ty se nacházejí o několik stran dříve). K této části by bylo vhodné doplnit jako přílohu přehledovou tabulku shrnující přiřazení jednotlivých genomů do shluků, obdobně jako je tomu u výstupů vytvořeného nástroje.
Další část práce popisuje nástroj FRODO, přičemž tento popis je přehledný, srozumitelný a dobře strukturovaný. Vytvořený nástroj implementovaný v rámci frameworku Streamlit představuje jeden z hlavních přínosů celé práce. Aplikace je intuitivní, přehledná, rychlá a dostatečně dokumentovaná i pro nové uživatele. Významným pozitivem je zejména možnost interaktivního prohlížení grafů, což výrazně usnadňuje interpretaci výsledků oproti jejich statické podobě, u které může být zejména u větších datasetů interpretace obtížná, jak autorka v práci sama demonstruje. Celkově lze tento nástroj považovat za velmi zdařilý výstup, který má potenciál pro využití v rámci explorativní analýzy genomických dat na základě funkční anotace.
Součástí práce je rovněž případová studie zaměřená na zařazení tří bakteriálních kmenů, kde je srovnáno fylogenetické zařazení s klasifikací založenou na funkční anotaci. Tato část práce přináší zajímavý aplikační přesah a vhodně doplňuje analytickou a implementační část práce, nicméně vykazuje nedostatek v prezentaci výsledků – izolát P3853 pravděpodobně chybí na pěti ze šesti prezentovaných obrázků (obrázky 4.2–4.6).
Po formální stránce má práce bohužel také nedostatky, například přetékající obrázky a některé řádky (např. obrázky 2.13, 3.3–3.6, 3.9 a 3.10, nadpis 3.1.1), opakované vysvětlování již zavedených pojmů a zkratek (např. ANI nebo KO jsou vysvětleny vícekrát) a skutečnost, že přílohy nejsou součástí tištěné verze práce, ale pouze elektronických příloh.
Celkově práce představuje ucelený přístup k analýze bakteriálních genomů pomocí funkční anotace a za nejvýznamnější přínos považuji vytvořený nástroj FRODO, který výrazně zvyšuje praktickou využitelnost výsledků. I přes uvedené nedostatky práce splňuje požadavky kladené na diplomovou práci a hodnotím ji stupněm B (85 bodů). Topics for thesis defence:
  1. V práci uvádíte, že dataset 100 genomů byl anotován pomocí nástroje KAAS, který přiřadil KO identifikátory ke genům, a následně byly na základě KO identifikátorů odvozeny EC identifikátory. Kolik KO a EC identifikátorů bylo k datasetu přiřazeno? Proč byl pro vytvoření binární matice zvolen právě EC identifikátor? Jak by se lišily výsledky analýz při použití KO identifikátorů?
  2. V práci jsou aplikovány metody PCA, PCoA, CCA, CAP a t-SNE, přičemž na jejich výstupech v redukovaném prostoru je následně proveden k-means clustering. Můžete prosím zdůvodnit vhodnost tohoto postupu, zejména použití k-means na výstupech z řízených metod (CCA, CAP) a z metody t-SNE, která neuchovává globální vzdálenosti? Na základě čeho považujete výsledné klastry za biologicky interpretovatelné a jak byl stanoven jejich počet?
  3. Kde se v grafech 4.2–4.6 nachází izolát P3853?
Points proposed by reviewer: 85

Grade proposed by reviewer: B

Reasons for publication postponement

Publication of the final thesis has been postponed in compliance with the provisions of Section 47b (4) of Act No. 111/1998 Coll., on the Higher Education Institutions and on amendments and supplements to other acts, as amended.

The thesis contains the results that will be the subject of the publication.

Responsibility: Mgr. et Mgr. Hana Odstrčilová