Bachelor's Thesis

Bioinformatic approaches to bacterial plasmid classification

Final Thesis 26.84 MB Appendix 9.13 MB

Author of thesis: Petra Kašparová

Acad. year: 2025/2026

Supervisor: Ing. Markéta Jakubíčková, Ph.D.

Reviewer: Mgr. Matěj Bezdíček, Ph.D.

Abstract:

Plasmids are a significant component of bacterial genomes and play a crucial role in the spread of antibiotic resistance genes and virulence factors through horizontal gene transfer. To monitor these processes, it is important to reliably identify, compare, and systematically classify plasmids. However, current bioinformatics approaches to plasmid classification are based on different biological principles and utilize distinct types of information, such as replication markers, mobilization functions, or whole-genome similarity of plasmid sequences. The results of individual tools are therefore often difficult to compare and do not provide a unified view of the relationships between plasmids. This bachelor’s thesis addresses the issue of bacterial plasmid classification and proposes a procedure for integrating the results of multiple bioinformatics methods. As part of the thesis, a custom tool called PlasMiClust (Plasmid Multi-tool Clustering) was designed and implemented, which enables the unification of the outputs from PlasmidFinder, pMLST, MOBscan, MOB-suite, and COPLA into a common data structure and their subsequent use for plasmid clustering analysis. Based on a combination of the results from the individual methods, the distance between plasmids is calculated, and a hierarchical cluster analysis is subsequently performed with visualization using dendrograms and heatmaps. The functionality of the proposed approach was verified on datasets of plasmid sequences from the bacteria Klebsiella pneumoniae and Enterococcus faecium.

Keywords:

Inc groups, replicon typing, MOB typing, plasmid taxonomic units, Klebsiella pneumoniae, Enterococcus faecium

Date of defence

17.06.2026

Result of the defence

Defended (thesis was successfully defended)

znamkaAznamka

Grading

A

Process of defence

Studentka prezentovala výsledky své práce a komise byla seznámena s posudky. Ing. Jakubíčková se doptala blíže na přiloženou otázku 3, jak by studentka daný problém řešila. Studentka obhájila bakalářskou práci a odpověděla na otázky členů komise a oponenta.

Language of thesis

Czech

Faculty

Department

Study programme

Biomedical Technology and Bioinformatics (BPC-BTB)

Composition of Committee

doc. Ing. Petr Kudrna, Ph.D. (předseda)
Ing. Markéta Jakubíčková, Ph.D. (místopředseda)
MUDr.Ing. Richard Ředina (člen)
Ing. Martin Králík (člen)
Ing. Jiří Vitouš (člen)
doc. Ing. Radim Kolář, Ph.D. (člen)

Studentka Petra Kašparová vypracovala bakalářskou práci zaměřenou na klasifikaci plasmidů pomocí vybraných bioinformatických nástrojů a následně navrhla vlastní postup pro spojení jednotlivých výsledků a jejich porovnání. Práce má od úvodu po závěr 59 stran a je logicky členěna.
Teoretická část, opírající se o relevantní odborné zdroje, poskytuje potřebný vhled do problematiky plasmidů a jejich klasifikace a obsahuje přehled dostupných metod využívaných pro jejich charakterizaci.
V praktické části studentka nejprve provedla analýzu dvou poskytnutých plasmidových datasetů pomocí pěti existujících nástrojů, jejichž výsledky následně vyhodnocuje a diskutuje. V navazující části navrhla a implementovala vlastní nástroj PlasMiClust, který propojuje výsledky těchto nástrojů a umožňuje jejich sjednocení a následnou interpretaci. Pozitivně hodnotím, že nástroj poskytuje jak grafické, tak textové výstupy, které lze dále využít při následné analýze. Současně umožňuje nastavení různých prahů, a tím i volbu požadované úrovně detailu výsledné analýzy. Výsledky nástroje jsou diskutovány jak z pohledu vytvořených plasmidových shluků, tak i na úrovni jednotlivých bakteriálních kmenů. Součástí práce je rovněž diskuse limitací navrženého řešení.
Po formální stránce je práce zpracována na dobré úrovni. Text je psán čtivě a pouze ojediněle se vyskytují drobné jazykové či formální nepřesnosti, které však nesnižují celkovou kvalitu práce.
Studentka během řešení práce pravidelně konzultovala dosažené výsledky a na konzultace přicházela připravena s věcnými dotazy. Zadání práce považuji za splněné. Práci doporučuji k obhajobě a hodnotím ji stupněm A / 95 bodů. Points proposed by supervisor: 95

Grade proposed by supervisor: A

Reviewer’s report
Mgr. Matěj Bezdíček, Ph.D.

Bakalářská práce se zabývá aktuálním tématem bioinformatické klasifikace bakteriálních plazmidů a možností integrace výstupů více dostupných nástrojů do jednotného vyhodnocovacího postupu. Práce kombinuje rešeršní část, analýzu konkrétních plazmidových datasetů a vlastní implementační výstup ve formě nástroje PlasMiClust.
Požadavky zadání považuji za splněné. Studentka zpracovala literární rešerši zaměřenou na klasifikaci plazmidů podle replikačních funkcí, mobilizačních funkcí i přístupů využívajících podobnost kompletních plazmidových sekvencí. V praktické části se seznámila s dostupnými nástroji pro klasifikaci plazmidů a na poskytnutých datasetech aplikovala pět relevantních nástrojů: PlasmidFinder, pMLST, MOBscan, MOB-suite a COPLA. Dále navrhla postup pro sjednocení výsledků těchto nástrojů, implementovala vlastní nástroj PlasMiClust a výsledky vizualizovala pomocí dendrogramů, heatmap a Sankey diagramů. Za pozitivní považuji zejména snahu o praktickou integraci heterogenních výstupů jednotlivých nástrojů do jednotného workflow.
Rozsah práce je pro bakalářskou práci nadprůměrný. Struktura je logická. Oceňuji také samostatné vyhodnocení datasetů Klebsiella pneumoniae a Enterococcus faecium a snahu porovnat výsledky mezi zástupci gramnegativních a grampozitivních bakterií.
Výsledky jednotlivých nástrojů jsou shrnuty poměrně přehledně, ale biologická interpretace někdy působí příliš jistě vzhledem k povaze vstupních dat a limitům použitých metod. Diskuse limitů je přítomna.
Formální úroveň práce je celkově dobrá. Práce je přehledně členěna, obsahuje seznam zkratek, tabulky, obrázky i přílohy. Po grafické stránce působí práce standardně a srozumitelně.
Jazyková úroveň je převážně dobrá, ale v textu se vyskytují stylistické neobratnosti, drobné překlepy a nepřesné formulace, např. „bakterie rodu K. pneumoniae“/„bakterie rodu E. faecium“, přestože jde o druhová označení, nebo nejednotné psaní značky % v případech, kdy má výraz význam přídavného jména, např. 100% shoda‘.
Studentka pracuje s dostatečným počtem relevantních odborných zdrojů. Seznam literatury zahrnuje původní práce k plazmidové biologii, replikační a MOB typizaci, MOB-suite, COPLA, pATLAS i související bioinformatické metody. V tomto směru považuji rešerši za adekvátní bakalářské práci.

Slabší stránkou je kritická práce s literaturou. Některé informace jsou převzaty správně, ale jejich interpretace je místy zjednodušená nebo biologicky nepřesná. Například text v úvodní kapitole směšuje obecné vlastnosti přirozených bakteriálních plazmidů s prvky typickými spíše pro laboratorní klonovací nebo expresní vektory, jako jsou promotory, selekční markery a místa pro vícenásobné klonování. Dále je příliš zjednodušeně uvedeno, že plazmidy jsou přenosné konjugací, ačkoliv konjugativní přenos je vlastností pouze části plazmidů a vyžaduje odpovídající mobilizační a/nebo konjugační aparát. Podobně je nepřesné tvrzení, že relaxáza je jedinou nezbytnou složkou konjugace; relaxáza je nezbytná pro zpracování oriT, ale samotný konjugační přenos vyžaduje i další komponenty, zejména přenosový aparát. Dalším nepřesným tvrzením je zjednodušené vymezení fylogenetických stromů jako nástroje sloužícího pro identifikaci bodových mutací.
Odborná úroveň práce je dobrá, zejména s ohledem na bakalářský stupeň studia. Studentka prokázala schopnost pracovat s různými bioinformatickými nástroji, zpracovat jejich výstupy a navrhnout vlastní integrační postup. Implementace nástroje PlasMiClust představuje praktický realizační výstup práce a je hlavním přínosem celé práce.
Za největší odborný problém považuji metodickou interpretaci výsledných klastrů. PlasMiClust integruje výstupy více nástrojů, ale tyto nástroje nejsou zcela nezávislé. Některé z nich využívají podobné biologické markery nebo databázové principy, takže při prostém průměrování dílčích vzdáleností může dojít k neúmyslnému zvýhodnění některých typů informace, například replikačních nebo mobilizačních znaků. Volba stejné váhy pro všechny nástroje není v práci dostatečně zdůvodněna.
Dalším důležitým omezením je zacházení s chybějící klasifikací. Pokud dva plazmidy nejsou daným nástrojem klasifikovány, je jejich vzdálenost hodnocena jako nulová. Studentka tento problém v práci sama částečně zmiňuje, přesto jde o významný metodický limit, protože absence klasifikace nemusí znamenat biologickou podobnost. Může jít o dvě zcela odlišné sekvence, které pouze nejsou zastoupeny v referenčních databázích.
Praktická využitelnost výsledků je nicméně reálná. Nástroj PlasMiClust může být vhodným pomocným nástrojem pro explorační porovnání plazmidových sekvencí a pro vizualizaci shody nebo neshody mezi různými klasifikačními přístupy. Pro rutinní biologickou nebo epidemiologickou interpretaci by však bylo nutné doplnit validaci na referenčních datasetech, lépe řešit chybějící hodnoty, zohlednit neúplnost vstupních sekvencí a opatrněji formulovat závěry o příbuznosti plazmidů.
Práce splňuje zadání a představuje zdařilou bakalářskou práci s jasným realizačním výstupem. Oceňuji zejména rozsah zpracovaných dat, použití více nástrojů, implementaci vlastního postupu a snahu o vizualizaci a integraci výsledků. Významnější výhrady mám k biologické přesnosti některých formulací. Uvedené nedostatky podle mého názoru nesnižují celkovou hodnotu práce, zejména s ohledem na její praktický realizační výstup. Topics for thesis defence:
  1. 1) Jak by se změnila interpretace výsledků, pokud by část vstupních sekvencí nepředstavovala kompletní plazmidy, ale pouze plazmidové kontigy nebo fragmenty plazmidů?
  2. 2) V nástroji PlasMiClust jsou výsledky jednotlivých nástrojů hodnoceny na stejné úrovni (mají stejnou váhu). Jak by studentka zdůvodnila tuto volbu?
  3. 3) Pokud dva plazmidy nejsou daným nástrojem klasifikovány, je jejich vzdálenost pro tento nástroj nastavena na 0. Jaké biologické riziko tato volba představuje a jak by bylo možné tento problém řešit alternativně?
  4. 4) Jak by studentka validovala, že klastry vytvořené nástrojem PlasMiClust odpovídají biologicky smysluplným skupinám plazmidů?
Points proposed by reviewer: 85

Grade proposed by reviewer: B

Responsibility: Mgr. et Mgr. Hana Odstrčilová