Course detail

Advanced methods in Bioinformatics

FEKT-MPAN-PMBAcad. year: 2026/2027

The course is mainly oriented towards acquiring practical skills in the field of bioinformatics processing of big data. It mainly focuses on analyses of bacterial genomes and transcriptomes. For the complexity of such analyses, it also brings a basic understanding of working with the command line, creating your own pipelines and using remote calculations. All this while understanding how these analyzes are applicable to the knowledge inference that can be used in medicine, biotechnology or genome engineering.
Current bioinformatics processes big data that cannot be processed on personal computers. Therefore, it relies on remote calculations on high performance computational servers. This requires the use of a job scheduler and, in cooperation with basic code scripting, gives almost unlimited possibilities even in the analysis of so-called non-model organisms. Computational analyses can thus be used in many scientific disciplines, especially biotechnology, both medical and industrial.

  Předmět je orientován především na získáních praktických dovedností v oblasti bioinformatického zpracování rozsáhlých datových sad. Zaměřuje se především na analýzy bakteriálních genomů a transkriptomů. Pro složitost takových analýz pak přináší i základní pochopení práce s příkazovou řádkou, vytvářeních vlastních pipelines a využití vzdálených výpočtů. To vše při pochopení toho, jak jsou tyto analýzy aplikovatelné na odvození znalosti využitelné v medicíně, biotechnologii či genomovém inženýrství. Dnešní bioinformatika zpracovává větší množství dat, které není možné provádět na osobních počítačích. Téměř bez výjimky tak spoléhá na vzdálené výpočty na výkonných výpočetních serverech. To vyžaduje využívání plánovače úloh a ve spolupráci se základním skriptováním kódu dává téměř neomezené možnosti v analýze i tzv. nemodelových organismů. Výpočetní analýzy jsou tak využitelné s velkým přesahem v mnoha vědcích disciplínách, především biotechnologii, a to jak medicínské, tak průmyslové.

Language of instruction

English

Number of ECTS credits

4

Mode of study

Not applicable.

Entry knowledge

It is required to have basic knowledge of algorithms used in bioinformatics for sequence similarity analysis, assembly into longer sequences, or algorithms deriving information from primary sequence structure, such as ORF prediction. It is also important to have a basic understanding of functional relationships in living organisms at the cellular level based on the central dogma of molecular biology.

 

Rules for evaluation and completion of the course

Criteria for obtaining classified credit:

- prepare a report summarizing your own results on all topics assigned during the semester (max. 100 points)

Computer exercises and semminars are not mandatory, absences do not need to be compensated.

To successfully complete the course, it is necessary to obtain at least 50 points for the final report. The finals score is determined from the points obtained for the final report.

Kritéria pro získání klasifikovaného zápočtu:

- připravit report shrnující vlastní výsledky ze všech témat přiřazených k řešení během semestru (max. 100 bodů)

Cvičení na počítači a semináře jsou nepovinné, absence nemusí být nahrazovány.

Pro úspěšné absolvování kurzu je nutné získat alespoň 50 bodů za závěrečné zprávu. Konečné skóre je určeno z bodů získaných za závěrečnou zprávu.

  

Aims

The aim of the course is to provide students with advanced, practically oriented knowledge in the field of sequencing data processing using batch jobs and high-performance computing with modern computing tools so that they are able to set up their own pipelines for complex genome analyses.
The graduate of the course is able to:
- work with computing resources using batch jobs while using a scheduler
- perform quality assessment of raw sequencing data, both genomic and transcriptomic
- assemble a complete genome and annotate it
- perform variant calling in mutant or otherwise related genomes
- perform a comprehensive analysis of the transcriptome

 

Study aids

Not applicable.

Prerequisites and corequisites

Not applicable.

Basic literature

Compeau P., Pevzner P.A.: Bioinformatics Algorithms: An Active Learning Approach. Active Learning Publishers, 2018. (EN)
McLean, Daniel D. R Bioinformatics cookbook: use R bioconductor to perform RNAseq, genomics, data visualization, and bioinformatic analysis. Packt Publishing, 2019. ISBN 978-1789950694. (EN)

Recommended reading

Not applicable.

Classification of course in study plans

  • Programme MPA-BTB Master's 2 year of study, winter semester, compulsory
  • Programme MPCN-BTB Master's 2 year of study, winter semester, compulsory-optional

Type of course unit

 

Seminar

12 hours, optionally

Teacher / Lecturer

Syllabus

1. Introduction to high performance computing
2. Contamination and sequencing errors, genome assembly
3. Population genomics and variability in genomes
4. Basics of structural and functional genome annotation
5. Basics in transcriptomics
6. Analyses of transcriptomes

1. Úvod do vysoko-výkonnostních výpočtů
2. Kontaminace a chyby v sekvenačních datech, skládání genomů
3. Populační genomika a variabilita genomů
4. Základy strukturní a funkční anotace genomů
5. Základy transkriptomiky
6. Analýzy transkriptomů

 

Project

52 hours, compulsory

Teacher / Lecturer

Syllabus

Work on assigned tasks necessary for the preparation of the final report. It is required to work on all assigned topics.

Práce na zadaných úkolech nezbytných pro vypracování závěrečné zprávy. Je nutné vypracovat všechna zadaná témata.

 

Individual preparation for an ending of the course

20 hours, optionally

Teacher / Lecturer

Syllabus

Požadavky na závěrečnou zprávu

Závěrečná zpráva nemá přesně definovanou strukturu, je možné se volně inspirovat vědeckými články, projektovými zprávami, nebo i bakalářskými/diplomovými pracemi. Zpráva by měla obsahovat:

1) Úvod
Stručný úvod do současného stavu techniky, obecný popis tématu a 2–3 věty shrnující obsah zprávy.

2) Materiály a metody
Tato kapitola by měla obsahovat odkazy na vstupní data, odkud byla získána, včetně přístupových čísel, použitých výpočetních nástrojů, včetně konkrétních verzí a případných referencí, v případě, že je třeba citovat volně dostupný nástroj.

3) Popis a diskuse výsledků
Dosažené výsledky, včetně vhodných obrázků, grafů a tabulek, by měly být shrnuty v samostatné kapitole. Tu lze rozdělit do dalších podkapitol reflektujících jednotlivá témata probíraná v průběhu semestru. Výsledky lze přímo diskutovat, nebo lze diskusi zařadit do samostatné kapitoly.

4) Závěr/shrnutí
Zpráva by měla také obsahovat stručné shrnutí všeho, co se podařilo, respektive nepodařilo.

 

 

 Requirements for the final report

The final report does not have a precisely defined structure, it is possible to freely draw inspiration from scientific articles, project reports, or even bachelor/diploma theses. The report should contain:

1) Introduction
A brief introduction to the state-of-the-art, a general description of the topic and a 2-3 sentence summary of what the report contains.

2) Materials and methods
This chapter should contain references to the input data, where they were obtained, including accession numbers, computational tools used, including specific versions and any references, in case a freely available tool needs to be cited.

3) Description and discussion of results
The achieved results, including suitable figures, plots and tables, should be summarized in a separate chapter. This can be divided into further subchapters reflecting individual topics addressed during the semester. The results can be directly discussed, or the discussion can be placed into a separate chapter.

4) Conclusion/summary
The report should also include a brief summary of everything that was successful, or failed.

 

Exercise in computer lab

14 hours, optionally

Teacher / Lecturer

Syllabus

1. Metacentrum, sratoolkit, quality assessment for raw sequencing data
2. Quality trimming and data preparation, de novo genome assembly
3. Reference-based assembly, variant calling
4. Genome annotation
5. RNA-Seq preprocessing, mapping, demultiplication
6. RNA-Seq – count table
7. Consultations

1. Metacentrum, sratoolkit, hodnocení kvality surových sekvenačních dat
2. Čištění a příprava dat, de novo skládání genomu
3. Skládání genomu k referenci, sledování variant
4. Anotace genomů
5. RNA-Seq pøedzpracování, mapování, demultiplikace
6. RNA-Seq – tabulka exprese
7. Konzultace