Course detail

Parallel Data Processing

FEKT-MPA-PZPAcad. year: 2021/2022

Paralelizace na CPU. Paralelizace na GPU (maticové operace, algoritmy hlubokého učení). Technologie Apache Spark, Hadoop, Kafka, Cassandra. Distribuované výpočty pro operace: transformace dat, agregace, klasifikace, regrese, shlukování dat, četné vzory, optimalizace. Streamování dat – základní operace, stavové operace, monitorování. Další technologie pro distribuované výpočty.

Language of instruction

angličtina

Number of ECTS credits

6

Mode of study

Not applicable.

Výsledky učení předmětu

Absolventi jsou schopni návrhu a implementace různých forem paralelních systémů pro řešení problémů při zpracování velkých objemů dat. Naučí se techniky pro paralelizaci programů na CPU a GPU a dále techniky pro distribuované výpočty. Zde budou absolventi ovládat technologie Apache Spark, Kafka, Cassaandra a naučí se provádět distribuované zpracování dat s využitím datových operací: transformace, agregace, klasifikace, regrese, shlukování dat, četné vzory.

Prerequisites

Not applicable.

Co-requisites

Not applicable.

Plánované vzdělávací činnosti a výukové metody

Metody vyučování zahrnují přednášky, cvičení na počítači a laboratoře. Předmět využívá e-learning (Moodle). Student odevzdává jeden samostatný projekt.

Způsob a kritéria hodnocení

závěrečná zkouška

Osnovy výuky

1. Úvod
2. CPU - paralelní výpočty
3. GPU - úvod
4. GPU - paměť
5. GPU - synchronizace
6. GPU - paralelní vzory
7. GPU - maticové operace a streamování
8. Spark - úvod
9. Spark - pokročilé operace
10. Spark - strojové učení
11. Spark - streamování
12. Ostatní paralelní technologie
13. Celkový přehled a diskuze
14. Semestrální zkouška

Work placements

Not applicable.

Učební cíle

Cílem kurzu je seznámit studenty s možnostmi paralelizace při zpracování dat s využitím klasických procesorů, grafických procesorů a distribuovaných systémů.

Vymezení kontrolované výuky a způsob jejího provádění a formy nahrazování zameškané výuky

Vymezení kontrolované výuky a způsob jejího provádění stanoví každoročně aktualizovaná vyhláška garanta předmětu.

Recommended optional programme components

Not applicable.

Prerequisites and corequisites

Not applicable.

Basic literature

Dasgupta, Nataraj. "Practical big data analytics: Hands-on techniques to implement enterprise analytics and machine learning using Hadoop, Spark, NoSQL and R." (2018) (EN)

Recommended reading

BARLAS, Gerassimos. Multicore and gpu programming: an integrated approach. ISBN 9780124171374 (EN)

Elearning

Classification of course in study plans

  • Programme MPA-CAN magisterský navazující 2 year of study, zimní semester, povinný
  • Programme MPAD-CAN magisterský navazující 2 year of study, zimní semester, povinný
  • Programme MPC-TIT magisterský navazující 0 year of study, zimní semester, povinně volitelný
  • Programme MPA-EAK magisterský navazující 0 year of study, zimní semester, povinně volitelný
  • Programme MPC-IBE magisterský navazující 0 year of study, zimní semester, povinně volitelný

Type of course unit

 

Přednáška

26 hod., optionally

Teacher / Lecturer

Cvičení na počítači

26 hod., compulsory

Teacher / Lecturer

Projekt

13 hod., optionally

Teacher / Lecturer

Elearning