Bachelor's Thesis

Computational tasks for Parallel data processing course

Final Thesis 1.86 MB Appendix 520 kB

Author of thesis: Ing. Peter Horečný

Acad. year: 2017/2018

Supervisor: Ing. Jan Mašek, Ph.D.

Reviewer: Ing. Martin Rajnoha, Ph.D.

Abstract:

The goal of this thesis was to create laboratory excercises for subject „Parallel data processing“, which will introduce options and capabilities of Apache Spark technology to
the students. The excercises focus on work with basic operations and data preprocessing,
work with concepts and algorithms of machine learning. By following the instructions, the
students will solve real world situations problems by using algorithms for linear regression,
classification, clustering and frequent patterns. This will show them the real usage and
advantages of Spark. As an input data, there will be databases of czech and slovak
companies with a lot of information provided, which need to be prepared, filtered and
sorted for next processing in the first excercise. The students will also get known with
functional programming, because the are not whole programs in excercises, but just the
pieces of instructions, which are not repeated in the following excercises. They will get
a comprehensive overview about possibilities of Spark by getting over all the excercices.

Keywords:

Apache Hadoop, Apache Spark, classification, linear regression, parallel data processing, frequent patterns, machine learning, big data, clustering

Date of defence

14.06.2018

Result of the defence

Defended (thesis was successfully defended)

znamkaBznamka

Grading

B

Process of defence

Stručně popište koncept funkcionálního programování, porovnání s jinými přístupy, využití, výhody a nevýhody. –Student vysvětlil otázku.

Language of thesis

Slovak

Faculty

Department

Study programme

Electrical, Electronic, Communication and Control Technology (EECC Bc.)

Field of study

Teleinformatics (B-TLI)

Composition of Committee

prof. Ing. Dan Komosný, Ph.D. (předseda)
prof. Mgr. Pavel Rajmic, Ph.D. (místopředseda)
Ing. Vlastimil Člupek, Ph.D. (člen)
Ing. Jan Mašek, Ph.D. (člen)
Ing. Petr Kříž (člen)
Ing. Jaroslav Vrána, Ph.D. (člen)

Supervisor’s report
Ing. Jan Mašek, Ph.D.

Práce se zabývala vytvořením laboratorních úloh do předmětu "Paralelní zpracování dat" s využitím paralelní platformy Apache Spark. Student přistupoval k řešení práce svědomitě a pravidelně konzultoval. Cíle práce byly splněny. Práce je po formální i obsahové stránce na velmi dobré úrovni. Práce je přínosem a navrhuji známku A/96 bodů Points proposed by supervisor: 96

Grade proposed by supervisor: A

Reviewer’s report
Ing. Martin Rajnoha, Ph.D.

Student ve své práci popisuje technologie Apache Spark a Hadoop a s jejich použitím vytvořil 4 úlohy pro předmět paralelní zpracování dat, čím splnil zadání práce. Práce obsahuje minimální množství gramatických chyb a překlepů, má logickou strukturu a po odborné stránce je dobrá. V práci mi trochu chybí teoretický popis funkcionálního programování, které se vyskytuje v úlohách.
Výstupem jsou 4 úlohy se zdrojovými kódy řešení a návody. Úlohy jsou dobře vymyšlené, demonstrují praktické problémy, ale návody jsou dle mého názoru psány velice složitě a nejasně, jednotlivé úkoly se nachází mezi textem, není jasné, co je úkol a co ne. Chybí více nápovědy, nebo vzorových příkladů, jak úkoly vůbec řešit, bez nahlédnutí do zdrojových kódů bych byl schopen úlohy vyřešit obtížně.
Návody obsahují několik nepřesností např. úvodní úloha kromě jiného poukazuje na rozdílný výpočetní čas za použití různého počtu jader procesoru, který se ale u mě neprojevil. V třetí úloze měla vyjít přesnosti 92%, mně vyšla 96% s použitím dodaných zdrojových kódů.
Vzhledem k výše uvedeným nedostatkům hodnotím práci 77b/C Topics for thesis defence:
  1. Stručně popište koncept funkcionálního programování, porovnání s jinými přístupy, využití, výhody a nevýhody.
Points proposed by reviewer: 77

Grade proposed by reviewer: C

Responsibility: Mgr. et Mgr. Hana Odstrčilová