Bachelor's Thesis

Monitoring and Visualization of Performance and Resource Metrics in HPC/AI Clusters

Final Thesis 2.52 MB

Author of thesis: Stanislav Poláček

Acad. year: 2025/2026

Supervisor: Ing. Viktor Ondrák, Ph.D.

Reviewer: Mgr. Martin Šrejber, Ph.D.

Abstract:

This bachelor's thesis deals with the design and implementation of a modern monitoring system for a computing cluster. It analyzes the current hardware and network infrastructure with regard to the requirements for monitoring system resources. It provides a theoretical overview of available technologies for collecting and storing metrics in time-series databases. The main part of the thesis focuses on the deployment of the Prometheus platform, integration with the job scheduler, and the creation of visualization dashboards in the Grafana system to streamline the overall management of the cluster.

Keywords:

Computer cluster, HPC, Monitoring system, Prometheus, Grafana, Containerization, Docker, Sun Grid Engine

Date of defence

18.06.2026

Result of the defence

Defended (thesis was successfully defended)

znamkaAznamka

Grading

A

Process of defence

Student ve své prezentaci seznámil komisi s cíli, řešením a výsledky, ke kterým v závěrečné práci dospěl. Komise se poté seznámila s posudky a hodnocením vedoucího práce a oponenta. Otázky z posudku vedoucího student zodpověděl v plném rozsahu, otázky z posudku oponenta zodpověděl v plném rozsahu. Otázky členů komise: 1 doc. Mgr. Maria Králová, Ph.D. - Je to otázka hodně do budoucna ale jak budete řešit zabezpečení v případě prolamovaní hesel pomocí kvantových počítačů? Zodpovězeno v plném rozsahu. Na základě přednesené prezentace a odpovědí na otázky položené v diskusi komise rozhodla, že student práci obhájil.

Language of thesis

Czech

Faculty

Department

Study programme

Managerial Informatics (BAK-MIn)

Composition of Committee

doc. Ing. Miloš Koch, CSc. (předseda)
doc. Mgr. Maria Králová, Ph.D. (místopředseda)
Ing. Jan Luhan, Ph.D., MSc (člen)
Mgr. Martina Bobalová, Ph.D. (člen)
Ing. Lenka Širáňová, Ph.D. (člen)

Supervisor’s report
Ing. Viktor Ondrák, Ph.D.

Jedná se o vysoce odbornou práci přesahující svým rozsahem a obsahem náplň studijního programu. Student správně vybral použité technologie pro monitoring výpočetního clusteru, navrhl jejich součinnost a provedl nastavení. Před nasazením do produkčního prostředí navrhl a realizoval testovací prostředí, kde svůj návrh ú)spěšně ověřil

Práci DOPORUČUJI k obhajobě a nem,ám k ní žádné výhrady.

Doplňující otázka:

Plánujete další rozšíření monitorovacího systému o další funkcionality?
Evaluation criteria Verbal classification Grade
Splnění stanovených cílů Cíle práce byly beze zbytku splněny A
Zvolený postup řešení, adekvátnost použitých metod Jednotlivé postupy - tedy výběr technologie a postup nasazování byly správně zvoleny, použité metody jsou adekvátní řešené problematice  A
Schopnost interpretovat dosažené výsledky a vyvozovat z nich závěry Student prokázal schopnost správně interpretovat dosažené výsledky a vyvozovat z nich závěry A
Praktická využitelnost výsledků Výsledky práce jsou již nasazeny v produkčním prostředí vědecko-výzkumného centra CATRIN-RCPTM při při Univerzitě Palackého v Olomouci a jsou opakovaně využitelné i v jiných organizacích A
Uspořádání práce, formální náležitosti, použitá terminologie a odborná jazyková úroveň Práce je logicky správně uspořádána, splňuje všechny formální náležitosti. Použitá terminologie a odborná jazyková úroveň svědčí o vysokém stupni odbornosti v dané problematice A
Práce s informačními zdroji, včetně citací Práce je v souladu s autorským právem, citace odpovídají doporučením normy B

Grade proposed by supervisor: A

Reviewer’s report
Mgr. Martin Šrejber, Ph.D.

Předkládaná bakalářská práce Stanislava Poláčka se zabývá návrhem a implementací monitorovacího systému pro HPC klastr na vědecko-výzkumném ústavu CATRIN-RCPTM při Univerzitě Palackého v Olomouci. Monitorování probíhá nasazením platformy Prometheus s následnou vizualizací pomocí systému Grafana. Práce je rozdělena do tří hlavních sekcí, v nichž autor i/ diskutuje teoretická řešení problematiky HPC a možné principy monitoringu ii/ analyzuje prostředí HPC klastrů v přímé návaznosti na požadavky instituce iii/ navrhuje, testuje a implementuje monitorovací zařízení, a to při plném provozu HPC. V rámci práce student předvedl ucelenou znalost tématiky potřebné pro návrh komplexních monitorovacích systémů. Práci po formální stránce hodnotím kladně. Po jazykové i formální stránce odpovídá předkládaná práce standardům bakalářské práce. Dále kladně hodnotím i dostatečné množství relevantních zdrojů z nichž autor práce vychází. Konstatuji, že autor splnil cíle, které si v úvodu práce stanovil, tj. komplexní analýza HW a SW prostředí klastru a následný návrh a implementace monitorovacího systém včetně testování a nasazení do produkčního provozu klastru. Zvláště bych ocenil přínos vytvořeného monitoringu pro naši instituci, kdy budeme s výstupy monitoringu dále pracovat a vyhodnocovat pro naše interní účely.
K práci nemám žádných výtek ani výhrad a doporučuji ji k obhajobě. Topics for thesis defence:
  1. 1. Jak je zabezpečen monitorovací systém, tak aby se nemohl stát nejslabším článkem v případě útoku zvenčí? 2. Může autor nastínit návrh rozšíření monitorovacího systému na další složky našeho HPC klastru tak, aby se monitorovací systém stal komplexní platformou pro monitoring celé serverovny? Zejména by mě zajímaly možnosti alertů při kritických situacích, jakými jsou kolísání teploty atd.

Grade proposed by reviewer: A

Responsibility: Mgr. et Mgr. Hana Odstrčilová