Přístupnostní navigace
E-application
Search Search Close
Bachelor's Thesis
Author of thesis: Bc. Marián Tarageľ
Acad. year: 2023/2024
Supervisor: Ing. Jakub Špaňhel, Ph.D.
Reviewer: Ing. Vojtěch Bartl, Ph.D.
This bachelor's thesis aims to evaluate different data formats for storing tabular and image data. To accomplish this task, this work designed a new benchmark of data formats. The benchmarks are divided into three benchmark suites. These include the benchmarking of uncompressed tabular formats, compressed tabular formats, and an image storage benchmark. Overall tabular benchmark results suggest that the best tabular data format for speed saving and reading is Feather, and the most memory-efficient format is Parquet. The results of the image storage benchmark show that the fastest image storage is SQLite and the least space is required by PNG format. The results of this work can contribute to a better understanding of how different data formats behave and help to choose the right format for tabular and image data.
data formats benchmark, data format, data storage features, tabular data, image data, dataset, storing data, visualization
Date of defence
10.06.2024
Result of the defence
Defended (thesis was successfully defended)
Grading
B
Process of defence
Student nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázku oponenta a na další otázky přítomných, např. ohledně návrhu benchmarků, způsobu testování neuronových sítí použitých v rámci implementace, některých výsledků prezentovaných formou grafů či ukládání používaných informací. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm B - velmi dobře.
Topics for thesis defence
Language of thesis
English
Faculty
Fakulta informačních technologií
Department
Department of Computer Graphics and Multimedia
Study programme
Information Technology (BIT)
Composition of Committee
prof. Dr. Ing. Jan Černocký (předseda) Ing. Ivana Burgetová, Ph.D. (člen) Ing. Michal Hradiš, Ph.D. (člen) Ing. Josef Strnadel, Ph.D. (člen) doc. RNDr. Dana Hliněná, Ph.D. (člen)
Supervisor’s reportIng. Jakub Špaňhel, Ph.D.
Student se zhostil řešení BP velmi svědomitě. Prostudoval různé bechmarkovací nástroje, analyzoval dostupné datové formáty vhodné pro ukládání obrazových a tabulárních dat. Na základě těchto poznatků vytvořil sadu benchmarků, které lze automaticky vyhodnocovat a periodicky publikovat. Práci hodnotím jako velmi dobrou.
Student měl za úkol analyzovat datové formáty pro uchovávání biometrických dat v tabulární a obrazové podobě, zjistit jejich vlastnosti a limity, a dále formáty vhodně otestovat benchmarky.
Student si sám vyhledal veškeré potřebné zdroje a další literaturu.
Student byl aktivní po oba semestry řešení bakalářské práce. Stav řešení pravidelně konzultoval a na konzultace chodil vždy řádně připraven.
Práce byla dokončována s dostatečnou časovou rezervou před termínem odevzdání. Text byl několikrát konzultován a připomínky zapracovány.
-
Grade proposed by supervisor: B
Reviewer’s reportIng. Vojtěch Bartl, Ph.D.
Jedná se o kvalitní práci, kde student musel nastudovat danou problematiku, navrhout a naimplmentovat řešení. Výsledný benchmark lze využít pro porovnání různých datových typů a může sloužit pro výběr ideální varianty pro aktuální problém. Rovněž přináši vhled do toho, které datové typy je aktuálně nejlepší využívat a jaké jsou mezi nimi rozdíly. Spolupráce s externí firmou znamená, že tento benchmark bude z jejich strany využíván.
Evaluation level: obtížnější zadání
Během práce se student musel seznámit s různými technologiemi, které nejsou součástí běžného bakalářského studia.
Práce se dobře čte a kapitoly jsou rozumně rozvrženy. Text postupně popisuje jaký byl postup studia technologií, implementace a jaké jsou dosažené výsledky.
Velice oceňuji, že je práce psaná v anglickém jazyce. Přestože lze rychle rozpoznat, že se projevuje vliv české gramatiky do anglického textu, tak je text pro čtenáře dobře srozumitelný. Obevuje se pár překlepů a typografických nepřesností, ale jde spíše o detaily a nejsou časté.
Zdrojový kód byl dodán s prací i zveřejněn online. Zdrojové kódy sice nejsou příliš komentovány, což ale není ani příliš potřeba vzhledem k dostupné dokumentaci, která popisuje způsob použití. Výsledky jsou publikované a veřejně dostupné online a je možné si vše vyzkoušet.
Práce navrhuje a implementuje benchmark pro porovnání jednotlivých formátu pro uložení tabulárních a obrazových dat. Jelikož byla práce vyvíjena ve spolupráci s externí firmou, další využití této práce je tedy vysoce pravděpodobné — bude využíváno pro různá porovnání a nalezení nejlepší varianty ukládání dat.
Evaluation level: zadání splněno
Evaluation level: je v obvyklém rozmezí
Veškerá citovaná literatura je relevantní a jsou použity aktuální technologie pro řešení daného problému. Některé citace (např. technoligie, formáty, apod.) mohly být použity spíše formou poznámky pod čarou.
Grade proposed by reviewer: B
Responsibility: Mgr. et Mgr. Hana Odstrčilová