Bachelor's Thesis

Column-oriented and Image Data Format Benchmarks

Final Thesis 2.09 MB

Author of thesis: Bc. Marián Tarageľ

Acad. year: 2023/2024

Supervisor: Ing. Jakub Špaňhel, Ph.D.

Reviewer: Ing. Vojtěch Bartl, Ph.D.

Abstract:

This bachelor's thesis aims to evaluate different data formats for storing tabular and image data. To accomplish this task, this work designed a new benchmark of data formats. The benchmarks are divided into three benchmark suites. These include the benchmarking of uncompressed tabular formats, compressed tabular formats, and an image storage benchmark. Overall tabular benchmark results suggest that the best tabular data format for speed saving and reading is Feather, and the most memory-efficient format is Parquet. The results of the image storage benchmark show that the fastest image storage is SQLite and the least space is required by PNG format. The results of this work can contribute to a better understanding of how different data formats behave and help to choose the right format for tabular and image data.

Keywords:

data formats benchmark, data format, data storage features, tabular data, image data, dataset, storing data, visualization

Date of defence

10.06.2024

Result of the defence

Defended (thesis was successfully defended)

znamkaBznamka

Grading

B

Process of defence

Student nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázku oponenta a na další otázky přítomných, např. ohledně návrhu benchmarků, způsobu testování neuronových sítí použitých v rámci implementace, některých výsledků prezentovaných formou grafů či ukládání používaných informací. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm B - velmi dobře.

Topics for thesis defence

  1. Zvažoval jste možnost kódování/komprese na GPU?

Language of thesis

English

Faculty

Department

Study programme

Information Technology (BIT)

Composition of Committee

prof. Dr. Ing. Jan Černocký (předseda)
Ing. Ivana Burgetová, Ph.D. (člen)
Ing. Michal Hradiš, Ph.D. (člen)
Ing. Josef Strnadel, Ph.D. (člen)
doc. RNDr. Dana Hliněná, Ph.D. (člen)

Supervisor’s report
Ing. Jakub Špaňhel, Ph.D.

Student se zhostil řešení BP velmi svědomitě. Prostudoval různé bechmarkovací nástroje, analyzoval dostupné datové formáty vhodné pro ukládání obrazových a tabulárních dat. Na základě těchto poznatků vytvořil sadu benchmarků, které lze automaticky vyhodnocovat a periodicky publikovat. Práci hodnotím jako velmi dobrou.

Evaluation criteria Verbal classification
Informace k zadání

Student měl za úkol analyzovat datové formáty pro uchovávání biometrických dat v tabulární a obrazové podobě, zjistit jejich vlastnosti a limity, a dále formáty vhodně otestovat benchmarky. 

Práce s literaturou

Student si sám vyhledal veškeré potřebné zdroje a další literaturu. 

Aktivita během řešení, konzultace, komunikace

Student byl aktivní po oba semestry řešení bakalářské práce. Stav řešení pravidelně konzultoval a na konzultace chodil vždy řádně připraven.

Aktivita při dokončování

Práce byla dokončována s dostatečnou časovou rezervou před termínem odevzdání. Text byl několikrát konzultován a připomínky zapracovány.

Publikační činnost, ocenění

-

Points proposed by supervisor: 85

Grade proposed by supervisor: B

Reviewer’s report
Ing. Vojtěch Bartl, Ph.D.

Jedná se o kvalitní práci, kde student musel nastudovat danou problematiku, navrhout a naimplmentovat řešení. Výsledný benchmark lze využít pro porovnání různých datových typů a může sloužit pro výběr ideální varianty pro aktuální problém. Rovněž přináši vhled do toho, které datové typy je aktuálně nejlepší využívat a jaké jsou mezi nimi rozdíly. Spolupráce s externí firmou znamená, že tento benchmark bude z jejich strany využíván.

Evaluation criteria Verbal classification Points
Náročnost zadání

Evaluation level: obtížnější zadání

Během práce se student musel seznámit s různými technologiemi, které nejsou součástí běžného bakalářského studia.

Prezentační úroveň technické zprávy

Práce se dobře čte a kapitoly jsou rozumně rozvrženy. Text postupně popisuje jaký byl postup studia technologií, implementace a jaké jsou dosažené výsledky.

85
Formální úprava technické zprávy

Velice oceňuji, že je práce psaná v anglickém jazyce. Přestože lze rychle rozpoznat, že se projevuje vliv české gramatiky do anglického textu, tak je text pro čtenáře dobře srozumitelný. Obevuje se pár překlepů a typografických nepřesností, ale jde spíše o detaily a nejsou časté.

80
Realizační výstup

Zdrojový kód byl dodán s prací i zveřejněn online. Zdrojové kódy sice nejsou příliš komentovány, což ale není ani příliš potřeba vzhledem k dostupné dokumentaci, která popisuje způsob použití. Výsledky jsou publikované a veřejně dostupné online a je možné si vše vyzkoušet.

90
Využitelnost výsledků

Práce navrhuje a implementuje benchmark pro porovnání jednotlivých formátu pro uložení tabulárních a obrazových dat. Jelikož byla práce vyvíjena ve spolupráci s externí firmou, další využití této práce je tedy vysoce pravděpodobné — bude využíváno pro různá porovnání a nalezení nejlepší varianty ukládání dat.

Rozsah splnění požadavků zadání

Evaluation level: zadání splněno

Rozsah technické zprávy

Evaluation level: je v obvyklém rozmezí

Práce s literaturou

Veškerá citovaná literatura je relevantní a jsou použity aktuální technologie pro řešení daného problému. Některé citace (např. technoligie, formáty, apod.) mohly být použity spíše formou poznámky pod čarou.

85
Topics for thesis defence:
  1. Zvažoval jste možnost kódování/komprese na GPU?
Points proposed by reviewer: 87

Grade proposed by reviewer: B

Responsibility: Mgr. et Mgr. Hana Odstrčilová