bakalářská práce

Benchmark datových formátů pro obrazová a tabulární data

Text práce 2.09 MB

Autor práce: Bc. Marián Tarageľ

Ak. rok: 2023/2024

Vedoucí: Ing. Jakub Špaňhel, Ph.D.

Oponent: Ing. Vojtěch Bartl, Ph.D.

Abstrakt:

Cieľom tejto bakalárskej práce je ohodnotiť rôzne dátové formáty pre ukladanie tabulárnych a obrazových dát. K zvládnutiu tejto úlohy táto práca navrhuje nový benchmark dátových formátov. Benchmark je rozdelený do troch benchmarkových skupín. Tie zahŕňajú benchmark nekomprimovaných tabulárnych formátov, komprimovaných tabulárnych formátov a benchmark obrazových úložísk. Celkové výsledky tabulárnych benchmarkov naznačujú, že najlepší tabulárny formát pre rýchle ukladanie a čítanie je Feather a najviac pamäťovo efektívny je Parquet. Výsledky benchmarkov ukladania obrázkov ukazujú, že najrýchlejšie úložisko obrázkov je v SQLite a najmenej miesta vyžaduje formát PNG. Výsledky tejto práce môžu prispieť k lepšiemu pochopeniu správania sa rôznych dátových formátov a pomôcť pri výbere správneho formátu pre tabulárne a obrazové dáta.

Klíčová slova:

benchmark dátových formátov, dátový formát, vlastnosti ukladania dát, tabulárne dáta, obrazové dáta, dátová sada, ukladanie dát, vizualizácia

Termín obhajoby

10.06.2024

Výsledek obhajoby

obhájeno (práce byla úspěšně obhájena)

znamkaBznamka

Klasifikace

B

Průběh obhajoby

Student nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázku oponenta a na další otázky přítomných, např. ohledně návrhu benchmarků, způsobu testování neuronových sítí použitých v rámci implementace, některých výsledků prezentovaných formou grafů či ukládání používaných informací. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm B - velmi dobře.

Otázky k obhajobě

  1. Zvažoval jste možnost kódování/komprese na GPU?

Jazyk práce

angličtina

Fakulta

Ústav

Studijní program

Informační technologie (BIT)

Složení komise

prof. Dr. Ing. Jan Černocký (předseda)
Ing. Ivana Burgetová, Ph.D. (člen)
Ing. Michal Hradiš, Ph.D. (člen)
Ing. Josef Strnadel, Ph.D. (člen)
doc. RNDr. Dana Hliněná, Ph.D. (člen)

Posudek vedoucího
Ing. Jakub Špaňhel, Ph.D.

Student se zhostil řešení BP velmi svědomitě. Prostudoval různé bechmarkovací nástroje, analyzoval dostupné datové formáty vhodné pro ukládání obrazových a tabulárních dat. Na základě těchto poznatků vytvořil sadu benchmarků, které lze automaticky vyhodnocovat a periodicky publikovat. Práci hodnotím jako velmi dobrou.

Kritérium hodnocení Slovní hodnocení
Informace k zadání

Student měl za úkol analyzovat datové formáty pro uchovávání biometrických dat v tabulární a obrazové podobě, zjistit jejich vlastnosti a limity, a dále formáty vhodně otestovat benchmarky. 

Práce s literaturou

Student si sám vyhledal veškeré potřebné zdroje a další literaturu. 

Aktivita během řešení, konzultace, komunikace

Student byl aktivní po oba semestry řešení bakalářské práce. Stav řešení pravidelně konzultoval a na konzultace chodil vždy řádně připraven.

Aktivita při dokončování

Práce byla dokončována s dostatečnou časovou rezervou před termínem odevzdání. Text byl několikrát konzultován a připomínky zapracovány.

Publikační činnost, ocenění

-

Výsledný počet bodů navržený vedoucím: 85

Známka navržená vedoucím: B

Jedná se o kvalitní práci, kde student musel nastudovat danou problematiku, navrhout a naimplmentovat řešení. Výsledný benchmark lze využít pro porovnání různých datových typů a může sloužit pro výběr ideální varianty pro aktuální problém. Rovněž přináši vhled do toho, které datové typy je aktuálně nejlepší využívat a jaké jsou mezi nimi rozdíly. Spolupráce s externí firmou znamená, že tento benchmark bude z jejich strany využíván.

Kritérium hodnocení Slovní hodnocení Body
Náročnost zadání

Stupeň hodnocení: obtížnější zadání

Během práce se student musel seznámit s různými technologiemi, které nejsou součástí běžného bakalářského studia.

Prezentační úroveň technické zprávy

Práce se dobře čte a kapitoly jsou rozumně rozvrženy. Text postupně popisuje jaký byl postup studia technologií, implementace a jaké jsou dosažené výsledky.

85
Formální úprava technické zprávy

Velice oceňuji, že je práce psaná v anglickém jazyce. Přestože lze rychle rozpoznat, že se projevuje vliv české gramatiky do anglického textu, tak je text pro čtenáře dobře srozumitelný. Obevuje se pár překlepů a typografických nepřesností, ale jde spíše o detaily a nejsou časté.

80
Realizační výstup

Zdrojový kód byl dodán s prací i zveřejněn online. Zdrojové kódy sice nejsou příliš komentovány, což ale není ani příliš potřeba vzhledem k dostupné dokumentaci, která popisuje způsob použití. Výsledky jsou publikované a veřejně dostupné online a je možné si vše vyzkoušet.

90
Využitelnost výsledků

Práce navrhuje a implementuje benchmark pro porovnání jednotlivých formátu pro uložení tabulárních a obrazových dat. Jelikož byla práce vyvíjena ve spolupráci s externí firmou, další využití této práce je tedy vysoce pravděpodobné — bude využíváno pro různá porovnání a nalezení nejlepší varianty ukládání dat.

Rozsah splnění požadavků zadání

Stupeň hodnocení: zadání splněno

Rozsah technické zprávy

Stupeň hodnocení: je v obvyklém rozmezí

Práce s literaturou

Veškerá citovaná literatura je relevantní a jsou použity aktuální technologie pro řešení daného problému. Některé citace (např. technoligie, formáty, apod.) mohly být použity spíše formou poznámky pod čarou.

85
Otázky k obhajobě:
  1. Zvažoval jste možnost kódování/komprese na GPU?
Výsledný počet bodů navržený oponentem: 87

Známka navržená oponentem: B

Odpovědnost: Mgr. et Mgr. Hana Odstrčilová