diplomová práce

Segmentace obrazu pomocí superpixelů pro vylepšení predikce uvnitř snímku

Text práce 10.57 MB Příloha 7.6 MB

Autor práce: Ing. Ondřej Soukeník

Ak. rok: 2023/2024

Vedoucí: doc. Ing. Ladislav Polák, Ph.D.

Oponent: Ing. Karel Fliegel, Ph.D.

Abstrakt:

Tato diplomová práce podává přehled o technologiích použitých pro kompresi obrazových dat, metodách měření kvality videa a metod segmentace obrazu.
Práce je rozdělena na pět kapitol. V první kapitole je stručný přehled tehnologií a stavebních prvků používaných při komprimaci obrazu a videa.
V druhé kapitole je stručný přehled objektivních metrik kvality videa a obrazu.
Třetí kapitola podává přehled metod segmentace obrazu a na konci této kapitoly je popsána nová optimalizovaná implementace SLIC.
Čtvrtá kapitola má za cíl popsat úpravu enkodéru rav1e standardu AV1.
V páté kapitole je experimentální část, kde je úprava enkodéru ověřena a výsledky analyzovány a podány v přehledné podobě.

Klíčová slova:

video kodeky, objektivní metriky pro určování kvality videa, segmentace obrazu pomocí superpixelů, AV1, optimalizace, intra predikce, H.265/HEVC, H.266/VVC, PSNR, SSIM, VMAF

Termín obhajoby

04.06.2024

Výsledek obhajoby

obhájeno (práce byla úspěšně obhájena)

znamkaAznamka

Klasifikace

A

Průběh obhajoby

Student prezentuje svou závěrečnou práci - cíle, implementace, optimalizace rozložení kódových bloků pomocí ilustračních obrázků, výsledku pro videosekvence a přechází k závěru. Student prezentuje pomalu a zadrhává se, v důsledku čehož ho (vzhledem k rozsahu prezentace) doc. Frýza upozorňuje na časový limit. Doc. Polák čte posudek vedoucího s návrhem 90 bodů. Doc. Polák čte zkrácený posudek oponenta s návrhem 95 bodů. Doc. Frýza pokládá 1. otázku oponenta: vysvětlete vaši formulaci v práci týkající se "dvojité" a "jednoduché" absolutní hodnoty; jaký je jejich rozdíl? Student: "Je to překlep." Doc. Frýza pokládá 2. otázku oponenta: lze skutečně prokázat tvrzení, že konkrétní knihovna zmíněná v práci je pro obraz ve vysokém rozlišení nejrychlejší? Student upravuje své tvrzení na základě výsledků testu. Doc. Šebesta pokládá doplňující otázku ohledně jistého grafu, student vysvětluje. Student rovnou přechází na 3. otázku oponenta ohledně malého počtu použitých datasetů a vysvětluje. Doc. Frýza komentuje časové zpracování. Dále se ptá, proč student prezentoval pouze část výsledků, i když v diplomové práci jich má víc; student odpovídá, že kvůli času vybral reprezentativní. Doc. Frýza se ptá na část popisku jednoho z grafů (22 ms), student odpovídá. Doc. Šebesta se ptá, na jakou platformu je práce vytvořena, student odpovídá, že čistě na procesor a dále rozvíjí odpověď. Doc. Šebesta pokládá další otázky ohledně programování v jazyce Rust a optimalizace pro grafickou kartu. Student odpovídá a diskutuje možnosti. Doc. Frýza ukončuje obhajobu a přechází k SZZ.

Jazyk práce

čeština

Fakulta

Ústav

Studijní program

Elektronika a komunikační technologie (MPC-EKT)

Složení komise

doc. Ing. Tomáš Frýza, Ph.D. (předseda)
doc. Ing. Ladislav Polák, Ph.D. (místopředseda)
Ing. Tomáš Urbanec, Ph.D. (člen)
doc. Ing. Jiří Šebesta, Ph.D. (člen)
Ing. Václav Navrátil, Ph.D. (člen)

Diplomová práca sa zaoberá segmentáciou obrazu videa pomocou tzv. superpixelov pre vylepšenie predikcie vo vnútri snímok, využívané predovšetkým v pokročilých komprimačných algoritmoch pre video. Jedná sa nielen o perspektívnu a zaujímavú oblasť v rámci videotechniky, ale zároveň o veľmi náročné zadanie práce, ktoré navrhol študent Bc. Soukeník. Podľa zadania práce študent navrhol vhodný postup pre vylepšenie vnútro snímkovej predikcii. Navrhnutý koncept zrealizoval a experimentálne overil na malej avšak reprezentatívnej vzorke videosekvencií. K tomu boli využité vhodné objektívne metriky a postupy. Na základe dosiahnutých výsledkov je možné konštatovať, že študentom zvolený postup bol správnym riešením. Všetky zdrojové kódy a súbory, ktoré vznikli v rámci diplomovej práce, študent sprístupnil na repozitáru GitHub. Zadanie diplomovej práce patrí medzi náročné a vyžaduje hlboké znalosti z oblasti spracovania videa a obrazu. Pán Bc. Soukeník jednoznačne preukázal, že s takýmito znalosťami disponuje.

Rozsah diplomovej práce sa dá považovať za nadštandardný a spoločne s prílohou má viac ako 60 strán. Je však potrebný spomenúť, že prvé dva kapitoly sú prevzaté a mierne prepracované z bakalárskej práce študenta. Práca je napísaná pomocou typografického systému LaTeX a tým pádom jej formálna a grafická stránka je na vynikajúcej úrovni. V texte práce sa vyskytuje niekoľko  gramatických, terminologických či formálnych preklepov (napr. nedokončená veta na str. 46; chýbajúci medzera medzi slovom a odkazom na referenciu, nie príliš vhodne formulovaný a napísaný abstrakt), ktoré mierne znižujú kvalitu odvedenej práce. Bohužiaľ, finálnu verziu textu som videl až po odovzdaní práce. Práca s odbornou literatúrou je na vynikajúcej úrovni a svedčí o tom, že študent v danej problematike sa orientuje veľmi dobre. Pán Bc. Soukeník pracoval úplne samostatne, možnosti konzultácie využíval len občas.

Pán Bc. Soukeník v plnej miere preukázal inžinierske uvažovanie pri riešení veľmi komplexného problému z oblasti videotechniky a spracovania obrazu, na ktoré v rámci diplomovej práce narazil. Zadanie diplomovej práce bolo splnené a jeho výstupy, medzi inými, môžu byť podkladom aj pre konferenčný, prípadne časopisecký článok. Diplomovú prácu odporúčam k obhajobe a napriek zmieneným nedostatkom (predovšetkým formálneho charakteru) navrhujem hodnotenie A/90. Výsledný počet bodů navržený vedoucím: 90

Známka navržená vedoucím: A

Posudek oponenta
Ing. Karel Fliegel, Ph.D.

Posudek vypracoval Ing. Karel Fliegel, Ph.D. (FEL ČVUT v Praze, Katedra radioelektroniky). Otázky k obhajobě:
  1. 1. Ve výrazu (2.1) na straně 21, kde je definován výpočet střední kvadratické chyby (MSE), se vyskytuje zápis „dvojité absolutní hodnoty“ ‖∙‖. Vysvětlete význam tohoto zápisu a také, jak se liší od „jednoduché absolutní hodnoty“ |∙|.
  2. 2. Z prezentovaných výsledků experimentální analýzy účinnosti navrženého přístupu pro volbu velikosti kódových bloků je zřejmá významná obsahová závislost. Výsledky jsou prezentovány pouze pro tři různé FullHD videosekvence. Tyto sekvence jsou v komunitě používané a jsou tedy vhodně zvoleny, je jich však pro jednoznačné závěry málo. Vysvětlete, proč nebylo experimentální ověření realizováno na větším množství videosekvencí, případně u obhajoby prezentujte výsledky také pro jiný obrazový obsah.
  3. 3. V práci je uvedeno, že nová knihovna FastSLIC-Rust je aktuálně nejrychlejší volně dostupnou implementací pro obraz ve velmi vysokém rozlišení. Bylo by asi vhodnější formulaci omezit, na autorovi známé dostupné knihovny. Navíc, výsledky testování jsou dostupné pouze pro FullHD, tedy nikoliv „velmi vysoké rozlišení“. Lze opravdu jednoznačně prokázat toto tvrzení?
Výsledný počet bodů navržený oponentem: 95

Známka navržená oponentem: A

Soubor vložený oponentem Velikost
Posudek oponenta [.pdf] 239,00 kB

Odpovědnost: Mgr. et Mgr. Hana Odstrčilová