Master's Thesis

Superpixel-based image segmentation to improve Intra-frame prediction

Final Thesis 10.57 MB Appendix 7.6 MB

Author of thesis: Ing. Ondřej Soukeník

Acad. year: 2023/2024

Supervisor: doc. Ing. Ladislav Polák, Ph.D.

Reviewer: Ing. Karel Fliegel, Ph.D.

Abstract:

This diploma thesis gives an overview of the technologies used for compression image data, video quality measurement methods and image segmentation methods.
The thesis is divided into five chapters. The first chapter gives a brief overview of of the technologies and architectural elements used in image and video compression.
The second chapter provides a brief overview of objective video and image quality metrics.
The third chapter gives an overview of image segmentation methods and at the end of this chapter a new optimized implementation of SLIC is described.
The fourth chapter aims to describe the modification of the rav1e encoder of the AV1 standard.
The fifth chapter contains an experimental section where the encoder modification is verified and results are analyzed and presented in a summarized form.

Keywords:

video codecs, objective video quality metrics, superpixel image segmentation, AV1, optimalization, intra prediction, H.265/HEVC, H.266/VVC, PSNR, SSIM, VMAF

Date of defence

04.06.2024

Result of the defence

Defended (thesis was successfully defended)

znamkaAznamka

Grading

A

Process of defence

Student prezentuje svou závěrečnou práci - cíle, implementace, optimalizace rozložení kódových bloků pomocí ilustračních obrázků, výsledku pro videosekvence a přechází k závěru. Student prezentuje pomalu a zadrhává se, v důsledku čehož ho (vzhledem k rozsahu prezentace) doc. Frýza upozorňuje na časový limit. Doc. Polák čte posudek vedoucího s návrhem 90 bodů. Doc. Polák čte zkrácený posudek oponenta s návrhem 95 bodů. Doc. Frýza pokládá 1. otázku oponenta: vysvětlete vaši formulaci v práci týkající se "dvojité" a "jednoduché" absolutní hodnoty; jaký je jejich rozdíl? Student: "Je to překlep." Doc. Frýza pokládá 2. otázku oponenta: lze skutečně prokázat tvrzení, že konkrétní knihovna zmíněná v práci je pro obraz ve vysokém rozlišení nejrychlejší? Student upravuje své tvrzení na základě výsledků testu. Doc. Šebesta pokládá doplňující otázku ohledně jistého grafu, student vysvětluje. Student rovnou přechází na 3. otázku oponenta ohledně malého počtu použitých datasetů a vysvětluje. Doc. Frýza komentuje časové zpracování. Dále se ptá, proč student prezentoval pouze část výsledků, i když v diplomové práci jich má víc; student odpovídá, že kvůli času vybral reprezentativní. Doc. Frýza se ptá na část popisku jednoho z grafů (22 ms), student odpovídá. Doc. Šebesta se ptá, na jakou platformu je práce vytvořena, student odpovídá, že čistě na procesor a dále rozvíjí odpověď. Doc. Šebesta pokládá další otázky ohledně programování v jazyce Rust a optimalizace pro grafickou kartu. Student odpovídá a diskutuje možnosti. Doc. Frýza ukončuje obhajobu a přechází k SZZ.

Language of thesis

Czech

Faculty

Department

Study programme

Electronics and Communication Technologies (MPC-EKT)

Composition of Committee

doc. Ing. Tomáš Frýza, Ph.D. (předseda)
doc. Ing. Ladislav Polák, Ph.D. (místopředseda)
Ing. Tomáš Urbanec, Ph.D. (člen)
doc. Ing. Jiří Šebesta, Ph.D. (člen)
Ing. Václav Navrátil, Ph.D. (člen)

Supervisor’s report
doc. Ing. Ladislav Polák, Ph.D.

Diplomová práca sa zaoberá segmentáciou obrazu videa pomocou tzv. superpixelov pre vylepšenie predikcie vo vnútri snímok, využívané predovšetkým v pokročilých komprimačných algoritmoch pre video. Jedná sa nielen o perspektívnu a zaujímavú oblasť v rámci videotechniky, ale zároveň o veľmi náročné zadanie práce, ktoré navrhol študent Bc. Soukeník. Podľa zadania práce študent navrhol vhodný postup pre vylepšenie vnútro snímkovej predikcii. Navrhnutý koncept zrealizoval a experimentálne overil na malej avšak reprezentatívnej vzorke videosekvencií. K tomu boli využité vhodné objektívne metriky a postupy. Na základe dosiahnutých výsledkov je možné konštatovať, že študentom zvolený postup bol správnym riešením. Všetky zdrojové kódy a súbory, ktoré vznikli v rámci diplomovej práce, študent sprístupnil na repozitáru GitHub. Zadanie diplomovej práce patrí medzi náročné a vyžaduje hlboké znalosti z oblasti spracovania videa a obrazu. Pán Bc. Soukeník jednoznačne preukázal, že s takýmito znalosťami disponuje.

Rozsah diplomovej práce sa dá považovať za nadštandardný a spoločne s prílohou má viac ako 60 strán. Je však potrebný spomenúť, že prvé dva kapitoly sú prevzaté a mierne prepracované z bakalárskej práce študenta. Práca je napísaná pomocou typografického systému LaTeX a tým pádom jej formálna a grafická stránka je na vynikajúcej úrovni. V texte práce sa vyskytuje niekoľko  gramatických, terminologických či formálnych preklepov (napr. nedokončená veta na str. 46; chýbajúci medzera medzi slovom a odkazom na referenciu, nie príliš vhodne formulovaný a napísaný abstrakt), ktoré mierne znižujú kvalitu odvedenej práce. Bohužiaľ, finálnu verziu textu som videl až po odovzdaní práce. Práca s odbornou literatúrou je na vynikajúcej úrovni a svedčí o tom, že študent v danej problematike sa orientuje veľmi dobre. Pán Bc. Soukeník pracoval úplne samostatne, možnosti konzultácie využíval len občas.

Pán Bc. Soukeník v plnej miere preukázal inžinierske uvažovanie pri riešení veľmi komplexného problému z oblasti videotechniky a spracovania obrazu, na ktoré v rámci diplomovej práce narazil. Zadanie diplomovej práce bolo splnené a jeho výstupy, medzi inými, môžu byť podkladom aj pre konferenčný, prípadne časopisecký článok. Diplomovú prácu odporúčam k obhajobe a napriek zmieneným nedostatkom (predovšetkým formálneho charakteru) navrhujem hodnotenie A/90. Points proposed by supervisor: 90

Grade proposed by supervisor: A

Reviewer’s report
Ing. Karel Fliegel, Ph.D.

Posudek vypracoval Ing. Karel Fliegel, Ph.D. (FEL ČVUT v Praze, Katedra radioelektroniky). Topics for thesis defence:
  1. 1. Ve výrazu (2.1) na straně 21, kde je definován výpočet střední kvadratické chyby (MSE), se vyskytuje zápis „dvojité absolutní hodnoty“ ‖∙‖. Vysvětlete význam tohoto zápisu a také, jak se liší od „jednoduché absolutní hodnoty“ |∙|.
  2. 2. Z prezentovaných výsledků experimentální analýzy účinnosti navrženého přístupu pro volbu velikosti kódových bloků je zřejmá významná obsahová závislost. Výsledky jsou prezentovány pouze pro tři různé FullHD videosekvence. Tyto sekvence jsou v komunitě používané a jsou tedy vhodně zvoleny, je jich však pro jednoznačné závěry málo. Vysvětlete, proč nebylo experimentální ověření realizováno na větším množství videosekvencí, případně u obhajoby prezentujte výsledky také pro jiný obrazový obsah.
  3. 3. V práci je uvedeno, že nová knihovna FastSLIC-Rust je aktuálně nejrychlejší volně dostupnou implementací pro obraz ve velmi vysokém rozlišení. Bylo by asi vhodnější formulaci omezit, na autorovi známé dostupné knihovny. Navíc, výsledky testování jsou dostupné pouze pro FullHD, tedy nikoliv „velmi vysoké rozlišení“. Lze opravdu jednoznačně prokázat toto tvrzení?
Points proposed by reviewer: 95

Grade proposed by reviewer: A

File inserted by the reviewer Size
Posudek oponenta [.pdf] 239,00 kB

Responsibility: Mgr. et Mgr. Hana Odstrčilová