Master's Thesis

Tool for automatic segmentation and classification of image data

Final Thesis 2.28 MB Appendix 340 B

Author of thesis: Bc. Adam Leznar

Acad. year: 2025/2026

Supervisor: Ing. Pavel Sikora, Ph.D.

Reviewer: Ing. Petr Kříž

Abstract:

Thesis addresses the use of artificial intelligence and computer vision methods for the automation of waste management processes. The objective of this work is to create a custom dataset, train selected neural network models, evaluate the training process, and subsequently develop a software implementation of these models.

For the research, the neural networks YOLOv11 and Mask2Former were selected due to the fundamental differences in their architectural design. This enables a comparison between the convolutional architecture of YOLOv11, designed primarily for real-time detection, and Mask2Former, which represents a transformer-based architecture employing a masked attention mechanism. To compare the properties of these architectures, two datasets containing images of various types of waste were compiled. The first dataset was downloaded from the Roboflow platform and consisted of simple images featuring a single object of interest. The second dataset contained real-world images of waste containers and their contents, capturing scenes in which objects frequently overlap, thus more faithfully reflecting the conditions of potential industrial deployment.

The results indicate that Mask2Former achieves superior performance specifically on visually challenging classes, such as plastics, owing to their transparency and often highly variable and deformed shapes. However, the high segmentation accuracy of Mask2Former comes at the cost of substantially greater demands on computational memory and longer inference times, which hinders its deployment at industrial scale.
The computational requirements of YOLOv11 are considerably lower and its inference time is shorter, though this comes at the cost of noisier object detections. These results could potentially be improved by expanding the custom dataset, as the current number of images is below what is typically required for training networks of this complexity. A further finding highlighted the importance of dataset content, as models trained on images downloaded from Roboflow exhibited virtually no generalization capability.

Based on these findings, software tools were implemented separately for each architecture, enabling users to upload images or videos and perform segmentation. The software incorporates confidence threshold adjustment. This diploma thesis may serve as a foundation for further development of systems and datasets in the field of automated waste management.

Keywords:

Neural Networks, Waste, Computer Vision, Segmentation, Artificial Intelligence.

Date of defence

11.06.2026

Result of the defence

Defended (thesis was successfully defended)

znamkaCznamka

Grading

C

Process of defence

Student prezentoval výsledky své práce a komise byla seznámena s posudky. Student obhájil diplomovou práci s výhradami a odpověděl na otázky členů komise a oponenta. Otázky oponenta diplomové práce: Popište rozdíl mezi segmentací s klasifikací a prostou detekcí s klasifikací objektů v obrazu. Jaké jsou výhody a nevýhody obou přístupů vzhledem k vašemu zadání? Uvádíte, že řešením některých problémů s klasifikací by bylo rozšíření vlastní trénovací sady, viz abstrakt. Jak velká by tedy tato sada měla ideálně být vzhledem ke složitosti architektur testovaných modelů? Proč jste nespojil vlastní data s daty z Roboflow a nepoužil je pro trénování a vyhodnocení používaných modelů? Co je motivací pro výběr modelů? Proč jste neprováděl augumentaci vámi vytvořené datové sady?

Language of thesis

Czech

Faculty

Department

Study programme

Audio Engineering (MPC-AUD)

Specialization

Audio Production and Recording (AUDM-ZVUK)

Composition of Committee

prof. Ing. Zdeněk Smékal, CSc. (předseda)
Ing.MgA. Edgar Mojdl, Ph.D. (místopředseda)
Dr. Ing. Libor Husník (člen)
Ing. Václav Mach, Ph.D. (člen)
Ing. Matěj Ištvánek, Ph.D. (člen)

Supervisor’s report
Ing. Pavel Sikora, Ph.D.

Student v teoretické části práce popsal problematiku segmentace obrazových dat a metody používané v oblasti hlubokého učení. V další části vybral dvě architektury reprezentující konvoluční neuronové sítě a sítě založené na transformerech, konkrétně YOLOv11 a Mask2Former, kterým věnoval podrobnější popis. Student pracoval se dvěmi datovými sadami. První z nich byla upravená veřejně dostupná datová sada z platformy Roboflow, druhou vytvořil sám z vlastních fotografií s využitím poloautomatické anotace. Práce dále popisuje postup trénování modelů a vývoj segmentačního nástroje. V praktické části je následně provedeno vyhodnocení natrénovaných modelů a popis realizovaného nástroje.
Po formální stránce práce vykazuje určité nedostatky. V textu se vyskytují překlepy, méně obratné formulace, místy nejednotná terminologie a několik formálních nekonzistencí. V některých maticích záměn nejsou všechny hodnoty explicitně vypsány a popisky os jsou ponechány v angličtině, například na Obr. 2.5. Některé tabulky zasahují velmi blízko k okraji stránky, například Tab. 2.2. Na některých stránkách se objevují příliš velké prázdné mezery mezi odstavci, obrázky a tabulkami. Práce s literaturou je na dobré úrovni, výjimkou jsou pouze místy přetékající odkazy v seznamu literatury.
Student v průběhu zpracování práce aktivně konzultoval její řešení a průběžně řešil několik technických problémů, například nedostatečnou kapacitu VRAM paměti a nutnost přesunu výpočetního prostředí na jiný server. Za vhodné bych považoval také doplnění samostatné anotované testovací sady a následné vyhodnocení modelů pomocí vhodných metrik.
Zadání práce bylo splněno. I přes výše uvedené výtky doporučuji práci k obhajobě a navrhuji hodnocení C, 75 bodů. Points proposed by supervisor: 75

Grade proposed by supervisor: C

Reviewer’s report
Ing. Petr Kříž

Student se ve své práci zabývá segmentací a klasifikací vybraných objektů, přičemž se zaměřuje na testování sítí YOLO a Mask2Former. Teoretická část práce je v rámci kapitol strukturována věcně, avšak obsahově se student k některým stěžejním okruhům vyjadřuje velmi stručně a netechnicky, viz Hluboké učení, str. 23, Segmentace obrazu, str. 24–25, takže tyto texty nemají pro práci velký přínos. Dále jsou formulace určitých vět poněkud kostrbaté, viz Datová sada, str. 29, některé vložené obrázky jsou v horší kvalitě, viz obr. 1.3 a 1.5, a jsou přítomny chyby ve formátování, viz str. 61. V praktické části student kromě veřejně dostupných dat (Roboflow) nasbíral a anotoval vlastní data (cca 1000 snímků). Tady se nabízí otázka, proč student nezvládl nasbírat více vlastních dat, když sám omezení počtu trénovacích snímků pro modely v práci zmiňuje. Vyhodnocení výsledků by mohlo být přehlednější, některé experimenty jsou v kontextu řešeného scénáře nadbytečné. Z textu nevyplývá, že by stávající architektury modelů byly studentem zásadně modifikovány. Modely byly trénovány a testovány vždy zvlášť, buď na datech vlastních, nebo veřejných. Práce splnila zadání a celkově ji hodnotím 75 body. Topics for thesis defence:
  1. Popište rozdíl mezi segmentací s klasifikací a prostou detekcí s klasifikací objektů v obrazu. Jaké jsou výhody a nevýhody obou přístupů vzhledem k vašemu zadání?
  2. Uvádíte, že řešením některých problémů s klasifikací by bylo rozšíření vlastní trénovací sady, viz abstrakt. Jak velká by tedy tato sada měla ideálně být vzhledem ke složitosti architektur testovaných modelů?
  3. Proč jste nespojil vlastní data s daty z Roboflow a nepoužil je pro trénování a vyhodnocení používaných modelů?
Points proposed by reviewer: 75

Grade proposed by reviewer: C

Responsibility: Mgr. et Mgr. Hana Odstrčilová