Master's Thesis

Railway wagons classification

Final Thesis 10.33 MB Appendix 429.2 kB

Author of thesis: Bc. Radim Chaloupka

Acad. year: 2025/2026

Supervisor: Ing. Peter Honec, Ph.D.

Reviewer: Ing. Ilona Janáková, Ph.D.

Abstract:

This master’s thesis deals with the segmentation and classification of railway vehicles from a side view. The main motivation is to replace traditional trackside hardware components with advanced computer vision methods applied to image data from a line-scan camera. For development purposes, a custom balanced image dataset was created, containing 6,702 vehicle images divided into 70 classes. In the task of segmenting a moving train into individual wagons, classical algorithms were compared with the YOLOX neural network, which achieved an accuracy of 98.02 %. The subsequent vehicle classification without the use of OCR compared the classical Bag of Visual Words method with the YOLOX and DINOv3 deep learning models. All methods demonstrated a high success rate, with the state-of-the-art DINOv3 model achieving the best results with a classification accuracy of 99.29 %. The obtained results clearly prove that the proposed solution represents a highly reliable and cost-effective alternative to existing hardware diagnostic systems in railways.

Keywords:

Image Processing, Detection, Classification, Segmentation, Machine Learning, Deep Learning, Neural Networks, YOLOX, DINOv3, Bag of Visual Words

Date of defence

09.06.2026

Result of the defence

Defended (thesis was successfully defended)

znamkaAznamka

Grading

A

Process of defence

Student obhájil diplomovou práci. Komise neměla žádné námitky k řešené práci. V průběhu odborné rozpravy student odpověděl na dotazy týkající se zaměření jeho práce, obsahu obrazového datasetu a použitých softwarových prostředků.

Language of thesis

Czech

Faculty

Department

Study programme

Cybernetics, Control and Measurements (MPC-KAM)

Composition of Committee

doc. Ing. Radovan Hájovský, Ph.D. (předseda)
doc. Ing. Zdeněk Bradáč, Ph.D. (místopředseda)
Ing. Peter Honec, Ph.D. (člen)
Ing. Ilona Janáková, Ph.D. (člen)
Ing. Stanislav Klusáček, Ph.D. (člen)
Ing. Miloslav Richter, Ph.D. (člen)

Supervisor’s report
Ing. Peter Honec, Ph.D.

Diplomová práce pana Chaloupky si klade za cíl klasifikaci kolejových vozidel na základě bočního snímku pořízeného line-scan kamerou. Motivací je co nejlepší segmentace a klasifikace jednotlivých vagónů, což by umožnilo ušetřit instalaci indukčního detektoru náprav v kolejišti. Diplomant pracoval s rozsáhlým datasetem z průjezdů vlakových souprav.
Diplomant pracoval samostatně, bez nutnosti systematického vedení. V úvodu věnoval velké úsilí na vytvoření a anotování datasetu. Vzhledem k velké obecnosti snímků vozidel (různé typy, osobní, cargo, lokomotivy) a podmínek snímání v režimu 24/7 (různě exponované snímky, noční s přisvětlením i denní snímky) diplomant navrhnul a otestoval několik přístupů. Pro separaci vozů navrhnul gradientní a šablonovou metodu a také natrénoval YOLOX, která ve finále vykazovala nejlepší výsledky. Při klasifikaci použil BoVW s SVM, YOLOX a DINOv3. Oceňuji zejména inovativní přístup právě u metody DINO, která dosáhla přesnosti klasifikace přes 99%.
Celkově práci hodnotím velmi pozitivně, samotný text práce je po formální stránce i co do rozsahu v pořádku, práce s literaturou je na dobré úrovni. Ale samotné výsledky potvrdily, že tato cesta nahrazení indukčních senzorů metodami založenými na klasifikaci obrazových dat je perspektivní.
Student prokázal komplexní inženýrské dovednosti a práci doporučuji k obhajobě. Points proposed by supervisor: 90

Grade proposed by supervisor: A

Reviewer’s report
Ing. Ilona Janáková, Ph.D.

Diplomová práce pana Chaloupky zpracovává téma segmentace a klasifikace kolejových vozidel. Technická zpráva má 68 normostran, včetně příloh a všech náležitostí celkem 98 stran. Práce je strukturována velmi logicky: od teoretických základů snímání, předzpracování a rozpoznávání (kap. 1), přes rozbor řešené úlohy a definici požadavků (kap. 2) k jednotlivým dílčím úlohám – segmentace (kap. 3) a klasifikace (kap. 4) vagónů. Z mého subjektivního pohledu je text trochu stylisticky kostrbatý, hůře čitelný (místy nepřirozený slovosled ve spojení s drobnými interpunkčními nedostatky, akademický styl střídaný s méně formálním, několik drobných překlepů). Grafická úprava, kdy se musel student vypořádat s výrazným nepoměrem délky k výšce snímků (obzvláště u celých souprav vlaků), je názorná a pomáhá porozumění navržených postupů. Typografické zpracování odpovídá standardům kladeným na diplomové práce.
Rešeršní část (kap. 1 – cca 30 stran) staví na základu 26 relevantních literárních zdrojů. Ty zahrnují jak uznávané oborové monografie, tak moderní vědecké články z databází (např. původní publikace k algoritmům YOLOX, DINO či jednotkám GELU). Interní výukové materiály, využité v úvodních obecnějších částech, mohly být nahrazeny standardní recenzovanou odbornou literaturou. Citační etika je dodržována správně.
Zadání diplomové práce bylo splněno ve všech bodech a v plném rozsahu. Autor se úspěšně vypořádal s komplexní problematikou segmentace a klasifikace jedoucích železničních souprav z bočních line-scan snímků. Navrhl, naimplementoval a experimentálně porovnal jak klasické algoritmy počítačového vidění, tak moderní architektury hlubokého učení (DINOv3 bylo publikováno v srpnu 2025). Cíle nabídnout softwarovou alternativu k finančně a instalačně náročným hardwarovým prvkům v kolejišti bylo jistě dosaženo.
Navržené postupy i realizaci považuji za správné. Výsledky ukázaly, že v takto komplexní, z hlediska světelných podmínek, změn pozadí a především pestrosti samotných vagónů, rozmanité úloze, moderní přístupy využívající hluboké učení předčí ty klasické, resp. ty by vyžadovaly velké dopracování, přidání podmínek, parametrů. Dosažené přesnosti segmentace a klasifikace jsou výborné. Drobné výtky nebo spíše nejasnosti mám u vyhodnocení. U klasifikačních úloh bývá obvyklé vyhodnocovat více metrik, např. recall, F1-scóre, u vícetřídních klasifikací makro a mikro průměry. V případě téměř bezchybné klasifikace vagónů jsou dostatečně vypovídající přiložené matice záměn a slovní i obrázkový komentář. Ale u segmentace vagónů mi způsob vyhodnocení není úplně jasný. Při segmentaci, podle předešlého textu, vzniká nemálo falešně pozitivních detekcí, které zvolenou metrikou nejsou vyhodnoceny, přitom by měly přímý vliv na využitelnost daného přístupu. Podle mě mělo být také stanoveno, jaký vliv má špatný ořez na úspěšnost klasifikace - vyhodnocen celý řetězec. Práce by také byla ještě hodnotnější, kdyby autor experimentálně ověřil vliv různých augmentací, případně předzpracování snímků, o kterých se sám v textu zmiňuje (rozšíření a vyrovnání trénovacího i testovacího datasetu, robustnost, bránění přeučování modelu apod.).
Realizační hodnota práce je, i přes výše zmíněné připomínky, vysoká. Navržené postupy mají veliký inovační potenciál a jsou využitelné pro další rozvoj v reálných systémech traťové diagnostiky. Pan Chaloupka úspěšně prokázal schopnost samostatně řešit komplexní úkoly na pomezí průmyslové automatizace a pokročilého hlubokého učení a splnil tak veškeré požadavky kladené na absolventa magisterského studia. Práci doporučuji k obhajobám s hodnocením B (86 b). Topics for thesis defence:
  1. - Můžete vyhodnotit (stačí u jasně nejlepšího YOLOX) množství falešně pozitivních detekcí v testovacím datasetu snímků celých souprav? Nebylo by možné filtrovat falešné detekce na Obr. 3.25 jednoduše podle výšky (předpokládám, že správné detekce/rámečky se budou blížit velikostí výřezům na Obr. 3.23)? Jak by podle Vás špatný ořez ovlivnil klasifikaci?
  2. - Nebylo by možné použít pro segmentaci detektor YOLOX naučený na klasifikaci vagónů? Případně, nezachránil by tento detektor chybující segmentaci (dva vagóny)?
  3. - Při analýze chyb klasifikace (obr. 4.8 a 4.9) modely YOLOX i DINOv3 nejčastěji chybovaly v záměně velmi podobných nákladních cisteren tříd Zas, Zans a Zaes. Pokud by bylo třeba i tyto třídy spolehlivě odlišit bez použití OCR, jaké byste navrhl úpravy? Stačilo by podle Vás jen rozšíření datsetu nebo byste navrhoval nějaké změny architektury, předzpracování, dodatečné vizuální příznaky (např. detaily podvozků, ventilů či popisových tabulek)?
Points proposed by reviewer: 86

Grade proposed by reviewer: B

Responsibility: Mgr. et Mgr. Hana Odstrčilová