Bachelor's Thesis

Optimization of a deep learning model for the segmentation of spinal tumors in patients with multiple myeloma in CT data

Final Thesis 14.44 MB Appendix 53.97 kB

Author of thesis: Lukáš Balog

Acad. year: 2025/2026

Supervisor: Ing. et Ing. Michal Nohel

Reviewer: Ing. Tomáš Vičar, Ph.D.

Abstract:

This bachelor thesis addresses the automatic segmentation of spinal multiple myeloma lesions in dual-energy CT data using deep learning methods. The input data were obtained from the publicly available Spinal-Multiple-Myeloma-SEG dataset, which was created using a dual-layer CT system (Philips IQon Spectral CT). For the purpose of this study, volumetric scans were utilized in the form of virtual monoenergetic images at 40~keV. Four deep learning architectures were implemented and compared nnU-Net, a residual encoder network (ResEnc U-Net), MedNeXt, and a residual attention network (ResAttUNet) each evaluated in both anisotropic and isotropic spatial resolution configurations. All models were trained and assessed using 5-fold cross-validation. Performance was evaluated using the Dice Similarity Coefficient (DSC), IoU, precision, recall, and detection rate, both at the patient level and at the per-lesion level stratified by lesion size category.

Keywords:

deep learning, convolutional neural networks, segmentation, myeloma lesions, spine, CT, dual-energy computed tomography, virtual monoenergetic imaging, nnU-Net, residual network

Date of defence

17.06.2026

Result of the defence

Defended (thesis was successfully defended)

znamkaCznamka

Grading

C

Process of defence

Student prezentoval výsledky své práce a komise byla seznámena s posudky. Doc. Gumulec položil otázku: Dají se Vaše výsledky porovnat s jinou prací? Jak byste dosáhl lepších výsledků? Ing. Jakubíček položil otázku: Jaká byla vstupní data? Proč jste použil data jen z CT 40 keV? Student obhájil bakalářskou práci s výhradami a odpověděl na otázky členů komise a oponenta.

Language of thesis

Slovak

Faculty

Department

Study programme

Biomedical Technology and Bioinformatics (BPC-BTB)

Composition of Committee

Doc. MUDr. Jaromír Gumulec, Ph.D. (předseda)
doc. Mgr. Ing. Karel Sedlář, Ph.D. (místopředseda)
Ing. Jan Odstrčilík, Ph.D. (člen)
Ing. Jiří Sekora, MBA (člen)
Ing. Andrea Němcová, Ph.D. (člen)
Ing. Roman Jakubíček, Ph.D. (člen)

Supervisor’s report
Ing. et Ing. Michal Nohel

Předložená bakalářská práce studenta Lukáše Baloga se zabývá segmentací páteřních nádorů u pacientů s mnohočetným myelomem v CT datech. Práce má logickou strukturu, je zpracována na přibližně 54 stranách od úvodu po závěr a cituje celkem 66 literárních zdrojů.
V teoretické části se student věnuje popisu anatomie páteře, principům dual-energy CT včetně získávání různých parametrických map a základním principům konvolučních neuronových sítí. Součástí práce je rovněž literární rešerše publikovaných metod strojového učení se zaměřením na segmentaci páteřních nádorů.
V praktické části se student seznámil s dostupnými daty a provedl jejich předzpracování spočívající v ořezání dat na oblast páteře. Na základě provedené literární rešerše následně implementoval a natrénoval modely s různými architekturami (nnU-Net, ResEnc U-Net, MedNeXt a ResAttUNet). Je však nutné zmínit, že práce na praktické části probíhaly převážně až v závěrečné fázi zpracování bakalářské práce. Přestože bylo po obhajobě semestrální práce domluveno pravidelné konzultování postupu řešení, student této možnosti využíval jen omezeně. Některé nedostatky praktické části tak byly odhaleny až při kontrole rozpracované verze práce.
Pozitivně hodnotím, že student následně v omezeném časovém prostoru identifikované chyby opravil, modely znovu natrénoval na správně připravených datech a provedl analýzu dosažených výsledků jak z hlediska segmentační úspěšnosti, tak z hlediska klasifikační úspěšnosti ve vztahu k velikosti lézí. Student porovnal modely využívající prostorové rozlišení navržené frameworkem nnU-Net (v práci označované jako anizotropní varianta) s variantou izotropní. U anizotropní varianty však postrádám explicitní uvedení konkrétního prostorového rozlišení navrženého frameworkem nnU-Net.
Výsledky byly řádně vyhodnoceny a ukazují, že nejlepších výsledků dosáhl model nnU-Net. Dále bych rád upozornil na nejasnost v tabulce 4.15, kde se objevuje označení „2*Malá“, jehož význam není z textu práce zřejmý. Tyto nedostatky pravděpodobně souvisejí s tím, že byla odevzdána starší verze práce. V odevzdané verzi rovněž chybí seznam příloh obsahující odkazy na GitHub repozitář a natrénované modely. Tyto odkazy jsou naštěstí dostupné v souboru README přiloženém k odevzdaným materiálům.
V souvislosti s dokumentací řešení bych ocenil přehlednější strukturu repozitáře a podrobnější dokumentaci popisující nastavení prostředí, postup spuštění predikce pomocí natrénovaných modelů a celý zpracovatelský řetězec potřebný pro praktické využití navrženého řešení.
Předložená práce splňuje stanovené zadání. Přestože byla dokončována v časové tísni a dokumentace vytvořeného řešení by si zasloužila pečlivější zpracování, student prokázal schopnost samostatně implementovat, natrénovat a vyhodnotit několik moderních segmentačních architektur.
Práci mohu doporučit k obhajobě, výsledné hodnocení navrhuji (C – 70 bodů). Points proposed by supervisor: 70

Grade proposed by supervisor: C

Reviewer’s report
Ing. Tomáš Vičar, Ph.D.

Student se ve své práci zabýval automatickou segmentací osteolytických ložisek mnohočetného myelomu v páteři ve spektrálních dual-energy CT datech (virtuální monoenergetické obrazy při 40 keV) pomocí hlubokého učení, kde implementoval a vzájemně porovnal čtyři moderní 3D architektury v rámci jednotné 5-násobné křížové validace na 72 pacientech. Je nutné zmínit, že práce s těmito daty je náročná zejména kvůli silné třídní nevyváženosti a nízkému kontrastu drobných ložisek v trabekulární kosti, a proto považuji vytvoření celé funkční porovnávací pipeline za obtížné na úrovni bakalářské práce.

Po formální stránce práce obsahuje vícero nedostatků; vytknout lze roztroušené překlepy a artefakty sazby (rozdělovací pomlčky uprostřed vět), chybné popisky některých obrázků (Obr. 4.5 a 4.8 přebírají hodnoty nnU-Netu, Obr. 4.12 zmiňuje jen tři modely) a označení „diplomová práca“ v abstraktu. Vlastní grafy jsou naopak vesměs kvalitní a čitelné. Tyto nedostatky působí jako následek dokončování na poslední chvíli. K formální stránce příloh bych vytkl jejich nereprodukovatelnost a nestandardní strukturu kódu (absolutní cesty, needitované 2D spouštěcí skripty).

Teoretická část je zpracována poměrně dobře, avšak její část považuji za zbytečnou vzhledem k cílům práce. Podrobný popis obecně velmi dobře známé teorie konvolučních sítí (kap. 3.1), rozsáhlá anatomie i kapitola o detekčních sítích typu YOLO a Mask R-CNN (kap. 3.3), které v práci nejsou nijak využity, nepovažuji za přínosné. Naopak velmi oceňuji rešerši současného stavu (kap. 3.4 a 3.5), kde se student nezabýval samozřejmostmi, ale relevantními aktuálními architekturami (MedNeXt, STU-Net) a publikovanými metodami pro segmentaci spinálních lézií včetně konkrétních dosažených výsledků; tato část patří k nejsilnějším.

V praktické části oceňuji systematicky provedené experimenty a zejména vlastní integraci MedNeXt a ResAttUNet do nnU-Net v2. Po prozkoumání příloh však mám několik zásadních výhrad, které jen stručně shrnu. Optimalizace hyperparametrů, kterou žádá název i bod 5) zadání, fakticky chybí — trainery dědí beze změny loss, optimizer, learning rate i počet epoch a jediným zásahem je ruční přepnutí na izotropní rozlišení, které výsledky zhoršilo (propad je přitom očekávaný, protože volba 1×1×1 mm podvzorkuje nejjemnější osu). Text dále staví přínos MedNeXt na jádrech 7×7×7, podle kódu však běžela varianta 3×3×3, takže argument o širokém receptivním poli nemá oporu. Klíčový experiment (izotropní vs. anizotropní) je proto metodicky vadný — srovnává jedinou ruční volbu rozlišení bez přeplánování architektury proti automatickému baseline, takže propad je očekávaný artefakt, ne obecné zjištění. Per-léze precision a recall jsou počítány jen v těsném výřezu okolo léze, takže jsou nadhodnocené; vyhodnocení navíc tiše vyřadí celého pacienta při neshodě tvaru masek a chybí nezávislá testovací množina. Z hlediska validity je třeba dodat, že žádná z modifikovaných architektur nepřekonala baseline nnU-Net a hraniční výsledek p = 0,055 je interpretován příliš pozitivně; navíc chybí korekce na vícenásobné porovnávání. Konečně použití masky páteře (nejspíše ručně tvořené) jako druhého vstupu úlohu zjednodušuje a snižuje automatičnost nástroje. Tyto výhrady nesnižují vynaložené úsilí, ale dohromady oslabují naplnění zadání i interpretovatelnost výsledků. Velmi oceňuji rovněž transparentnost a dohledatelnost práce: natrénované modely jsou publikovány na repozitáři Zenodo s DOI, zdrojový kód je dostupný na GitHubu, výpočetní prostředí (MetaCentrum, A100/L40) je řádně popsáno a použití nástrojů umělé inteligence je otevřeně deklarováno — avšak na okraj poznamenávám, že charakter přiloženého kódu ve mně nevzbuzuje dojem, že by nástroje AI byly použity jen na komentáře a stylistickou úpravu kódu, jak autor deklaruje; objektivně to však posoudit nelze a uvádím to pouze jako postřeh, nikoli jako výtku.

Zadání považuji za splněné v jeho hlavní lince (funkční porovnávací pipeline a vyhodnocení), bod optimalizace hyperparametrů však jen v omezené míře; ocenil bych skutečnou optimalizaci odpovídající názvu i bodům zadání. Jedná se o nadprůměrně rozsáhlou a ambiciózní bakalářskou práci s kvalitní rešerší a vlastní integrací moderních architektur, jejíž hodnotu však citelně snižuje absence vlastní optimalizace (jádro zadání), rozpor mezi textem a reálně spuštěným kódem a chybějící nezávislá testovací množina; proto práci hodnotím stupněm C – 78 bodů. Topics for thesis defence:
  1. Název práce i bod 5) zadání hovoří o optimalizaci hyperparametrů. Kromě změny cílového rozlišení — jaké hyperparametry (learning rate, loss funkce, počet epoch) jste skutečně ladil a jakým postupem?
  2. Text práce opakovaně zdůvodňuje volbu MedNeXt velkými jádry 7×7×7 a širokým receptivním polem, podle přiloženého kódu i analytického skriptu však byla spuštěna varianta s jádrem 3×3×3 (nnUNetTrainerMedNeXt_B_k3) a varianta k7 v kódu není. Která konfigurace tedy skutečně stála za uváděnými výsledky a jak to ovlivňuje závěry o přínosu širokého receptivního pole?
  3. Ve vašem attention gate je před sigmoidou zařazena InstanceNorm3d nad jediným kanálem, která mapu pozornosti centruje k nulovému průměru. Je to v pořádku? Nemůže to souviset s nejhorší detekcí malých lézí právě u ResAttUNet?
Points proposed by reviewer: 78

Grade proposed by reviewer: C

Responsibility: Mgr. et Mgr. Hana Odstrčilová