bakalářská práce

Optimalizace modelu hlubokého učení pro segmentaci páteřních nádorů u pacientů s mnohočetným myelomem v CT datech

Text práce 14.44 MB Příloha 53.97 kB

Autor práce: Lukáš Balog

Ak. rok: 2025/2026

Abstrakt:

Táto bakalárska práca sa zaoberá automatickou segmentáciou lézií mnohopočetného myelómu chrbtice v dual-energy CT dátach s využitím metód hlbokého učenia. Vstupné dáta boli získané z verejne dostupného datasetu Spinal-Multiple-Myeloma-SEG, ktorý bol vytvorený pomocou dvojvrstvového CT systému (Philips IQon Spectral CT). Pre účely tejto štúdie boli volumetrické snímky využité vo forme virtuálnych monoenergetických obrazov pri 40~keV. Implementované a porovnané boli štyri architektúry hlbokého učenia nnU-Net, sieť s reziduálnym enkodérom (ResEnc U-Net), MedNeXt a reziduálna sieť s mechanizmom pozornosti (ResAttUNet), pričom každá z nich bola vyhodnotená v konfigurácii s anizotropným aj izotropným priestorovým rozlíšením. Všetky modely boli trénované a hodnotené pomocou 5-násobnej krížovej validácie. Výkonnosť sa posudzovala pomocou Dice koeficientu podobnosti (DSC), IoU, presnosti (precision), senzitivity (recall) a detekčnej miery, a to ako na úrovni pacienta, tak aj na úrovni jednotlivých lézií stratifikovaných podľa kategórie ich veľkosti.

Klíčová slova:

hlboké učenie, konvolučné neurónové siete, segmentácia, myelómové lézie, chrbtica, CT, dual-energy CT, virtuálne monoenergetické zobrazenie, nnU-Net, reziduálna sieť

Termín obhajoby

17.06.2026

Výsledek obhajoby

obhájeno (práce byla úspěšně obhájena)

znamkaCznamka

Klasifikace

Průběh obhajoby

Student prezentoval výsledky své práce a komise byla seznámena s posudky. Doc. Gumulec položil otázku: Dají se Vaše výsledky porovnat s jinou prací? Jak byste dosáhl lepších výsledků? Ing. Jakubíček položil otázku: Jaká byla vstupní data? Proč jste použil data jen z CT 40 keV? Student obhájil bakalářskou práci s výhradami a odpověděl na otázky členů komise a oponenta.

Jazyk práce

slovenština

Fakulta

Fakulta elektrotechniky a komunikačních technologií

Ústav

Ústav biomedicínského inženýrství

Studijní program

Biomedicínská technika a bioinformatika (BPC-BTB)

Složení komise

Doc. MUDr. Jaromír Gumulec, Ph.D. (předseda)
doc. Mgr. Ing. Karel Sedlář, Ph.D. (místopředseda)
Ing. Jan Odstrčilík, Ph.D. (člen)
Ing. Jiří Sekora, MBA (člen)
Ing. Andrea Němcová, Ph.D. (člen)
Ing. Roman Jakubíček, Ph.D. (člen)

Posudek vedoucího
Ing. et Ing. Michal Nohel

Předložená bakalářská práce studenta Lukáše Baloga se zabývá segmentací páteřních nádorů u pacientů s mnohočetným myelomem v CT datech. Práce má logickou strukturu, je zpracována na přibližně 54 stranách od úvodu po závěr a cituje celkem 66 literárních zdrojů.
V teoretické části se student věnuje popisu anatomie páteře, principům dual-energy CT včetně získávání různých parametrických map a základním principům konvolučních neuronových sítí. Součástí práce je rovněž literární rešerše publikovaných metod strojového učení se zaměřením na segmentaci páteřních nádorů.
V praktické části se student seznámil s dostupnými daty a provedl jejich předzpracování spočívající v ořezání dat na oblast páteře. Na základě provedené literární rešerše následně implementoval a natrénoval modely s různými architekturami (nnU-Net, ResEnc U-Net, MedNeXt a ResAttUNet). Je však nutné zmínit, že práce na praktické části probíhaly převážně až v závěrečné fázi zpracování bakalářské práce. Přestože bylo po obhajobě semestrální práce domluveno pravidelné konzultování postupu řešení, student této možnosti využíval jen omezeně. Některé nedostatky praktické části tak byly odhaleny až při kontrole rozpracované verze práce.
Pozitivně hodnotím, že student následně v omezeném časovém prostoru identifikované chyby opravil, modely znovu natrénoval na správně připravených datech a provedl analýzu dosažených výsledků jak z hlediska segmentační úspěšnosti, tak z hlediska klasifikační úspěšnosti ve vztahu k velikosti lézí. Student porovnal modely využívající prostorové rozlišení navržené frameworkem nnU-Net (v práci označované jako anizotropní varianta) s variantou izotropní. U anizotropní varianty však postrádám explicitní uvedení konkrétního prostorového rozlišení navrženého frameworkem nnU-Net.
Výsledky byly řádně vyhodnoceny a ukazují, že nejlepších výsledků dosáhl model nnU-Net. Dále bych rád upozornil na nejasnost v tabulce 4.15, kde se objevuje označení „2*Malá“, jehož význam není z textu práce zřejmý. Tyto nedostatky pravděpodobně souvisejí s tím, že byla odevzdána starší verze práce. V odevzdané verzi rovněž chybí seznam příloh obsahující odkazy na GitHub repozitář a natrénované modely. Tyto odkazy jsou naštěstí dostupné v souboru README přiloženém k odevzdaným materiálům.
V souvislosti s dokumentací řešení bych ocenil přehlednější strukturu repozitáře a podrobnější dokumentaci popisující nastavení prostředí, postup spuštění predikce pomocí natrénovaných modelů a celý zpracovatelský řetězec potřebný pro praktické využití navrženého řešení.
Předložená práce splňuje stanovené zadání. Přestože byla dokončována v časové tísni a dokumentace vytvořeného řešení by si zasloužila pečlivější zpracování, student prokázal schopnost samostatně implementovat, natrénovat a vyhodnotit několik moderních segmentačních architektur.
Práci mohu doporučit k obhajobě, výsledné hodnocení navrhuji (C – 70 bodů). Výsledný počet bodů navržený vedoucím: 70

Známka navržená vedoucím: C

Posudek oponenta
Ing. Tomáš Vičar, Ph.D.

Student se ve své práci zabýval automatickou segmentací osteolytických ložisek mnohočetného myelomu v páteři ve spektrálních dual-energy CT datech (virtuální monoenergetické obrazy při 40 keV) pomocí hlubokého učení, kde implementoval a vzájemně porovnal čtyři moderní 3D architektury v rámci jednotné 5-násobné křížové validace na 72 pacientech. Je nutné zmínit, že práce s těmito daty je náročná zejména kvůli silné třídní nevyváženosti a nízkému kontrastu drobných ložisek v trabekulární kosti, a proto považuji vytvoření celé funkční porovnávací pipeline za obtížné na úrovni bakalářské práce.

Po formální stránce práce obsahuje vícero nedostatků; vytknout lze roztroušené překlepy a artefakty sazby (rozdělovací pomlčky uprostřed vět), chybné popisky některých obrázků (Obr. 4.5 a 4.8 přebírají hodnoty nnU-Netu, Obr. 4.12 zmiňuje jen tři modely) a označení „diplomová práca“ v abstraktu. Vlastní grafy jsou naopak vesměs kvalitní a čitelné. Tyto nedostatky působí jako následek dokončování na poslední chvíli. K formální stránce příloh bych vytkl jejich nereprodukovatelnost a nestandardní strukturu kódu (absolutní cesty, needitované 2D spouštěcí skripty).

Teoretická část je zpracována poměrně dobře, avšak její část považuji za zbytečnou vzhledem k cílům práce. Podrobný popis obecně velmi dobře známé teorie konvolučních sítí (kap. 3.1), rozsáhlá anatomie i kapitola o detekčních sítích typu YOLO a Mask R-CNN (kap. 3.3), které v práci nejsou nijak využity, nepovažuji za přínosné. Naopak velmi oceňuji rešerši současného stavu (kap. 3.4 a 3.5), kde se student nezabýval samozřejmostmi, ale relevantními aktuálními architekturami (MedNeXt, STU-Net) a publikovanými metodami pro segmentaci spinálních lézií včetně konkrétních dosažených výsledků; tato část patří k nejsilnějším.

V praktické části oceňuji systematicky provedené experimenty a zejména vlastní integraci MedNeXt a ResAttUNet do nnU-Net v2. Po prozkoumání příloh však mám několik zásadních výhrad, které jen stručně shrnu. Optimalizace hyperparametrů, kterou žádá název i bod 5) zadání, fakticky chybí — trainery dědí beze změny loss, optimizer, learning rate i počet epoch a jediným zásahem je ruční přepnutí na izotropní rozlišení, které výsledky zhoršilo (propad je přitom očekávaný, protože volba 1×1×1 mm podvzorkuje nejjemnější osu). Text dále staví přínos MedNeXt na jádrech 7×7×7, podle kódu však běžela varianta 3×3×3, takže argument o širokém receptivním poli nemá oporu. Klíčový experiment (izotropní vs. anizotropní) je proto metodicky vadný — srovnává jedinou ruční volbu rozlišení bez přeplánování architektury proti automatickému baseline, takže propad je očekávaný artefakt, ne obecné zjištění. Per-léze precision a recall jsou počítány jen v těsném výřezu okolo léze, takže jsou nadhodnocené; vyhodnocení navíc tiše vyřadí celého pacienta při neshodě tvaru masek a chybí nezávislá testovací množina. Z hlediska validity je třeba dodat, že žádná z modifikovaných architektur nepřekonala baseline nnU-Net a hraniční výsledek p = 0,055 je interpretován příliš pozitivně; navíc chybí korekce na vícenásobné porovnávání. Konečně použití masky páteře (nejspíše ručně tvořené) jako druhého vstupu úlohu zjednodušuje a snižuje automatičnost nástroje. Tyto výhrady nesnižují vynaložené úsilí, ale dohromady oslabují naplnění zadání i interpretovatelnost výsledků. Velmi oceňuji rovněž transparentnost a dohledatelnost práce: natrénované modely jsou publikovány na repozitáři Zenodo s DOI, zdrojový kód je dostupný na GitHubu, výpočetní prostředí (MetaCentrum, A100/L40) je řádně popsáno a použití nástrojů umělé inteligence je otevřeně deklarováno — avšak na okraj poznamenávám, že charakter přiloženého kódu ve mně nevzbuzuje dojem, že by nástroje AI byly použity jen na komentáře a stylistickou úpravu kódu, jak autor deklaruje; objektivně to však posoudit nelze a uvádím to pouze jako postřeh, nikoli jako výtku.

Zadání považuji za splněné v jeho hlavní lince (funkční porovnávací pipeline a vyhodnocení), bod optimalizace hyperparametrů však jen v omezené míře; ocenil bych skutečnou optimalizaci odpovídající názvu i bodům zadání. Jedná se o nadprůměrně rozsáhlou a ambiciózní bakalářskou práci s kvalitní rešerší a vlastní integrací moderních architektur, jejíž hodnotu však citelně snižuje absence vlastní optimalizace (jádro zadání), rozpor mezi textem a reálně spuštěným kódem a chybějící nezávislá testovací množina; proto práci hodnotím stupněm C – 78 bodů. Otázky k obhajobě:

Název práce i bod 5) zadání hovoří o optimalizaci hyperparametrů. Kromě změny cílového rozlišení — jaké hyperparametry (learning rate, loss funkce, počet epoch) jste skutečně ladil a jakým postupem?
Text práce opakovaně zdůvodňuje volbu MedNeXt velkými jádry 7×7×7 a širokým receptivním polem, podle přiloženého kódu i analytického skriptu však byla spuštěna varianta s jádrem 3×3×3 (nnUNetTrainerMedNeXt_B_k3) a varianta k7 v kódu není. Která konfigurace tedy skutečně stála za uváděnými výsledky a jak to ovlivňuje závěry o přínosu širokého receptivního pole?
Ve vašem attention gate je před sigmoidou zařazena InstanceNorm3d nad jediným kanálem, která mapu pozornosti centruje k nulovému průměru. Je to v pořádku? Nemůže to souviset s nejhorší detekcí malých lézí právě u ResAttUNet?

Výsledný počet bodů navržený oponentem: 78

Známka navržená oponentem: C

Odpovědnost: Mgr. et Mgr. Hana Odstrčilová

VUT

Fakulty a vysokoškolské ústavy

Součásti

Optimalizace modelu hlubokého učení pro segmentaci páteřních nádorů u pacientů s mnohočetným myelomem v CT datech