Přístupnostní navigace
E-application
Search Search Close
Bachelor's Thesis
Author of thesis: Tomáš Arlt
Acad. year: 2025/2026
Supervisor: Ing. Jaroslav Rozman, Ph.D.
Reviewer: doc. Ing. František Zbořil, Ph.D.
This thesis focuses on creating a program for processing, comparing, and linking historical records gained from a structured database. The data is stored in a heterogeneous graph, where relationships between people are represented as connections. The program uses a Relational Graph Convolutional Network and a pairwise classifier to identify records that refer to the same underlying real person. The result is a machine learning pipeline for entity resolution in genealogical and archival records.
artificial intelligence, machine learning, relational graph convolutional network, R-GCN, entity resolution, record linkage, historical record linkage, genealogical data, pairwise classification, binary classification, PyTorch, CUDA
Date of defence
15.06.2026
Result of the defence
Defended (thesis was successfully defended)
Grading
E
Process of defence
Student nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta a na další otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm E.
Topics for thesis defence
Language of thesis
Czech
Faculty
Fakulta informačních technologií
Department
Department of Intelligent Systems
Study programme
Information Technology (BIT)
Composition of Committee
prof. Ing. Adam Herout, Ph.D. (předseda) doc. Mgr. Adam Rogalewicz, Ph.D. (místopředseda) Ing. Vladimír Bartík, Ph.D. (člen) Ing. Michal Hradiš, Ph.D. (člen) Ing. Josef Strnadel, Ph.D. (člen)
Supervisor’s reportIng. Jaroslav Rozman, Ph.D.
Z prezentace oponentovi to vypadá, že student odevzdal funkční práci, která pravděpodobně splňuje, co má. Protože ale jako vedoucí hodnotím přístup studenta k práci, musím dát hodnocení F, protože student během semestru vůbec nekomunikoval, a tak pro mě bylo odevzdání práce docela překvapením.
Cílem práce bylo použít neuronovou síť pro úkol hledání stejných osob v záznamech z matrik. Práce částečně navazovala na podobné práce zpracovávané na naší fakultě. Podle prezentace práce oponentovi to vypadá, že student požadavky zadání splnil.
Studentovi byla poskytnuta základní literatura.
Student byl aktivní v zimním semestru, v letním jsem ho viděl až při prezentaci práce oponentovi.
Práce nebyla vůbec konzultována.
-
Grade proposed by supervisor: F
Reviewer’s reportdoc. Ing. František Zbořil, Ph.D.
I když je text spíše stručný a má svoje nedostatky, oceňuji zejména to, že student ukázal, že kombinace zvolených metod může vést k zajímavému pokroku v problému slučování identit. To mě vede k hodnocení práce nadprůměrným stupněm C.
Evaluation level: obtížnější zadání
Zadání považuji za obtížnější. Problém propojování záznamů není triviální a navrhnout systém s pokročilými modely je nad běžnou úroveň bakalářské práce.
Text obsahuje vše podstatné a je strukturován obecně správně. Oceňuji, že student v práci explicitně uvedl konkrétnější cíle nad rámec zadání, což dává čtenáři už na začátku přehled, co se v textu dočte. Přesto mám k prezentační úrovni několik výtek. V textu je několik stran věnováno poměrně známému principu základních neuronových sítí a zpětné propagaci (backpropagation), zatímco složitější sítě GCN a R-GCN, na kterých staví jádro práce, by si zasloužily více prostoru. Místy autor bez předchozího vysvětlení zmiňuje některé méně podstatné pojmy a algoritmy – například jev oversmoothing, metody reservoir/rejection sampling nebo finální L2 normalizaci (uvedenou na obrázku 4.1). Tyto koncepty sice nejsou pro práci kritické, ale text by byl srozumitelnější, kdyby u nich byl stručně uveden důvod jejich volby. V kapitole 4.13 je popis nevyvážený. Samotný proces učení autor popisuje jen velmi povrchně. Nadbytečně velký prostor naopak věnuje popisu běžných hardwarových optimalizací na grafických kartách, jako je AMP nebo CUDA. Tyto implementační detaily jsou pro přínos práce vedlejší, text měl raději vysvětlit konkrétní nastavení a chování algoritmu. Kapitola popisující testování je naopak v pořádku.
Text je psán česky a jazykově v pořádku. Jen občas se objeví formulace, které mohly být provedeny jinak (například "měla lví podíl" na straně 22). Rovnice bývají obvykle číslovány. Navíc pokud je z několika uvedených rovnic číslována jen jedna, působí to na čtenáře podivně. V ostatních ohledech považuji formální úpravu technické zprávy za kvalitní.
Realizačním výstupem je aplikace, která provádí to, co je napsáno. Přijímá genealogické záznamy, zpracovává je a pro dvojice osob usuzuje o jejich shodě. Tedy věcně je to správně, ale jedná se pouze o základní konzolovou aplikaci.
Již jsem uvedl, že výsledky jsou zajímavé a použitelné pro realizaci kvalitního systému, který je schopen autonomně propojovat entity v historických pramenech, nejen matrikách.
Evaluation level: zadání splněno
Zadání považuji za splněné. Doslovný výklad zadání by sice znamenal úplné propojení osob v záznamech, student se však zaměřil na jádro celého problému. Navrhl systém, který umí spolehlivě určit shodu mezi lidmi v různých matrikách, a jeho řešení dosahuje lepších výsledků než dosavadní statistické přístupy. Bez spolehlivé detekce shody se navíc bez finálního propojování rodokmenů nelze obejít, takže toto drobné odchýlení od zadání považuji za plně vykompenzované.
Evaluation level: je v obvyklém rozmezí
Vzhledem k náplni práce se v seznamu literatury objevuje jen sedm položek, což je podprůměrný počet. Vzhledem k tomu, že se student musel seznámit s řadou výpočetních modelů, měla by být pojednání o sítích GNN, GCN a R-GCN v textu řádně opatřena citacemi na konkrétní místa, kde se o nich píše. Také bych v seznamu čekal zdroje k problému rozlišení entit, ke grafovým databázím nebo k pokročilejšímu zpracování textových atributů. Podklady pro teoretickou část tak považuji za nedostatečné.
Grade proposed by reviewer: C
Responsibility: Mgr. et Mgr. Hana Odstrčilová