Bachelor's Thesis

Použití sítě R-GCN pro spojování matričních záznamů

Final Thesis 809.89 kB

Author of thesis: Tomáš Arlt

Acad. year: 2025/2026

Supervisor: Ing. Jaroslav Rozman, Ph.D.

Reviewer: doc. Ing. František Zbořil, Ph.D.

Abstract:

This thesis focuses on creating a program for processing, comparing, and linking historical records gained from a structured database. The data is stored in a heterogeneous graph, where relationships between people are represented as connections. The program uses a Relational Graph Convolutional Network and a pairwise classifier to identify records that refer to the same underlying real person. The result is a machine learning pipeline for entity resolution in genealogical and archival records.

Keywords:

artificial intelligence, machine learning, relational graph convolutional network, R-GCN, entity resolution, record linkage, historical record linkage, genealogical data, pairwise classification, binary classification, PyTorch, CUDA

Date of defence

15.06.2026

Result of the defence

Defended (thesis was successfully defended)

znamkaEznamka

Grading

E

Process of defence

Student nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta a na další otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm E.

Topics for thesis defence

  1. Zmiňujete omezení pro rozšíření systému, pokud by byla uvažována i místa uvedená v záznamech. Pokud by ale názvy míst, vesnic či měst byly normalizovány, co by vyžadovalo jejich začlenění do vašeho systému?
  2. Uvádíte, že práh pro binární klasifikátor (určující shodu osob) jste nastavoval empiricky. Šlo by využít metody učení na nalezení takovéhoto prahu?
  3. Z jakého důvodu jste nekomunikoval s vedoucím vaší práce?
  4. Co bylo zdrojem vaší datové sady, můžete ji nějak charakterizovat?
  5. Co je vstupem vašeho klasifikátoru?

Language of thesis

Czech

Faculty

Department

Study programme

Information Technology (BIT)

Composition of Committee

prof. Ing. Adam Herout, Ph.D. (předseda)
doc. Mgr. Adam Rogalewicz, Ph.D. (místopředseda)
Ing. Vladimír Bartík, Ph.D. (člen)
Ing. Michal Hradiš, Ph.D. (člen)
Ing. Josef Strnadel, Ph.D. (člen)

Supervisor’s report
Ing. Jaroslav Rozman, Ph.D.

Z prezentace oponentovi to vypadá, že student odevzdal funkční práci, která pravděpodobně splňuje, co má. Protože ale jako vedoucí hodnotím přístup studenta k práci, musím dát hodnocení F, protože student během semestru  vůbec nekomunikoval, a tak pro mě bylo odevzdání práce docela překvapením.

Evaluation criteria Verbal classification
Informace k zadání

Cílem práce bylo použít neuronovou síť pro úkol hledání stejných osob v  záznamech z matrik. Práce částečně navazovala na podobné práce zpracovávané na naší fakultě. Podle prezentace práce oponentovi to vypadá, že student požadavky zadání splnil.

Práce s literaturou

Studentovi byla poskytnuta základní literatura.

Aktivita během řešení, konzultace, komunikace

Student byl aktivní v zimním semestru, v letním jsem ho viděl až při prezentaci práce oponentovi.

Aktivita při dokončování

Práce nebyla vůbec konzultována.

Publikační činnost, ocenění

-

Points proposed by supervisor: 49

Grade proposed by supervisor: F

I když je text spíše stručný a má svoje nedostatky, oceňuji zejména to, že student ukázal, že kombinace zvolených metod může vést k zajímavému pokroku v problému slučování identit. To mě vede k hodnocení práce nadprůměrným stupněm C.

Evaluation criteria Verbal classification Points
Náročnost zadání

Evaluation level: obtížnější zadání

Zadání považuji za obtížnější. Problém propojování záznamů není triviální a navrhnout systém s pokročilými modely je nad běžnou úroveň bakalářské práce. 

Prezentační úroveň technické zprávy

Text obsahuje vše podstatné a je strukturován obecně správně. Oceňuji, že student v práci explicitně uvedl konkrétnější cíle nad rámec zadání, což dává čtenáři už na začátku přehled, co se v textu dočte. Přesto mám k prezentační úrovni několik výtek. V textu je několik stran věnováno poměrně známému principu základních neuronových sítí a zpětné propagaci (backpropagation), zatímco složitější sítě GCN a R-GCN, na kterých staví jádro práce, by si zasloužily více prostoru. Místy autor bez předchozího vysvětlení zmiňuje některé méně podstatné pojmy a algoritmy – například jev oversmoothing, metody reservoir/rejection sampling nebo finální L2 normalizaci (uvedenou na obrázku 4.1). Tyto koncepty sice nejsou pro práci kritické, ale text by byl srozumitelnější, kdyby u nich byl stručně uveden důvod jejich volby. V kapitole 4.13 je popis nevyvážený. Samotný proces učení autor popisuje jen velmi povrchně. Nadbytečně velký prostor naopak věnuje popisu běžných hardwarových optimalizací na grafických kartách, jako je AMP nebo CUDA. Tyto implementační detaily jsou pro přínos práce vedlejší, text měl raději vysvětlit konkrétní nastavení a chování algoritmu. Kapitola popisující testování je naopak v pořádku.

75
Formální úprava technické zprávy

Text je psán česky a jazykově v pořádku. Jen občas se objeví formulace, které mohly být provedeny jinak (například "měla lví podíl" na straně 22). Rovnice bývají obvykle číslovány. Navíc pokud je z několika uvedených rovnic číslována jen jedna, působí to na čtenáře podivně. V ostatních ohledech považuji formální úpravu technické zprávy za kvalitní.

85
Realizační výstup

Realizačním výstupem je aplikace, která provádí to, co je napsáno. Přijímá genealogické záznamy, zpracovává je a pro dvojice osob usuzuje o jejich shodě. Tedy věcně je to správně, ale jedná se pouze o základní konzolovou aplikaci.

80
Využitelnost výsledků

Již jsem uvedl, že výsledky jsou zajímavé a použitelné pro realizaci kvalitního systému, který je schopen autonomně propojovat entity v historických pramenech, nejen matrikách.

Rozsah splnění požadavků zadání

Evaluation level: zadání splněno

Zadání považuji za splněné. Doslovný výklad zadání by sice znamenal úplné propojení osob v záznamech, student se však zaměřil na jádro celého problému. Navrhl systém, který umí spolehlivě určit shodu mezi lidmi v různých matrikách, a jeho řešení dosahuje lepších výsledků než dosavadní statistické přístupy. Bez spolehlivé detekce shody se navíc bez finálního propojování rodokmenů nelze obejít, takže toto drobné odchýlení od zadání považuji za plně vykompenzované.

Rozsah technické zprávy

Evaluation level: je v obvyklém rozmezí

Práce s literaturou

Vzhledem k náplni práce se v seznamu literatury objevuje jen sedm položek, což je podprůměrný počet. Vzhledem k tomu, že se student musel seznámit s řadou výpočetních modelů, měla by být pojednání o sítích GNN, GCN a R-GCN v textu řádně opatřena citacemi na konkrétní místa, kde se o nich píše. Také bych v seznamu čekal zdroje k problému rozlišení entit, ke grafovým databázím nebo k pokročilejšímu zpracování textových atributů. Podklady pro teoretickou část tak považuji za nedostatečné.

52
Topics for thesis defence:
  1. Zmiňujete omezení pro rozšíření systému, pokud by byla uvažována i místa uvedená v záznamech. Pokud by ale názvy míst, vesnic či měst byly normalizovány, co by vyžadovalo jejich začlenění do vašeho systému?
  2. Uvádíte, že práh pro binární klasifikátor (určující shodu osob) jste nastavoval empiricky. Šlo by využít metody učení na nalezení takovéhoto prahu?
Points proposed by reviewer: 72

Grade proposed by reviewer: C

Responsibility: Mgr. et Mgr. Hana Odstrčilová