Master's Thesis

Family Trees Making from Archive Records

Final Thesis 2.63 MB

Author of thesis: Bc. Adam Haltmar

Acad. year: 2025/2026

Supervisor: Ing. Jaroslav Rozman, Ph.D.

Reviewer: doc. Ing. František Zbořil, Ph.D.

Abstract:

This theses describes a program for processing, comparing and linking archive records about
people from SQL database in a way to store them in a graph database and further extends
this project with a web application for browsing people from this database and constructing
their family pedigrees. It also introduces a new way to enhance results of manual record
linking with a help of machine learning.

Keywords:

genealogy, pedigree creation, record linking, graph database, web application, machine learning

Date of defence

23.06.2026

Result of the defence

Defended (thesis was successfully defended)

znamkaCznamka

Grading

C

Process of defence

Student nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta a na další otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm C.

Topics for thesis defence

  1. Jak jste propojil Vaše aplikace, které vznikly v rámci zpracování diplomové práce. se systémem DEMoS?
  2. Jak jste získal vztah pro (funkci?) S v kapitole 3.3.4? Jaké by byly hodnoty pro vzdálenost 20, 50, 99 a 100 km? Splňuje podle vás takto definovaná funkce svůj účel?
  3. Jak vizualizujete komplexní rodokmeny?

Language of thesis

Czech

Faculty

Department

Study programme

Information Technology and Artificial Intelligence (MITAI)

Specialization

Machine Learning (NMAL)

Composition of Committee

doc. Ing. Vítězslav Beran, Ph.D. (předseda)
prof. Ing. Hynek Heřmanský, Dr. Eng. (místopředseda)
doc. Ing. Ondřej Lengál, Ph.D. (člen)
doc. Ing. František Zbořil, Ph.D. (člen)
doc. Ing. Michal Bidlo, Ph.D. (člen)
RNDr. Marek Rychlý, Ph.D. (člen)

Supervisor’s report
Ing. Jaroslav Rozman, Ph.D.

Student v rámci práce vytvořil rozšíření programu DEMoS o vykreslování rodokmenů a také vytvořil program pro spojování genealogických záznamů do větších celků (tzn. do celých rodokmenů). Bohužel student zatím nezakomponoval svoji práci do webu DEMoS, proto dávám horší hodnocení.

Evaluation criteria Verbal classification
Informace k zadání

Práce byla náročná spíše spojením dvou víceméně nesouvisejících oblastí - vykreslováním rodokmenů a propojováním genealogických záznamů do vyšších celků. Práce na vykreslování rodokmenů byla vypsána už několikrát, ale toto je poprvé, kdy byla práce dotažena do využitelného výsledku. Druhá část práce navazuje také na už dříve vytvořené práce, ale rozdíl je nyní v použití neuronových sítí. Výsledná práce je funkční a jsem s ní spokojen.

Aktivita při dokončování

Definitivní obsah práce konzultován byl, ale ne moc.

Publikační činnost, ocenění

-

Práce s literaturou

Studentovi byla poskytnuta základní literatura a zbytek si aktivně obstarával sám.

Aktivita během řešení, konzultace, komunikace

Student byl aktivní spíše podprůměrně, ale protože pracoval na stejném zadání už v rámci BP, nebylo to příliš na škodu.

Points proposed by supervisor: 79

Grade proposed by supervisor: C

Pokud student vysvětlí splnění zadání ohledně včlenění svých programů do systému DEMoS, navrhuji hodnotit práci průměrným stupněm C.

Evaluation criteria Verbal classification Points
Rozsah splnění požadavků zadání

Evaluation level: zadání téměř splněno s drobnými výhradami

Zadání bylo ve své podstatě téměř splněno. Text zadání sice výslovně zmiňuje systém DEMoS a potřebu integrace řešení do tohoto prostředí, samotný systém DEMoS však v práci téměř nefiguruje a je zmíněn pouze okrajově jako program vyvíjený na fakultě. Z tohoto důvodu bude nutné, aby se student v rámci obhajoby ke splnění tohoto bodu detailněji vyjádřil.

Rozsah technické zprávy

Evaluation level: je v obvyklém rozmezí

Prezentační úroveň technické zprávy

V úvodu text seznamuje čtenáře s genealogií. Je to sice téma mimo IT, ale pro podstatu práce důležité. Další kapitola popisuje současné metody propojování záznamů zřejmě tak, jak byly vytvořeny v dřívějších prací. Kvůli velmi řídkým citacím není jasné, co je studentův vlastní vklad a co je čerpané ze zdrojů. Vlastní jádro práce leží v kapitolách 4 a 5, které jsou ale dost rozdílné. Čtvrtá kapitola popisuje grafické rozhraní, zatímco pátá kapitola je podle mě nejzajímavější, protože řeší samotné propojování osob. Část o využití neuronových sítí je sice psaná dost vágně a obecně, ale jsou zde uvedeny zajímavé výsledky dosažené pomocí sítě GraphSAGE. Oceňuji také využití embeddingů pro redukci prostoru potenciálních shod a tedy kandidátů k porovnání. Je sice škoda, že tato metoda je v sekci 5.6.1 popsána jen povrchně, ale schopnost systému propojovat záznamy pomocí těchto pokročilých metod ukazuje na dobrou inženýrskou práci. Vzhledem k funkčnosti neuronových sítí a náročnosti praktické části nakonec tato kvalita přímo vyvažuje dříve uvedené nedostatky včetně chybějící integrace se systémem DEMoS a má vliv na celkovou výslednou známku.

70
Formální úprava technické zprávy

Formální úpravu textu hodnotím jako průměrnou. Po jazykové stránce je práce v pořádku, text je bez gramatických či stylistických chyb a má dobrou stavbu vět. Výhrady mám však k grafickému zpracování a sazbě. V textu se objevují zvláštní obrázky s příliš velkými fonty (např. obrázek 3.2 nebo 5.1), grafy jsou zbytečně velké a místy je použito až příliš výrazné odsazení u odrážek.

70
Práce s literaturou

V textu se cituje celkem šestnáct zdrojů, z toho dvě bakalářské a jedna diplomová práce z naší fakulty. Ty pravděpodobně sloužily pro zpracování třetí kapitoly práce. Další zdroje jsou články o genealogii a několik zdrojů se týká neuronových sítí. V práci jsou všechny zdroje řádně citovány, ale jak jsem uvedl již dříve, mohly být převzaté části citovány pečlivěji, zejména v pasážích popisujících současný stav řešení problému.

75
Realizační výstup

Realizační výstup, tak jak jsem měl možnost jej vidět, je funkční, ale jako samostatné aplikace. Jednak vzniklo přijatelné rozhraní zobrazující rodokmeny, ale hlavně aplikace založená na neuronových sítích, která je schopna propojovat záznamy kvalitněji než původní statistické přístupy. Jako takový jej hodnotím nadprůměrným počtem bodů.

80
Využitelnost výsledků

Zadání mělo rozšířit systém DEMoS o nové rozhraní a zlepšit jeho schopnost automatického propojování osob v záznamech. Pokud popsané řešení bylo integrováno do systému DEMoS, zvýší komfort uživatelů zpracovávajících historické matriky a vytvářejících na jejich základě sociální modely dřívějších populací.

Náročnost zadání

Evaluation level: průměrně obtížné zadání

Cílem diplomové práce bylo zpracovat téma propojování záznamů, které bylo na naší fakultě v posledních letech řešeno již několikrát. I když je zadání koncipováno poměrně obecně, lze usoudit, že jeho hlavním účelem bylo uvést metody propojování záznamů do souladu se současným stavem poznání, vytvořit vhodné uživatelské rozhraní a tyto komponenty integrovat do systému DEMoS. Takto definované zadání považuji za průměrně obtížné.

Topics for thesis defence:
  1. Jak jste propojil Vaše aplikace, které vznikly v rámci zpracování diplomové práce. se systémem DEMoS?
  2. Jak jste získal vztah pro (funkci?) S v kapitole 3.3.4? Jaké by byly hodnoty pro vzdálenost 20, 50, 99 a 100 km? Splňuje podle vás takto definovaná funkce svůj účel?
Points proposed by reviewer: 72

Grade proposed by reviewer: C

Responsibility: Mgr. et Mgr. Hana Odstrčilová