Master's Thesis

Genealogical Analysis of Historical Parish Registers of Frelichov and Use of LLM for Recognizing Family Relations

Final Thesis 2.95 MB

Author of thesis: Bc. Patrik Ducký

Acad. year: 2025/2026

Supervisor: doc. Ing. František Zbořil, Ph.D.

Reviewer: Ing. Jaroslav Rozman, Ph.D.

Abstract:

This thesis focuses on the design and implementation of a genealogical chatbot using a large language model and a graph database of genealogical data. The work analyzes the processing of historical parish records, inference of family relationships, and the use of the Retrieval-Augmented Generation architecture. It includes the design and implementation of the backend and frontend parts of the application, integration of the language model with the database, and evaluation of answer accuracy and language model hallucinations. The result of the thesis is a functional prototype of a genealogical chatbot enabling natural language querying of genealogical information.

Keywords:

genealogy, large language models, Retrieval-Augmented Generation, graph database, chatbot, historical parish records, natural language processing

Date of defence

22.06.2026

Result of the defence

Defended (thesis was successfully defended)

znamkaCznamka

Grading

C

Process of defence

Student nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm C.

Topics for thesis defence

  1. Nebylo by jednodušší využívat robustnějších LLM modelů?
  2. Jaká část implementace byla nejnáročnější?

Language of thesis

Slovak

Faculty

Department

Study programme

Information Technology and Artificial Intelligence (MITAI)

Specialization

Cybersecurity (NSEC)

Composition of Committee

doc. Mgr. Kamil Malinka, Ph.D. (předseda)
doc. Ing. Ondřej Ryšavý, Ph.D. (místopředseda)
Ing. Zbyněk Křivka, Ph.D. (člen)
doc. Ing. Ivan Homoliak, Ph.D. (člen)
Ing. Libor Polčák, Ph.D. (člen)
Ing. Radek Hranický, Ph.D. (člen)

Přístup studenta ke zpracování tématu považuji za nadprůměrný a hodnotím jej stupněm B.

Evaluation criteria Verbal classification
Informace k zadání

Zadáním práce bylo vytvořit systém, který by podporoval genealogický výzkum s pomocí velkých jazykových modelů. Takový přístup by měl umožňovat ze získaných dat snadněji vytvářet rodinné struktury, jako jsou rodokmeny. Student zpracoval zadání na dobré úrovni a výsledný systém ukazuje možnosti současných LLM pro podporu práce s matrikami a budování sociálních genealogických modelů.

Aktivita při dokončování

Text práce i samotná aplikace byly dokončeny v předstihu. Měl jsem možnost text podrobně pročíst a student mi demonstroval funkčnost aplikace, která plně odpovídala zadání. Aplikace fungovala spolehlivě v rámci možností a limitů, které LLM systémy jako zvolený Ollama v současnosti poskytují.

Publikační činnost, ocenění

Není mi známa

Práce s literaturou

Student si literaturu vyhledával samostatně a volil relevantní zdroje. Ty pokrývaly oblast práce s jazykovými modely i literaturu týkající se genealogie. Práce je tedy podle mého názoru podpořena kvalitními prameny v dostatečné míře.

Aktivita během řešení, konzultace, komunikace

Student pracoval samostatně, ale i tak prezentoval průběžně stav zpracování tématu. Několikrát jsme stanovili směr práce a potřebné problémy k řešení, ale zásadní korigování jeho práce nebylo třeba.

Points proposed by supervisor: 85

Grade proposed by supervisor: B

Reviewer’s report
Ing. Jaroslav Rozman, Ph.D.

Práce, spojující genealogii a možnost dotazovat se na rodinné vztahy je zajímavá a v rámci možností stávajících LLM je i funkční. Ale jejím negativem je chybějící analýza problematiky a návrh řešení. Proto dávám hodnocení na spodní hranici stupně C.

Evaluation criteria Verbal classification Points
Rozsah splnění požadavků zadání

Evaluation level: zadání splněno

Zadání práce bylo splněno.

Rozsah technické zprávy

Evaluation level: je v obvyklém rozmezí

Rozsah práce je v obvyklém rozmezí pro diplomové práce.

Prezentační úroveň technické zprávy

Práce naprosto postrádá nějakou analýzo toho, co se vlastně má dělat a přehled technologií, které by se daly použít.

60
Formální úprava technické zprávy

Formální úprava práce je dobrá.

75
Práce s literaturou

Student opakovaně cituje tu samou literaturu na té stejné straně (a ani tam necituje nic jiného), viz např. str. 5. Kromě toho píše citace až za tečku na konci věty, což není standardní způsob citování.

65
Realizační výstup

Realizační výstup je v rámci možností funkční.

75
Využitelnost výsledků

Práce v současné podobě ještě moc prakticky použitelná není, ale může sloužit jako dobrý základ pro navazující práce.

Náročnost zadání

Evaluation level: průměrně obtížné zadání

Cílem práce bylo vytvořit program pro kladení genealogických dotazů nad stávající databází. Dotazy měly být kladeny pomocí LLM modelů. Zadání práce bylo spíše průměrně obtížné.

Points proposed by reviewer: 70

Grade proposed by reviewer: C

Responsibility: Mgr. et Mgr. Hana Odstrčilová