Bachelor's Thesis

Semi-Automatic Word Normalization in Parish Records

Final Thesis 3.43 MB

Author of thesis: Ing. David Hříbek

Acad. year: 2018/2019

Supervisor: Ing. Jaroslav Rozman, Ph.D.

Reviewer: doc. Ing. František Zbořil, Ph.D.

Abstract:

This work deals with the extension of DEMoS web application for the management of parish records by the possibility of normalization (assignment of a normalized form of writing to individual words) of names, surnames, occupations, domiciles and other types of words occurring in parish records. In the solution, a duplicate record detection process was used, which allowed sorting of the records from parish records into clusters of similar words. As a result of the clustering, it was possible to share normalized word variants within these clusters. Thus, DEMoS suggests normalized variants for words entered by users, used not only for the same words, but also for similar words. In this work, automatic testing of word clustering was proposed. In total, 640 different combinations of clustering parameters were tested for each word type. Subsequently, the best clustering parameters were selected for each word type. By normalizing words, DEMoS application significantly increases the efficiency of searching in parish records. Records are also easier to read.

Keywords:

parish records, data-matching, deduplication, normalization, duplicate detection, searching, DEMoS

Date of defence

13.06.2019

Result of the defence

Defended (thesis was successfully defended)

znamkaAznamka

Grading

A

Process of defence

Student nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta a na další otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm A.

Otázky u obhajoby:

  • Co je míněno shlukem, co jej tvoří, co vše jej určuje a jak se příslušnost ke shluku přesně určuje, neboli jaký konkrétní algoritmus byl pro roztřídění objektů do shluků použit?
  • Jak provádíte tranzitivní uzavření? Jsou prvky shluku ekvivalentní?
  • Podobnost berete jako fuzzy?
  • Jak jste vyhodnocoval funkčnost aplikace?

Language of thesis

Czech

Faculty

Department

Study programme

Information Technology (IT-BC-3)

Field of study

Information Technology (BIT)

Composition of Committee

doc. Ing. František Zbořil, Ph.D. (předseda)
doc. RNDr. Dana Hliněná, Ph.D. (místopředseda)
doc. Ing. Lukáš Burget, Ph.D. (člen)
Ing. František Grézl, Ph.D. (člen)
Ing. Josef Strnadel, Ph.D. (člen)

Supervisor’s report
Ing. Jaroslav Rozman, Ph.D.

Grade proposed by supervisor: A

File inserted by supervisor Size
Hodnocení vedoucího [.pdf] 85,65 kB

Grade proposed by reviewer: B

File inserted by the reviewer Size
Posudek oponenta [.pdf] 92,75 kB

Responsibility: Mgr. et Mgr. Hana Odstrčilová