Přístupnostní navigace
E-application
Search Search Close
Bachelor's Thesis
Author of thesis: Bc. Vojtěch Kučera
Acad. year: 2023/2024
Supervisor: Ing. Vladimír Bartík, Ph.D.
Reviewer: Ing. Ivana Burgetová, Ph.D.
This thesis focuses on data extraction from validation protocols in the PDF format. These protocols are generated by insurance providers. The thesis introduces the PDF format, some of the methods used for data extraction from files in the PDF format and describes the design and implementation of a tool for extraction of data from validation protocols. This tool was implemented in Python and uses user-editable finite state machines to achieve this task. The output of the program is a single file in one of the following formats: txt, csv, xlsx, xml, sql. The sql output is designed to save data to a database table utilized by STAPRO s.r.o.
PDF, extractor, data extraction, validation protocol, insurance provider, finite state machine, FSM, Python
Date of defence
12.06.2024
Date of publish
12.06.2027
Result of the defence
Defended (thesis was successfully defended)
Grading
C
Process of defence
Student nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta a na další otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm C.
Topics for thesis defence
Language of thesis
Czech
Faculty
Fakulta informačních technologií
Department
Department of Information Systems
Study programme
Information Technology (BIT)
Composition of Committee
doc. Dr. Ing. Dušan Kolář (předseda) Ing. Vladimír Bartík, Ph.D. (člen) Ing. Jaroslav Dytrych, Ph.D. (člen) doc. Mgr. Adam Rogalewicz, Ph.D. (člen) Ing. Marcela Zachariášová, Ph.D. (člen)
Supervisor’s reportIng. Vladimír Bartík, Ph.D.
Přístup pana Kučery během řešení práce hodnotím kladně, a také výsledná bakalářská práce je kvalitní. Navrhuji hodnocení stupněm B (velmi dobře).
Zadání vzniklo jako součást spolupráce FIT s firmou STAPRO. Cílem bylo prostudovat formát výkazů ze zdravotních pojišťoven, které jsou zejména ve formátu PDF a vytvořit nástroj, který bude provádět extrakci těchto dat do strukturované formy. Řešení je funkční a splňuje zadání. Student navíc přidal možnost modifikovat extraktor na základě případných změn ve formátu vstupního souboru.
Většinu studijních materiálů si student vyhledal samostatně, k volbě materiálů nemám výhrady.
Student své řešení průběžně konzultoval jak se mnou, tak se zadavatelem.
Implementace i technická zpráva byly dokončeny včas, vše bylo se mnou konzultováno.
Grade proposed by supervisor: B
Reviewer’s reportIng. Ivana Burgetová, Ph.D.
Předložená bakalářská práce sestává ze zdařilého, mírně nadprůměrného realizačního výstupu a slabší, poměrně krátké technické zprávy. Celkově se tak jedná o průměrnou bakalářskou práci, a proto navrhuji hodnocení stupněm C.
Evaluation level: průměrně obtížné zadání
Logická struktura technické zprávy je dobrá a jednotlivé kapitoly na sebe dobře navazují. Výhrady mám k rozsahům jednotlivých kapitol. Přestože charakter zadání této diplomové práce nevyžaduje rozsáhlý teoretický úvod práce, postrádám zde teorii týkající se konečných automatů, které jsou v práci využity. Jsou zmíněny až v kapitole 4 a jejich definice není kompletní. Dále postrádám kapitolu zmíněnou v předchozím bodě (knihovny pro extrakci textu z PDF dokumentů). Pochopitelnost textu v kapitole 4 by značně usnadnily vhodné UML diagramy (např. diagram tříd), které bohužel v práci chybí.
Po jazykové a typografické stránce se jedná o průměrnou zprávu s obvyklým počtem překlepů, gramatických chyb a stylistických nedostatků.
Realizační výstup této bakalářské práce považuji za mírně nadprůměrný. Student vytvořil funkční nástroj, který umožní extrakci dat z PDF výkazů zdravotních pojišťoven. Na řešení oceňuji především to, že řešení umožňuje rekonfiguraci nebo doplnění nových konečných automatů, které jsou využity pro extrakci požadovaných informací. Nástroj tak není omezen pouze na aktuální formát PDF výkazů, ale může být rozšířen na nové formáty.Lepšímu hodnocení brání to, že nebyl dořešen problém označený jako text inbleeding vyskytující se v protokolech jedné z uvažovaných pojišťoven.
Jedná se o praktickou práci, která řeší problém automatické extrakce informací z PDF reportů zdravotních pojišťoven. Nástroj je použitelný v praxi a předpokládá se jeho využití firmou STAPRO.
Evaluation level: zadání splněno
Evaluation level: splňuje pouze minimální požadavky
Technická zpráva popisuje všechny podstatné aspekty návrhu a implementace vytvořeného nástroje. Postrádám zde ale především kapitolu věnující se popisu dostupných knihoven pro extrakci textu z PDF dokumentu a zdůvodnění výběru zvolené knihovny. Dále by text mohl obsahovat podrobnější informace z teorie konečných automatů, které jsou při implementaci nástroje využity, a vhodné UML diagramy, které by doplnily popis implementovaného nástroje.
Seznam použité literatury není příliš obsáhlý, což odpovídá jednak studentovu pojetí řešení této práce (bez podrobnějšího průzkumu dostupných přístupů pro extrakci textu) a částečně také charakteru práce. Nicméně převzaté prvky jsou řádně odlišeny od vlastních výsledků a úvah.
Grade proposed by reviewer: C
Reasons for publication postponement
Publication of the final thesis has been postponed in compliance with the provisions of Section 47b (4) of Act No. 111/1998 Coll., on the Higher Education Institutions and on amendments and supplements to other acts, as amended.
The publication of the bachelor's thesis is in accordance with the provision of § 47b par. 4 of the Act no. 111/1998, about universities and about the change and supplementing other laws (Higher Education Act), as amended, delayed by 3 years. The reason for the delay of the publication is the protection of intellectual property and the fact that the thesis contains business secret in the sense of the relevant provisions of the Act no. 89/2012 Coll., Civil Code.
Responsibility: Mgr. et Mgr. Hana Odstrčilová