Přístupnostní navigace
E-přihláška
Vyhledávání Vyhledat Zavřít
bakalářská práce
Autor práce: Bc. Vojtěch Kučera
Ak. rok: 2023/2024
Vedoucí: Ing. Vladimír Bartík, Ph.D.
Oponent: Ing. Ivana Burgetová, Ph.D.
Tato práce se zaměřuje na extrakci dat z validačních protokolů ve formátu PDF, které jsou vytvářeny zdravotními pojišťovnami. Práce představuje souborový formát PDF, některé metody pro extrakci dat ze souborů ve formátu PDF a popisuje návrh a implementaci nástroje pro extrakci dat z validačních protokolů. Tento nástroj byl implementován v programovacím jazyce Python a funguje na principu konečných stavových automatů, které jsou konfigurovatelné uživatelem. Výstupem programu je jeden soubor ve formátu txt, csv, xlsx, xml, nebo sql. Výstup ve formátu sql je určen k ukládání dat do databázové tabulky firmy STAPRO s.r.o.
PDF, extraktor, extrakce dat, validační protokol, pojišťovna, konečný stavový automat, FSM, Python
Termín obhajoby
12.06.2024
Práce bude zveřejněna
12.06.2027
Výsledek obhajoby
obhájeno (práce byla úspěšně obhájena)
Klasifikace
C
Průběh obhajoby
Student nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta a na další otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm C.
Otázky k obhajobě
Jazyk práce
čeština
Fakulta
Fakulta informačních technologií
Ústav
Ústav informačních systémů
Studijní program
Informační technologie (BIT)
Složení komise
doc. Dr. Ing. Dušan Kolář (předseda) Ing. Vladimír Bartík, Ph.D. (člen) Ing. Jaroslav Dytrych, Ph.D. (člen) doc. Mgr. Adam Rogalewicz, Ph.D. (člen) Ing. Marcela Zachariášová, Ph.D. (člen)
Posudek vedoucíhoIng. Vladimír Bartík, Ph.D.
Přístup pana Kučery během řešení práce hodnotím kladně, a také výsledná bakalářská práce je kvalitní. Navrhuji hodnocení stupněm B (velmi dobře).
Zadání vzniklo jako součást spolupráce FIT s firmou STAPRO. Cílem bylo prostudovat formát výkazů ze zdravotních pojišťoven, které jsou zejména ve formátu PDF a vytvořit nástroj, který bude provádět extrakci těchto dat do strukturované formy. Řešení je funkční a splňuje zadání. Student navíc přidal možnost modifikovat extraktor na základě případných změn ve formátu vstupního souboru.
Většinu studijních materiálů si student vyhledal samostatně, k volbě materiálů nemám výhrady.
Student své řešení průběžně konzultoval jak se mnou, tak se zadavatelem.
Implementace i technická zpráva byly dokončeny včas, vše bylo se mnou konzultováno.
Známka navržená vedoucím: B
Posudek oponentaIng. Ivana Burgetová, Ph.D.
Předložená bakalářská práce sestává ze zdařilého, mírně nadprůměrného realizačního výstupu a slabší, poměrně krátké technické zprávy. Celkově se tak jedná o průměrnou bakalářskou práci, a proto navrhuji hodnocení stupněm C.
Stupeň hodnocení: průměrně obtížné zadání
Logická struktura technické zprávy je dobrá a jednotlivé kapitoly na sebe dobře navazují. Výhrady mám k rozsahům jednotlivých kapitol. Přestože charakter zadání této diplomové práce nevyžaduje rozsáhlý teoretický úvod práce, postrádám zde teorii týkající se konečných automatů, které jsou v práci využity. Jsou zmíněny až v kapitole 4 a jejich definice není kompletní. Dále postrádám kapitolu zmíněnou v předchozím bodě (knihovny pro extrakci textu z PDF dokumentů). Pochopitelnost textu v kapitole 4 by značně usnadnily vhodné UML diagramy (např. diagram tříd), které bohužel v práci chybí.
Po jazykové a typografické stránce se jedná o průměrnou zprávu s obvyklým počtem překlepů, gramatických chyb a stylistických nedostatků.
Realizační výstup této bakalářské práce považuji za mírně nadprůměrný. Student vytvořil funkční nástroj, který umožní extrakci dat z PDF výkazů zdravotních pojišťoven. Na řešení oceňuji především to, že řešení umožňuje rekonfiguraci nebo doplnění nových konečných automatů, které jsou využity pro extrakci požadovaných informací. Nástroj tak není omezen pouze na aktuální formát PDF výkazů, ale může být rozšířen na nové formáty.Lepšímu hodnocení brání to, že nebyl dořešen problém označený jako text inbleeding vyskytující se v protokolech jedné z uvažovaných pojišťoven.
Jedná se o praktickou práci, která řeší problém automatické extrakce informací z PDF reportů zdravotních pojišťoven. Nástroj je použitelný v praxi a předpokládá se jeho využití firmou STAPRO.
Stupeň hodnocení: zadání splněno
Stupeň hodnocení: splňuje pouze minimální požadavky
Technická zpráva popisuje všechny podstatné aspekty návrhu a implementace vytvořeného nástroje. Postrádám zde ale především kapitolu věnující se popisu dostupných knihoven pro extrakci textu z PDF dokumentu a zdůvodnění výběru zvolené knihovny. Dále by text mohl obsahovat podrobnější informace z teorie konečných automatů, které jsou při implementaci nástroje využity, a vhodné UML diagramy, které by doplnily popis implementovaného nástroje.
Seznam použité literatury není příliš obsáhlý, což odpovídá jednak studentovu pojetí řešení této práce (bez podrobnějšího průzkumu dostupných přístupů pro extrakci textu) a částečně také charakteru práce. Nicméně převzaté prvky jsou řádně odlišeny od vlastních výsledků a úvah.
Známka navržená oponentem: C
Důvod odložení zveřejnění
Zveřejnění bakalářské práce je v souladu s ustanovením § 47b odst. 4 zákona č. 111/1998 Sb., o vysokých školách a o změně a doplnění dalších zákonů (zákon o vysokých školách), ve znění pozdějších předpisů, odloženo o 3 roky. Důvodem odložení zveřejnění je ochrana duševního vlastnictví a skutečnost, že bakalářská práce obsahuje obchodní tajemství ve smyslu příslušných ustanovení zákona č. 89/2012 Sb., občanského zákoníku.
Odpovědnost: Mgr. et Mgr. Hana Odstrčilová