Přístupnostní navigace
E-application
Search Search Close
Master's Thesis
Author of thesis: Ing. Rudolf Jurišica
Acad. year: 2025/2026
Supervisor: doc. Ing. Radek Burget, Ph.D.
Reviewer: Ing. Kristýna Zaklová
This thesis addresses the intelligent processing of data retrieved from web sources containing unstructured data. The proposed system utilizes modern data processing using Large Language Models. The primary focus is on the deployment of language models designed for local execution on personal computers. Model output optimization is achieved through advanced prompt engineering techniques. The resulting system provides a complete workflow: data acquisition from websites, extraction of required information from unstructured data, and subsequent storage. Furthermore, it enables searching within the results using natural language queries. The system is accessible via a developed web application.
intelligent data extraction, web application, large language model, local LLM, machine learning, artificial intelligence, intelligent system, web sources, post-processing, web scraping, automotive advertisements, prompt engineering, Retrieval-Augmented Generation, dataset, structured extraction, data normalization, text-to-sql
Date of defence
25.06.2026
Result of the defence
Defended (thesis was successfully defended)
Grading
A
Process of defence
Student nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta a na další otázky přítomných, např. ohledně rychlosti inference, konkrétního typu cílové výpočetní architektury a souvisejících právních aspektů využití dat z jiných inzertních portálů. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm A - výborně.
Topics for thesis defence
Language of thesis
Czech
Faculty
Fakulta informačních technologií
Department
Department of Information Systems
Study programme
Information Technology and Artificial Intelligence (MITAI)
Specialization
Intelligent Systems (NISY)
Composition of Committee
doc. Ing. František Zbořil, CSc. (předseda) doc. Ing. Vladimír Janoušek, Ph.D. (místopředseda) Ing. Martin Hrubý, Ph.D. (člen) Ing. Jaroslav Rozman, Ph.D. (člen) Dr. Ing. Petr Peringer (člen) Ing. Tomáš Goldmann, Ph.D. (člen)
Supervisor’s reportdoc. Ing. Radek Burget, Ph.D.
Pan Jurišica pracoval na své diplomové práci zodpovědně po celou dobu řešení, samostatně navrhoval a ověřoval možná řešení souvisejících problémů a vše průběžně konzultoval. Z pohledu vedoucího proto hodnotím jeho práci jako výbornou.
Cílem práce byl průzkum možností využití velkých jazykových modelů (LLM) pro extrakci strukturovaných dat z nestrukturovaných webových zdrojů, jako je např. internetová inzerce. Jedná se o vlastní iniciativu studenta. Za náročnou část práce považuji zejména nutnost skloubit vlastní obsah s dodatečnými znalostmi, které text inzerátů často předpokládá a bez kterých není možné obsah plně vyhodnotit. Zadání považuji z pohledu vedoucího za splněné.
Práce byla dokončena ve značném předstihu a její finální podoba byla řádně konzultována.
Práce byla prezentována v rámci studentské konference Excel@FIT.
Student využíval zdroje doporučené vedoucím a samostatně vyhledával další informační zdroje.
Student pracoval převážně samostatně, svůj postup však pravidelně konzultoval a vždy prezentoval znatelný pokrok v řešení.
Grade proposed by supervisor: A
Reviewer’s reportIng. Kristýna Zaklová
Student navrhl, implementoval a experimentálně vyhodnotil komplexní systém pro inteligentní integraci dat z webových zdrojů. Práce obsahuje kvalitní teoretický základ, rozsáhlou experimentální část i prakticky využitelné realizační výstupy. Přes některé formální nedostatky hodnotím práci jako nadprůměrnou a navrhuji proto hodnocení stupněm A.
Evaluation level: zadání splněno
Zadání považuji za splněné. Textová část práce pokrývá všechny body zadání a vytvořené výstupy odpovídají stanoveným cílům. Funkčnost navrženého řešení byla ověřena na dvou reálných inzertních portálech a práce obsahuje také experimentální vyhodnocení vlastností řešení.
Evaluation level: je v obvyklém rozmezí
Práce má 82 stran včetně seznamu literatury, rozsah technické zprávy odpovídá požadavkům kladeným na diplomovou práci.
Technická zpráva je logicky členěna do osmi kapitol, jednotlivé kapitoly na sebe vhodně navazují. Kladně hodnotím vhodný obsah teoretických kapitol a rozsah experimentální části. Z hlediska vytvořeného řešení byla v textu mírně upozaděna webová aplikace. Některé obrázky (např. 6.2) a tabulky (např. 7.3) jsou v textu umístěny ve větší vzdálenosti od míst, kde jsou v textu referovány, což zhoršuje plynulost čtení. V práci se také vyskytují ukázky zdrojových kódů, které nejsou formálně vloženy jako výpisy, nemají popisky ani nejsou z textu odkazovány. U některých obrázků postrádám reference z textu (např. 2.2 a 2.4).
Po jazykové stránce je technická zpráva na dobré úrovni. Z typografického hlediska se vyskytují pouze drobné nedostatky, například občasné přetečení textu (především v kapitole 6), bílá místa nebo obrázky (např. 3.1 a 5.3), jejichž jazyk neodpovídá jazyku práce. Tyto nedostatky však nemají významný vliv na celkovou srozumitelnost textu.
Práce se odkazuje na 69 zdrojů, které jsou pro řešenou problematiku relevantní. Použitá literatura poskytuje dostatečný základ pro zpracování tématu.
Realizačním výstupem je systém umožňující automatizované získávání a zpracování dat z webových zdrojů s využitím velkých jazykových modelů. Součástí řešení je také webová aplikace umožňující dotazování nad získanými daty pomocí techniky Retrieval-Augmented Generation. Oceňuji zejména experimentální porovnání různých modelů a přístupů, pečlivý výběr vhodného lokálního modelu a realizaci rozšíření nad rámec zadání, například vytvoření katalogu vozidel a mechanismu pro převod lokalit na odpovídající PSČ.
Vytvořené řešení je prakticky využitelné a lze jej dále rozšiřovat o další inzertní portály. Zvolená architektura i způsob zpracování dat umožňuje spolehlivě získávat strukturovaná data z webových stránek obsahujících převážně nestrukturovaný obsah. Práce byla prezentována v rámci studentské konference Excel@FIT 2026.
Evaluation level: průměrně obtížné zadání
Zadání práce hodnotím jako průměrně obtížné. Student prostudoval problematiku extrakce dat z webových zdrojů, možnosti využití velkých jazykových modelů a pokročilých metod vyhledávání. Následně navrhl komplexní řešení umožňující získávání, zpracování, ukládání i následné vyhledávání informací o automobilech z inzertních portálů (bazos.cz a hyperinzerce.cz). Součástí práce bylo také experimentální porovnání různých přístupů k extrakci dat a různých variant promptů, přičemž na zvolených datech vyšel nejlépe prompt využívající techniky Few-Shot Prompting spolu se vzorem Persona.
Grade proposed by reviewer: A
Responsibility: Mgr. et Mgr. Hana Odstrčilová