Master's Thesis

Intelligent Data Integration from Web Sources

Final Thesis 9.82 MB

Author of thesis: Ing. Rudolf Jurišica

Acad. year: 2025/2026

Supervisor: doc. Ing. Radek Burget, Ph.D.

Reviewer: Ing. Kristýna Zaklová

Abstract:

This thesis addresses the intelligent processing of data retrieved from web sources containing unstructured data. The proposed system utilizes modern data processing using Large Language Models. The primary focus is on the deployment of language models designed for local execution on personal computers. Model output optimization is achieved through advanced prompt engineering techniques. The resulting system provides a complete workflow: data acquisition from websites, extraction of required information from unstructured data, and subsequent storage. Furthermore, it enables searching within the results using natural language queries. The system is accessible via a developed web application.

Keywords:

intelligent data extraction, web application, large language model, local LLM, machine learning, artificial intelligence, intelligent system, web sources, post-processing, web scraping, automotive advertisements, prompt engineering, Retrieval-Augmented Generation, dataset, structured extraction, data normalization, text-to-sql

Date of defence

25.06.2026

Result of the defence

Defended (thesis was successfully defended)

znamkaAznamka

Grading

A

Process of defence

Student nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta a na další otázky přítomných, např. ohledně rychlosti inference, konkrétního typu cílové výpočetní architektury a souvisejících právních aspektů využití dat z jiných inzertních portálů. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm A - výborně.

Topics for thesis defence

  1. V práci zmiňujete vlastní katalog vozidel. Mohl byste přiblížit jeho funkci a jaká data obsahuje?
  2. Umíte si představit nasazení Vašeho řešení do praktického provozu? Bylo by k tomu potřeba nějakých dodatečných úprav? A jak náročná by byla integrace dalších inzertních portálů?

Language of thesis

Czech

Faculty

Department

Study programme

Information Technology and Artificial Intelligence (MITAI)

Specialization

Intelligent Systems (NISY)

Composition of Committee

doc. Ing. František Zbořil, CSc. (předseda)
doc. Ing. Vladimír Janoušek, Ph.D. (místopředseda)
Ing. Martin Hrubý, Ph.D. (člen)
Ing. Jaroslav Rozman, Ph.D. (člen)
Dr. Ing. Petr Peringer (člen)
Ing. Tomáš Goldmann, Ph.D. (člen)

Supervisor’s report
doc. Ing. Radek Burget, Ph.D.

Pan Jurišica pracoval na své diplomové práci zodpovědně po celou dobu řešení, samostatně navrhoval a ověřoval možná řešení souvisejících problémů a vše průběžně konzultoval. Z pohledu vedoucího proto hodnotím jeho práci jako výbornou.

Evaluation criteria Verbal classification
Informace k zadání

Cílem práce byl průzkum možností využití velkých jazykových modelů (LLM) pro extrakci strukturovaných dat z nestrukturovaných webových zdrojů, jako je např. internetová inzerce. Jedná se o vlastní iniciativu studenta. Za náročnou část práce považuji zejména nutnost skloubit vlastní obsah s dodatečnými znalostmi, které text inzerátů často předpokládá a bez kterých není možné obsah plně vyhodnotit. Zadání považuji z pohledu vedoucího za splněné.

Aktivita při dokončování

Práce byla dokončena ve značném předstihu a její finální podoba byla řádně konzultována.

Publikační činnost, ocenění

Práce byla prezentována v rámci studentské konference Excel@FIT.

Práce s literaturou

Student využíval zdroje doporučené vedoucím a samostatně vyhledával další informační zdroje.

Aktivita během řešení, konzultace, komunikace

Student pracoval převážně samostatně, svůj postup však pravidelně konzultoval a vždy prezentoval znatelný pokrok v řešení.

Points proposed by supervisor: 95

Grade proposed by supervisor: A

Reviewer’s report
Ing. Kristýna Zaklová

Student navrhl, implementoval a experimentálně vyhodnotil komplexní systém pro inteligentní integraci dat z webových zdrojů. Práce obsahuje kvalitní teoretický základ, rozsáhlou experimentální část i prakticky využitelné realizační výstupy. Přes některé formální nedostatky hodnotím práci jako nadprůměrnou a navrhuji proto hodnocení stupněm A. 

Evaluation criteria Verbal classification Points
Rozsah splnění požadavků zadání

Evaluation level: zadání splněno

Zadání považuji za splněné. Textová část práce pokrývá všechny body zadání a vytvořené výstupy odpovídají stanoveným cílům. Funkčnost navrženého řešení byla ověřena na dvou reálných inzertních portálech a práce obsahuje také experimentální vyhodnocení vlastností řešení. 

Rozsah technické zprávy

Evaluation level: je v obvyklém rozmezí

Práce má 82 stran včetně seznamu literatury, rozsah technické zprávy odpovídá požadavkům kladeným na diplomovou práci. 

Prezentační úroveň technické zprávy

Technická zpráva je logicky členěna do osmi kapitol, jednotlivé kapitoly na sebe vhodně navazují. Kladně hodnotím vhodný obsah teoretických kapitol a rozsah experimentální části. Z hlediska vytvořeného řešení byla v textu mírně upozaděna webová aplikace. Některé obrázky (např. 6.2) a tabulky (např. 7.3) jsou v textu umístěny ve větší vzdálenosti od míst, kde jsou v textu referovány, což zhoršuje plynulost čtení. V práci se také vyskytují ukázky zdrojových kódů, které nejsou formálně vloženy jako výpisy, nemají popisky ani nejsou z textu odkazovány. U některých obrázků postrádám reference z textu (např. 2.2 a 2.4).

85
Formální úprava technické zprávy

Po jazykové stránce je technická zpráva na dobré úrovni. Z typografického hlediska se vyskytují pouze drobné nedostatky, například občasné přetečení textu (především v kapitole 6), bílá místa nebo obrázky (např. 3.1 a 5.3), jejichž jazyk neodpovídá jazyku práce. Tyto nedostatky však nemají významný vliv na celkovou srozumitelnost textu. 

85
Práce s literaturou

Práce se odkazuje na 69 zdrojů, které jsou pro řešenou problematiku relevantní. Použitá literatura poskytuje dostatečný základ pro zpracování tématu.

90
Realizační výstup

Realizačním výstupem je systém umožňující automatizované získávání a zpracování dat z webových zdrojů s využitím velkých jazykových modelů. Součástí řešení je také webová aplikace umožňující dotazování nad získanými daty pomocí techniky Retrieval-Augmented Generation. Oceňuji zejména experimentální porovnání různých modelů a přístupů, pečlivý výběr vhodného lokálního modelu a realizaci rozšíření nad rámec zadání, například vytvoření katalogu vozidel a mechanismu pro převod lokalit na odpovídající PSČ. 

95
Využitelnost výsledků

Vytvořené řešení je prakticky využitelné a lze jej dále rozšiřovat o další inzertní portály. Zvolená architektura i způsob zpracování dat umožňuje spolehlivě získávat strukturovaná data z webových stránek obsahujících převážně nestrukturovaný obsah. Práce byla prezentována v rámci studentské konference Excel@FIT 2026.

Náročnost zadání

Evaluation level: průměrně obtížné zadání

Zadání práce hodnotím jako průměrně obtížné. Student prostudoval problematiku extrakce dat z webových zdrojů, možnosti využití velkých jazykových modelů a pokročilých metod vyhledávání. Následně navrhl komplexní řešení umožňující získávání, zpracování, ukládání i následné vyhledávání informací o automobilech z inzertních portálů (bazos.cz a hyperinzerce.cz). Součástí práce bylo také experimentální porovnání různých přístupů k extrakci dat a různých variant promptů, přičemž na zvolených datech vyšel nejlépe prompt využívající techniky Few-Shot Prompting spolu se vzorem Persona.

Topics for thesis defence:
  1. V práci zmiňujete vlastní katalog vozidel. Mohl byste přiblížit jeho funkci a jaká data obsahuje?
  2. Umíte si představit nasazení Vašeho řešení do praktického provozu? Bylo by k tomu potřeba nějakých dodatečných úprav? A jak náročná by byla integrace dalších inzertních portálů?
Points proposed by reviewer: 92

Grade proposed by reviewer: A

Responsibility: Mgr. et Mgr. Hana Odstrčilová