Master's Thesis

Large Language Models for Matching Public Tenders to Potential Applicant Company Profiles

Final Thesis 6.77 MB

Author of thesis: Bc. Michal Šmahel

Acad. year: 2025/2026

Supervisor: doc. RNDr. Pavel Smrž, Ph.D.

Reviewer: Ing. Jan Doležal

Abstract:

This work aims to create a specialized search engine for public tenders in the Czech environment, leveraging language models and a hybrid BM25 and semantic search. The selling point of the introduced search engine is the way users use it. Instead of filling in a complex form with many filtering options and a keyword-based search input, users can simply describe their business, products, and services using a concept called a company profile. This work also demonstrates the ability to generate the company profile using large language models solely from the company name and its unique identifier, with everything else automatically retrieved from public sources. Besides, the work provides a wide dataset of crawled tenders and generated company profiles for experimental and evaluation purposes. Manual evaluation of the implemented system shows that the search engine usually recommends about 69% of relevant tenders, even when using a generated company profile.

Keywords:

Public procurement, public tender, searching, retrieval, company profile, information, synthetic dataset, semantic similarity, large language models, embedding, BM25, hybrid search, natural language processing

Date of defence

24.06.2026

Result of the defence

Defended (thesis was successfully defended)

znamkaBznamka

Grading

B

Process of defence

Student nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm B.

Topics for thesis defence

  1. Snažíte se vytvořit generický profil nějaké firmy? Jak jste to otestoval?

Language of thesis

Czech

Faculty

Department

Study programme

Information Technology and Artificial Intelligence (MITAI)

Specialization

Information Systems and Databases (NISD)

Composition of Committee

prof. RNDr. Alexandr Meduna, CSc. (předseda)
doc. Ing. Radek Burget, Ph.D. (místopředseda)
RNDr. Marek Rychlý, Ph.D. (člen)
Ing. Šárka Květoňová, Ph.D. (člen)
Ing. Vladimír Veselý, Ph.D. (člen)
Ing. Jiří Hynek, Ph.D. (člen)

Supervisor’s report
doc. RNDr. Pavel Smrž, Ph.D.

Z hlediska realizačního výstupu a celkové zkušenosti ze spolupráce se studentem hodnotím diplomovou práci jako výbornou - vytvořený systém je bezprostředně použitelný, mohl by být nasazen i komerčně a směle konkurovat dnešním nejlepším systémům na trhu. Michal Šmahel pracuje houževnatě a je radost s ním spolupracovat. Na druhé straně hodnocení sráží výše zmíněný fakt, že finální experimenty a technická zpráva vznikaly v časovém presu, čímž utrpěla jejich kvalita.

Evaluation criteria Verbal classification
Informace k zadání

Téma mělo za cíl prozkoumat nejmodernější metody zpracování přirozeného jazyka, jejich praktickou aplikovatelnost na nesourodých datech veřejných zakázek a profilů firem jako potenciálních uchazečů a vytvoření systému, který by poskytl výrazně lepší funkce doporučování vhodných zakázek, než nabízejí dnešní komerční systémy. Michal Šmahel se tohoto úkolu zhostil výborně, vytvořil kvalitní systém a vyhodnotil jej na velkém vzorku dat.

Aktivita při dokončování

Práce byla dokončována na poslední chvíli (viz výše) a neměl jsem možnost připomínkovat definitivní podobu technické zprávy.

Publikační činnost, ocenění

-

Práce s literaturou

Student pracoval s nepříliš rozsáhlým souborem zdrojů, především vědeckých článků, týkajících se sémantické podobnosti textů a využití předtrénovaných jazykových modelů. Nicméně všechny tyto prameny jsou relevantní a dobře pokrývají předmětnou oblast, na kterou se práce zaměřuje.

Aktivita během řešení, konzultace, komunikace

Většina realizačního výstupu vznikla už v minulém akademickém roce, kdy student s prací začínal, kvůli zdravotním a osobním důvodům ji však nezvládl odevzdat. Po celou dobu byl velmi aktivní. Od loňského podzimu se však zároveň zapojil na plný úvazek do projektu TAČR, na kterém Výzkumná skupina znalostních technologií spolupracuje s řešitelskou firmou. Ukázalo se, že souběžná práce na projektu a diplomové práci je velmi náročná a že "řízení času" (time management) není studentova silná stránka. Závěrečné vyhodnocení a dokončení technické zprávy tak bohužel byly ponechány až na poslední měsíce před odevzdáním

Points proposed by supervisor: 80

Grade proposed by supervisor: B

Reviewer’s report
Ing. Jan Doležal

Celkově hodnotím diplomovou práci stupněm A (90 bodů). Jak vyplývá z předchozích částí posudku, zadání je náročné a bylo splněno návrhem a implementací funkčního systému, včetně experimentálního vyhodnocení. Pozitivně hodnotím také využitelnost výsledků a zpřístupnění datových sad pro další použití.

Evaluation criteria Verbal classification Points
Rozsah splnění požadavků zadání

Evaluation level: zadání splněno s drobnými výhradami

Stručný plakát prezentující práci, její cíle a výsledky (bod 5 zadání) byl studentem vypracován a prezentován. Není však součástí elektronicky odevzdaných příloh v systému, ani příloh v textu technické zprávy.

Rozsah technické zprávy

Evaluation level: přesahuje obvyklé rozmezí

Rozsah technické zprávy překračuje obvyklé doporučené rozmezí pro diplomovou práci, nicméně text není obsahově nadbytečný a jednotlivé části jsou pro řešení práce potřebné.

Prezentační úroveň technické zprávy

Technická zpráva má logickou strukturu a jednotlivé kapitoly na sebe věcně navazují. Srozumitelnost textu je na dobré úrovni a umožňuje orientaci i čtenáři, který není detailně obeznámen s problematikou.

Slabší stránkou je grafické zpracování některých obrázků (např. 2.1–2.3 a 6.2–6.3) a histogramů (např. 2.5, 2.6), kde se vyskytuje horší čitelnost popisků, menší velikost písma nebo ne vždy jednoznačná interpretace grafů. Tyto nedostatky však mají spíše dílčí charakter a nesnižují zásadně pochopitelnost práce jako celku.

80
Formální úprava technické zprávy

Typografická i jazyková stránka práce je celkově v pořádku. V kapitole 6 místy dochází k přetékání textu při použití písma s pevnou šířkou.

86
Práce s literaturou

Práci s literaturou hodnotím stupněm B (velmi dobrá úroveň). Student využívá dostatečné množství relevantních zdrojů odpovídajících tématu práce. Citace jsou v textu používány průběžně a převzaté informace jsou zřetelně odlišeny od vlastních autorových návrhů a implementace.

Citace elektronických zdrojů jsou převážně v souladu s citační normou ISO 690. Vyskytují se pouze drobné formální nepřesnosti v bibliografickém zápisu (např. struktura názvu a ne vždy explicitně uvedený typ online zdroje), které však nemají vliv na jednoznačnou identifikovatelnost zdrojů.

87
Realizační výstup

Vytvořené řešení je rozsáhlé, modulární a funkční, s jasně definovanými jednotlivými etapami zpracování od sběru dat přes tvorbu firemních profilů až po vyhledávání a vyhodnocení výsledků.

Pozitivně hodnotím také kvalitu dokumentace, která umožňuje reprodukci jednotlivých kroků, a rozsah experimentální i manuální evaluace.

100
Využitelnost výsledků

Práce má aplikačně-výzkumný charakter a rozšiřuje existující přístupy v oblasti informačního vyhledávání a využití velkých jazykových modelů pro doménu veřejných zakázek. Výsledky jsou prakticky využitelné jako prototyp systému pro vyhledávání relevantních zakázek podle firemního profilu a jsou dále rozšiřitelné.

Součástí výstupů jsou rovněž nashromážděná a zpracovaná data, která mohou sloužit pro další výzkum či experimenty v této oblasti.

Náročnost zadání

Evaluation level: obtížnější zadání

Zadání diplomové práce vyžadovalo jak analýzu současných možností vyhledávání veřejných zakázek, tak nastudování problematiky velkých jazykových modelů a jejich adaptace, přípravu dat i návrh a implementaci funkčního systému s vyhodnocením výsledků systému na datech.

Points proposed by reviewer: 90

Grade proposed by reviewer: A

Responsibility: Mgr. et Mgr. Hana Odstrčilová