bakalářská práce

Predikce demografického vývoje populace s využitím strojového učení

Text práce 2.92 MB

Autor práce: Bc. Adrián Ponechal

Ak. rok: 2024/2025

Vedoucí: Ing. Radek Hranický, Ph.D.

Oponent: Ing. Kamil Jeřábek, Ph.D.

Abstrakt:

Populačný vývoj začína byť čím ďalej, tým viac skúmanou oblasťou. Narastajúci počet ľudí spôsobuje aj väčšiu spotrebu prírodných alebo štátnych zdrojov. Pri včasnom odhalení neočakávaných trendov je možné prijať opatrenia, ktoré týmto situáciam predídu. Aktuálny vývoj strojového učenia poskytol nástroje, ktoré dokážu takéto trendy odhaliť. V tejto práci boli preskúmané existujúce prístupy, ktoré sú používané na predikciu vývoja populácie, konkrétne štatistické metódy ARIMA a ARIMAX so strojovým učením (XGBoost, LightGBM, Random Forest, RNN, GRU, LSTM). Na základe dátovej sady, ktorá obsahuje  dáta o viac ako 200 populáciách, boli navrhnuté a implementované dva hybridné modely: ARIMA + XGBoost a LSTM + XGBoost. Tieto modely vedia zachytiť trend vybranej populácie a predpovedať vývoj parametrov. V najlepších prípadoch modely predpovedali vývoj rozloženia pohlaví s chybou 0{,}005\% (podľa metriky RMSE) a vekových skupín s chybou 0{,}1\% (podľa metriky RMSE). Kombinácia modelov ARIMA + XGBoost je efektívna na presnejšie krátkodobé predikcie, zatiaľčo kombinácia LSTM + XGBoost vie generovať predpovede pre dlhší časový úsek, hoci s menšou presnosťou. Výsledné modely sú využívané na predikciu a úpravu demografických parametrov pri vytváraní populácií digitálnych respondentov, čím sa zaoberá firma Lakmoos AI, s.r.o.

Klíčová slova:

Predikcia demografického vývoja, časové rady, populácia, strojové učenie, rekurentné neurónové siete, LSTM, ARIMA, XGBoost, dolovanie dát

Termín obhajoby

18.06.2025

Výsledek obhajoby

obhájeno (práce byla úspěšně obhájena)

znamkaDznamka

Klasifikace

D

Průběh obhajoby

Student nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta a na další otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm D.

Otázky k obhajobě

  1. Jakým způsobem jste rozdělil data pro trénování a vyhodnocení?
  2. Mohl by ste komentovat výhrady oponenta?
  3. Jsou produkované chyby akceptovatelné?

Jazyk práce

slovenština

Fakulta

Ústav

Studijní program

Informační technologie (BIT)

Složení komise

doc. Ing. František Zbořil, Ph.D. (předseda)
RNDr. Marek Rychlý, Ph.D. (člen)
doc. Ing. Zdeněk Vašíček, Ph.D. (člen)
doc. Ing. Vítězslav Beran, Ph.D. (člen)
Ing. Ivana Burgetová, Ph.D. (člen)

Posudek vedoucího
Ing. Radek Hranický, Ph.D.

I přes řadu překážek dokázal pan Ponechal práci úspěšně dokončit a řešení také integrovat do firemniho produktu společnosti Lakmoos. Přesnost predikce sice není nijak převratná, avšak to může být způsobeno také zvolenou datovou sadou. Podstatné je, že vytvořené řešení svůj účel plní.


Zadání považuji za splněné a navrhuji hodnocení "C".

Kritérium hodnocení Slovní hodnocení
Informace k zadání

Jedná se o firemní zadání pro společnost Lakmoos AI s.r.o. Cílem práce bylo navrhnout a implementovat řešení pro predikci demografického vývoje populací.

Práce s literaturou

Student využil doporučené literatury a další relevantní zdroje si samostatně dohledal.

Aktivita během řešení, konzultace, komunikace

Student byl během řešení aktivní, na schůzky docházel a řešení pravidelně konzultoval. Bohužel, původní návrh vytořený studentem nefungoval dle očekávání z důvodu nevhodného použití zvolené kombinace metod. Po konzultaci s vedoucím student návrh přepracoval a výsledky jsou nyní smysluplné, byť na přesnosti by se ještě dalo zapracovat.

Aktivita při dokončování

I přes nutnost řešení přepracovat zvládl pan Ponechal práci včas dokončit a předat mi ke kontrole v předstihu před odevzdáním. Následně jsem mu zaslal připomínky k zapracování.

Publikační činnost, ocenění

Zdrojové kódy svého řešení student zveřejnil jako Open-source pod licencí MIT na portálu GitHub: https://github.com/andrewp-dot/demography-predictor.

Výsledný počet bodů navržený vedoucím: 72

Známka navržená vedoucím: C

Práce se zaměřuje na predikování demografického vývoje populace avšak je založena na poměrně omezených datech pro predikci. Student vytvořil a vyhodnotil predikční modely na této datové sadě, následně je začlenil do API. Řešení je funkční a může být použito v praxi, nicméně správnost metodologie a dále prezentované výsledky jsou na pováženou. Technická zpráva hlavně její druhá část zaměřená na popis metodologie a prezentaci výsledků je pro čtenáře velmi zmatečná a nejasná. Hodnotím D.

Kritérium hodnocení Slovní hodnocení Body
Náročnost zadání

Stupeň hodnocení: průměrně obtížné zadání

Zadání hodnotím jako spíše průměrně obtížné. Student analyzoval data demografického vývoje populace v různých zemích a snažil se vytvořit metodu pro předpověď jejich vývoje. Navíc měl za úkol z dostupných dat vytvořit datovou sadu a následně data analyzovat.

Prezentační úroveň technické zprávy

Práce má logickou strukturu a jednotlivé kapitoly na sebe povětšinou navazují. Nicméně zvláště druhá část práce je zmatečná s velkým množstvím různých výsledků a pro čtenáře je obtížné se v nich zorientovat. Navíc zde vidím spoustu nejasností co se týká metodologického postupu, které v práci nejsou dostatečně vystvětleny. Tento aspekt bohužel práci škodí.

50
Formální úprava technické zprávy

Práce obsahuje množství opakujících se typografických chyb. Je psána ve slovenském jazyce a nejsem tedy schopen posoudit gramatickou stránku, nicméně jsem práci rozuměl.

60
Realizační výstup

Navržené a implementované technické řešení se jeví jako funkční. Student práci navíc sám demonstroval a otázky zodpověděl. Definované API endpointy odpovídají ve formátu popsaném v práci s danými predikcemi. Nicméně analytická a predikční část závisí pouze na poměrně omezených datech, ke kterým byť student přistupoval často korektně obsahují taktéž jisté metodologické chyby a chyby ve vyhodnocení, na které byl student upozorněn při demonstraci. Prezentované výsledky jsou nejisté.

60
Využitelnost výsledků

Jedná se o datově analytickou práci s predikčním modelováním a propojením s REST API, které bude začleněno do produktu firmy Lakmoos a mělo by tedy být aktivně používáno.

Rozsah splnění požadavků zadání

Stupeň hodnocení: zadání splněno

Zadání považuji za splněno.

Rozsah technické zprávy

Stupeň hodnocení: je v obvyklém rozmezí

Práci hodnotím jako v obvyklém rozmezí.

Práce s literaturou

Práce obsahuje dostatečné množství relevantních jak odborných tak online zdrojů.

70
Otázky k obhajobě:
  1. Jakým způsobem jste rozdělil data pro trénování a vyhodnocení?
Výsledný počet bodů navržený oponentem: 60

Známka navržená oponentem: D

Odpovědnost: Mgr. et Mgr. Hana Odstrčilová