Bachelor's Thesis

Predicting population demographic trends using machine learning

Final Thesis 2.92 MB

Author of thesis: Bc. Adrián Ponechal

Acad. year: 2024/2025

Supervisor: Ing. Radek Hranický, Ph.D.

Reviewer: Ing. Kamil Jeřábek, Ph.D.

Abstract:

Population development is becoming an increasingly studied area. The growing number of people also leads to greater consumption of natural or state resources. By detecting un\-expected trends early, it is possible to implement measures to prevent such situations. The recent development of machine learning has provided tools capable of identifying such trends. This work examined existing approaches used to predict population development, specifically the statistical methods ARIMA and ARIMAX with machine learning (XGBoost, LightGBM, Random Forest, RNN, GRU, LSTM). Based on a dataset containing information on more than 200 populations, two hybrid models combining ARIMA + XGBoost and LSTM + XGBoost were designed and implemented. These models can capture the trend of the selected population and predict the development of target parameters. In best cases, the models could predict gender distribution with an error of 0.005\% (based on RMSE metric) and development of age group distribution with an error of 0.1\% (based on RMSE metric). The ARIMA + XGBoost is effective for the short-term predictions, but the combination LSTM + XGBoost can generate longer predictions, although with less accuracy. The resulting models are used for predicting and adjusting demographic parameters in the creation of digital respondent populations, which is a focus area of the company Lakmoos AI, s.r.o.

Keywords:

Demographic development prediction, time series, population, machine learning, recurrent neural networks, LSTM, ARIMA, XGBoost, data mining

Date of defence

18.06.2025

Result of the defence

Defended (thesis was successfully defended)

znamkaDznamka

Grading

D

Process of defence

Student nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta a na další otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm D.

Topics for thesis defence

  1. Jakým způsobem jste rozdělil data pro trénování a vyhodnocení?
  2. Mohl by ste komentovat výhrady oponenta?
  3. Jsou produkované chyby akceptovatelné?

Language of thesis

Slovak

Faculty

Department

Study programme

Information Technology (BIT)

Composition of Committee

doc. Ing. František Zbořil, Ph.D. (předseda)
RNDr. Marek Rychlý, Ph.D. (člen)
doc. Ing. Zdeněk Vašíček, Ph.D. (člen)
doc. Ing. Vítězslav Beran, Ph.D. (člen)
Ing. Ivana Burgetová, Ph.D. (člen)

Supervisor’s report
Ing. Radek Hranický, Ph.D.

I přes řadu překážek dokázal pan Ponechal práci úspěšně dokončit a řešení také integrovat do firemniho produktu společnosti Lakmoos. Přesnost predikce sice není nijak převratná, avšak to může být způsobeno také zvolenou datovou sadou. Podstatné je, že vytvořené řešení svůj účel plní.


Zadání považuji za splněné a navrhuji hodnocení "C".

Evaluation criteria Verbal classification
Informace k zadání

Jedná se o firemní zadání pro společnost Lakmoos AI s.r.o. Cílem práce bylo navrhnout a implementovat řešení pro predikci demografického vývoje populací.

Práce s literaturou

Student využil doporučené literatury a další relevantní zdroje si samostatně dohledal.

Aktivita během řešení, konzultace, komunikace

Student byl během řešení aktivní, na schůzky docházel a řešení pravidelně konzultoval. Bohužel, původní návrh vytořený studentem nefungoval dle očekávání z důvodu nevhodného použití zvolené kombinace metod. Po konzultaci s vedoucím student návrh přepracoval a výsledky jsou nyní smysluplné, byť na přesnosti by se ještě dalo zapracovat.

Aktivita při dokončování

I přes nutnost řešení přepracovat zvládl pan Ponechal práci včas dokončit a předat mi ke kontrole v předstihu před odevzdáním. Následně jsem mu zaslal připomínky k zapracování.

Publikační činnost, ocenění

Zdrojové kódy svého řešení student zveřejnil jako Open-source pod licencí MIT na portálu GitHub: https://github.com/andrewp-dot/demography-predictor.

Points proposed by supervisor: 72

Grade proposed by supervisor: C

Reviewer’s report
Ing. Kamil Jeřábek, Ph.D.

Práce se zaměřuje na predikování demografického vývoje populace avšak je založena na poměrně omezených datech pro predikci. Student vytvořil a vyhodnotil predikční modely na této datové sadě, následně je začlenil do API. Řešení je funkční a může být použito v praxi, nicméně správnost metodologie a dále prezentované výsledky jsou na pováženou. Technická zpráva hlavně její druhá část zaměřená na popis metodologie a prezentaci výsledků je pro čtenáře velmi zmatečná a nejasná. Hodnotím D.

Evaluation criteria Verbal classification Points
Náročnost zadání

Evaluation level: průměrně obtížné zadání

Zadání hodnotím jako spíše průměrně obtížné. Student analyzoval data demografického vývoje populace v různých zemích a snažil se vytvořit metodu pro předpověď jejich vývoje. Navíc měl za úkol z dostupných dat vytvořit datovou sadu a následně data analyzovat.

Prezentační úroveň technické zprávy

Práce má logickou strukturu a jednotlivé kapitoly na sebe povětšinou navazují. Nicméně zvláště druhá část práce je zmatečná s velkým množstvím různých výsledků a pro čtenáře je obtížné se v nich zorientovat. Navíc zde vidím spoustu nejasností co se týká metodologického postupu, které v práci nejsou dostatečně vystvětleny. Tento aspekt bohužel práci škodí.

50
Formální úprava technické zprávy

Práce obsahuje množství opakujících se typografických chyb. Je psána ve slovenském jazyce a nejsem tedy schopen posoudit gramatickou stránku, nicméně jsem práci rozuměl.

60
Realizační výstup

Navržené a implementované technické řešení se jeví jako funkční. Student práci navíc sám demonstroval a otázky zodpověděl. Definované API endpointy odpovídají ve formátu popsaném v práci s danými predikcemi. Nicméně analytická a predikční část závisí pouze na poměrně omezených datech, ke kterým byť student přistupoval často korektně obsahují taktéž jisté metodologické chyby a chyby ve vyhodnocení, na které byl student upozorněn při demonstraci. Prezentované výsledky jsou nejisté.

60
Využitelnost výsledků

Jedná se o datově analytickou práci s predikčním modelováním a propojením s REST API, které bude začleněno do produktu firmy Lakmoos a mělo by tedy být aktivně používáno.

Rozsah splnění požadavků zadání

Evaluation level: zadání splněno

Zadání považuji za splněno.

Rozsah technické zprávy

Evaluation level: je v obvyklém rozmezí

Práci hodnotím jako v obvyklém rozmezí.

Práce s literaturou

Práce obsahuje dostatečné množství relevantních jak odborných tak online zdrojů.

70
Topics for thesis defence:
  1. Jakým způsobem jste rozdělil data pro trénování a vyhodnocení?
Points proposed by reviewer: 60

Grade proposed by reviewer: D

Responsibility: Mgr. et Mgr. Hana Odstrčilová