Master's Thesis

Autoregressive Modeling of Financial Time Series

Final Thesis 5.29 MB

Author of thesis: Bc. Miroslav Klobáska

Acad. year: 2025/2026

Supervisor: doc. Ing. Lukáš Burget, Ph.D.

Reviewer: prof. Dr. Ing. Jan Černocký

Abstract:

The goal of this thesis is to investigate the quantitative structure of a financial market on the timeframes analyzed in Medium Frequency Trading (MFT). It addresses fundamental questions, such as how financial data behave, to what extent future market behavior can be predicted from past observations, and whether meaningful predictive signal exists in historical OHLC sequences.

To explore these questions, we develop probabilistic autoregressive models for financial data that integrate information-theoretic principles with modern machine learning techniques. The primary objective is not to identify the optimal prediction architecture or maximize predictive performance, but rather to isolate and quantify the contribution of historical information to prediction. We focus exclusively on modeling full predictive distributions using observable OHLC data, deliberately excluding trading strategies and external conditioning variables in order to obtain a model-independent and statistically grounded evaluation framework.

This work provides a foundation for further research in understanding and quantifying predictive signal in financial markets.

Keywords:

Machine learning, Financial time series, Neural networks, Probabilistic modeling, Autoregressive generative models, Information-theoretic evaluation

Date of defence

22.06.2026

Result of the defence

Defended (thesis was successfully defended)

znamkaAznamka

Grading

A

Process of defence

Student nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta a na další otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm A.

Topics for thesis defence

  1. Graficky (na dvojici sousedních „svíček“) reprezentujte NMPM model zavedený v rovnicích 3.20-3.24.
  2. Vysvětlete hodnoty L_1 a L_2 u neurálních modelů (strana 63).
  3. V čem je vaše řešení revoluční oproti existujícím variantám?

Language of thesis

English

Faculty

Department

Study programme

Information Technology and Artificial Intelligence (MITAI)

Specialization

Machine Learning (NMAL)

Composition of Committee

prof. Dr. Ing. Jan Černocký (předseda)
prof. Ing. Martin Čadík, Ph.D. (místopředseda)
doc. Ing. Vladimír Janoušek, Ph.D. (člen)
doc. Ing. Michal Bidlo, Ph.D. (člen)
doc. Ing. František Zbořil, Ph.D. (člen)
Ing. Petr Veigend, Ph.D. (člen)

Supervisor’s report
doc. Ing. Lukáš Burget, Ph.D.

This is an excellent thesis that addresses a challenging problem and approaches it in a thoughtful and systematic manner. The student demonstrated a high degree of independence, good analytical thinking, and strong technical skills. The proposed methodology, experimental evaluation, and quality of the written thesis exceed the expectations associated with a standard master's project.


I would like to recommend this thesis for the Dean's Award.

Evaluation criteria Verbal classification
Informace k zadání

The topic of the thesis was proposed by the student himself based on his interest in financial markets and quantitative modeling. The assignment was challenging, as it required not only the implementation of predictive models, but also a deeper investigation into the structure of financial time series and the amount of predictive information contained in historical OHLC data.

To address these questions, the student formulated the problem within a probabilistic autoregressive framework and proposed a novel evaluation methodology based on information-theoretic principles. He designed and implemented a complete experimental framework and conducted extensive experiments investigating the relationship between historical context, model capacity, and predictive performance.

The thesis presents only the final successful approach; however, achieving these results required the student to investigate a considerably larger number of modeling strategies, architectures, and evaluation methodologies than is apparent from the final manuscript.

I am very satisfied with the achieved results. The thesis fully meets and, in several respects, exceeds the original assignment.

Aktivita při dokončování

The work was completed in sufficient time for detailed review and discussion of the entire thesis. The student continuously incorporated feedback and consulted both the technical content and the written text.

Publikační činnost, ocenění

The thesis resulted in a substantial codebase that enables reproduction of all experiments presented in the manuscript, including model training and evaluation.

Práce s literaturou

The student actively searched for and studied relevant literature from the areas of financial markets, probabilistic modeling, information theory, and machine learning. He demonstrated a good understanding of the studied materials and was able to use them effectively when designing his models and experiments.

Aktivita během řešení, konzultace, komunikace

The student worked independently and regularly consulted his progress throughout the project. He was always well prepared for meetings and frequently provided written summaries and discussion points in advance, which made the consultations productive and focused.

Our discussions often went beyond the immediate implementation details and focused on understanding the underlying principles of the proposed methods and experiments. The student showed a genuine interest in the topic and a strong ability to analyze and solve research problems.

Points proposed by supervisor: 100

Grade proposed by supervisor: A

Reviewer’s report
prof. Dr. Ing. Jan Černocký

Jedná se o matematicky nejdokonalejší práci, kterou jsem za svého působení na FIT viděl – úroveň systematického matematického uvažování je skutečně výjimečná. Všechny předpoklady a závěry jsou podrobeny tvrdé samo-kritice a domněnky jsou doloženy experimentálními výsledky s důkladnou analýzou. Zpracování experimentů je příkladné a práce má potenciál stát se v oblasti modelování finančních trhů velmi populární. Práci doporučuji na Cenu děkana. 

Evaluation criteria Verbal classification Points
Rozsah splnění požadavků zadání

Evaluation level: zadání splněno a práce obsahuje podstatná rozšíření

Zadání bylo splněno, student přišel s inovativní teorií predikce časových řad na finančních trzích. Držel se striktně statistického přístupu s odhadem rozložení pravděpodobnosti, což mu umožnilo vytvořit řadu unikátních výsledků v oblasti předzpracování dat, vlastních modelů, hodnocení výsledků a generování dat. Přesto, že nejsem zcela zběhlý v modelování finančních trhů považuji práci za unikátní a velmi kvalitní. K vlastní práci jsou navíc přidány Appendixy zabávající se statistickým modelováním a technikami strojového učení, které jsou naprosto matematicky rigorózní a mohou posloužit i pro jiné domény.

Rozsah technické zprávy

Evaluation level: přesahuje obvyklé rozmezí

Práce je obsáhlá, ale neobsahuje ani odstavec navíc – vše směřuje k naplánovaným cílům, včetně detailního popisu matematického formalismu v Annexech. Ocenil bych širší analýzu „zavedených“ přístupů k modelování finančních trhů, ale uznávám, že by tím rozsah práce vzrostl nade všechny meze.

Prezentační úroveň technické zprávy

Prezentační úroveň je perfektní – práce je výborně strukturovaná, sekce na sebe plynule navazují a práci by bylo možné prakticky rovnou vydat jako disertaci nebo knihu.

95
Formální úprava technické zprávy

Formálně je práce rovněž perfektně zpracovaná, kvalita matematického zápisu je příkladná a výsledky experimentů jsou zpracovány na kvalitativně vysoké úrovni – zde nehodnotím pouze technickou kvalitu tabulek a grafů, ale i pečlivě přemýšlení jaké veličiny a jak zobrazovat. Práce je psána perfektní angličtinou a drobné poznámky jsou spíše podněty k diskusi než chyby - studentovi předám okomentovaný výtisk práce.

99
Práce s literaturou

Rozsah seznamu literatury odpovídá diplomové práci, většina zdrojů se věnuje matematickému modelování a strojovému učení, u DP tohoto typu bych očekával více zdrojů týkajících se finančních trhů. Zatímco odkazy na ML a matematiku jsou v práci provedeny pečlivě, u financí bych na některých ocenil referenci místo „people usually…“.

90
Realizační výstup

Výstupem je především komplexní matematický formalismus pro autoregresivní modelování časových řad a jeho vyhodnocení. Sada nástrojů, která jej implementuje, je napsána ve formě velmi přehledných Python skriptů a notebooků.

95
Využitelnost výsledků

Práce má potenciál stát se povinnou četbou pro všechny zájemce o skutečně matematicky fundované modelování časových řad na finančních trzích a o jejich kvantitativní vyhodnocení. Po dopracování trading modelů má potenciál sát se zajímavým nástrojem pro algoritmické obchodování.

Náročnost zadání

Evaluation level: značně obtížné zadání

Zadání vyžadovalo velmi netriviální studium bayesovských přístupů je strojovému učení, a finančních trhů. I když je v oblasti existuje řada předchozích prací, navržené postupy jsou unikátní a student musel většinu teorie, programování i experimentů „odpracovat“ sám.

Topics for thesis defence:
  1. Graficky (na dvojici sousedních „svíček“) reprezentujte NMPM model zavedený v rovnicích 3.20-3.24.
  2. Vysvětlete hodnoty L_1 a L_2 u neurálních modelů (strana 63).
Points proposed by reviewer: 98

Grade proposed by reviewer: A

Responsibility: Mgr. et Mgr. Hana Odstrčilová