Master's Thesis

Prediction intervals in generalized linear models

Final Thesis 5.38 MB

Author of thesis: Bc. Robin Stloukal

Acad. year: 2025/2026

Supervisor: doc. Mgr. Zuzana Hübnerová, Ph.D.

Reviewer: Ing. Matej Benko

Abstract:

Generalized linear models (GLMs) accommodate non-normal response variables, yet constructing prediction intervals (PIs) within them remains underexplored. This thesis investigates and compares PI construction methods in Poisson and gamma GLMs, evaluating conditional empirical coverage and interval width through extensive simulations in R. The core contribution lies in exploiting special predictive distributions derived from the properties of GLM estimators and the inversion of probabilistic inequalities. For the intercept-only Poisson model, a Bayesian PI utilizing a log-normal posterior distribution is introduced, alongside interval estimators based on Chernoff bounds, Chebyshev's inequality and its Vysochanskij–Petunin refinement, and Harremoës' sharp tail bounds. Two resampling algorithms based on the bootstrap and jackknife are also proposed. These methods are extended to Poisson log-linear regression, where contributions include one-sided, two-sided, and second-order Taylor-refined Chernoff intervals and an adapted Nelson's method, and further to gamma regression, where the Vysochanskij–Petunin inequality is applied to the gamma–log-normal predictive mixture. Simulation results reveal that discrete Poisson models require boundary randomization and benefit from exact and Bayesian approaches in small samples, while continuous gamma regression favors the classical asymptotic normal method and full conformal prediction, due to the presence of the dispersion parameter.

Keywords:

generalized linear model, prediction interval, Poisson regression, gamma regression, predictive mixture, conformal prediction, probability inequality

Date of defence

08.06.2026

Result of the defence

Defended (thesis was successfully defended)

znamkaAznamka

Grading

A

Process of defence

Student odprezentoval svoji práci. Vedoucí a oponent přednesli své posudky. Oponent položil studentovi otázky z posudku, na které student uspokojivě odpověděl. Komise položila doplňující otázku, na kterou student zareagoval.

Language of thesis

English

Faculty

Department

Study programme

Mathematical Engineering (N-MAI-P)

Composition of Committee

prof. RNDr. Zdeněk Pospíšil, Dr. (předseda)
prof. Mgr. Pavel Řehák, Ph.D. (místopředseda)
doc. Mgr. Zuzana Hübnerová, Ph.D. (člen)
doc. Mgr. Zdeněk Opluštil, Ph.D. (člen)
doc. Mgr. Jaroslav Hrdina, Ph.D. (člen)

Práce je věnována porovnání dostupných metod konstrukce predikčních intervalů v zobecněných lineárních modelech z pohledu simulovaných pokrytí a šířek predikčních intervalů. Přímočarý přístup založený na vyčíslení kvantilů rozdělení s maximálně věrohodnými odhady evidentně nezohledňuje variabilitu těchto odhadů. Proto se Bc. Stloukal věnoval systematickému studiu možných přístupů, které přehledně rozdělil do pěti tříd – (1) metody založené na asymptotické normalitě, (2) bayesovském přístupu, (3) inverzi pravděpodobnostních nerovností, (4) neasymptotické metody a (5) metody bootstrapu a konformní predikce.

Vhodnost metod, jak nalezených v literatuře, tak samostatně odvozených, student posoudil pomocí rozsáhlých simulací z pohledu empirického pokrytí a délky predikčních intervalů v podmínkách náhodného výběru z Poissonova rozdělení, Poissonovského log-lineárního modelu a log-lineárního modelu s gama rozdělením vysvětlované proměnné.

Ve třídě predikčních intervalů založených na bayesovském přístupu (2) je v literatuře nejčastěji uvažována Jeffreyho apriorní hustota, případně apriorní (asymptotické) normální rozdělení střední hodnoty vysvětlované proměnné. Bc. Stloukal zde rozšířil běžné přístupy o log-normální rozdělení střední hodnoty v log-lineárních modelech. Stejný náhled byl aplikován i v přístupu vycházejícím z inverze pravděpodobnostních nerovností (3). V této části student věnoval pozornost rozšíření přístupu užitím Černovovy nerovnosti, zpřesnění Čebyševovy nerovnosti přístupem Vysočanského-Petunina, ale i užitím Harremoesových mezí. Dále, Bc. Stloukal pečlivě rozšířil vybrané konstrukce popsané v literatuře pro případ predikce z náhodného výběru z Poissonova rozdělení pro případ Poissonovské regrese. Jde především o rozšíření přístupu skrze Černovovu nerovnost a Nelsonovou přesnou metodu.

Během sepisování textu student postupoval samostatně a iniciativně pracoval na bohaté rešerši všech v literatuře zmíněných možností. Cením si toho, že celou simulační studii s velkou pozorností sepsal v R a vždy se snažil identifikovat důvody pro pozorovaná specifika simulačních výstupů. Díky své rozsáhlé simulační studii může Bc. Stloukal doporučit nejvhodnější metody konstrukce predikčního intervalu pro různá nastavení parametrů modelu a počet pozorování. Dovolte mi poznamenat, že výstupy svého výzkumu Bc. Stoukal prezentoval formou posteru na Austrian Statistical Days v Linci v září 2025. Navíc se s dosaženými výsledky student zúčastní soutěže SVOČ.
Evaluation criteria Grade
Splnění požadavků a cílů zadání A
Postup a rozsah řešení, adekvátnost použitých metod A
Vlastní přínos a originalita A
Schopnost interpretovat dosažené výsledky a vyvozovat z nich závěry A
Využitelnost výsledků v praxi nebo teorii A
Logické uspořádání práce a formální náležitosti A
Grafická, stylistická úprava a pravopis A
Práce s literaturou včetně citací A
Samostatnost studenta při zpracování tématu A

Grade proposed by supervisor: A

Reviewer’s report
Ing. Matej Benko

Diplomová práca študenta Robina Stloukala sa zaoberá predikčnými intervalmi pre zobecnené lineárne modely, konkrétne sú prezentované intervaly pre Poissonov (diskrétny) a Gamma (spojitý) regresný model.

Chcel by som vyzdvihnúť prácu s literatúrou, kde autor podrobne cituje zdroje naprieč celým textom. Napr. pri odvodeniach navyše odkazuje aj na ich alternatívny postup v inej literatúre, resp. porovnáva výsledky s inou literatúrou (viď poznámka v Odseku 5.1.2). Autor vyčerpávajúcim a obsiahlym spôsobom popisuje možnosti výpočtu intervalov pre oba regresné modely.

Ďalej by som chcel vyzdvihnúť Kapitolu 8 (Simulation study), kde autor pomocou simulácii overuje a vyhodnocuje jednotlivé výpočty predikčných intervalov. Nielenže sú vyhodnotené a porovnané vo viac ako dostatočnej miere, ale autor aj komentuje a snaží sa vysvetliť pozorované javy. To z môjho pohľadu svedčí o tom, že danej problematike autor veľmi dobre rozumie. Navyše táto kapitola obsahuje aj súhrnný prehľad jednotlivých výsledkov, ktorý pomáha čitateľnosti práce.

Po prečítaní práce som v nej nespozoroval žiadne formálne ani gramatické chyby.

Záverom, predloženú diplomovú prácu považujem za veľmi kvalitnú ako po obsahovej tak aj po formálnej stránke. Odporúčam ju k obhajobe a navrhujem hodnotenie známkou A/výborný.
Evaluation criteria Grade
Splnění požadavků a cílů zadání A
Postup a rozsah řešení, adekvátnost použitých metod A
Vlastní přínos a originalita A
Schopnost interpretovat dosaž. výsledky a vyvozovat z nich závěry A
Využitelnost výsledků v praxi nebo teorii A
Logické uspořádání práce a formální náležitosti A
Grafická, stylistická úprava a pravopis A
Práce s literaturou včetně citací A
Topics for thesis defence:
  1. V úvode Kapitoly 8 uvádzate, že dobre určený predikčný interval by sa mal blížiť k spoľahlivosti 95% a mal by byť čo najkratší. Vedeli by ste objasniť, prečo by mal byť čo najkratší?
  2. V Odsekoch 5.2.1 a 6.2 aproximujete aposteriórne rozdelenie log-normálnym. Viete objasniť vhodnosť tejto aproximácie, resp. dá sa približne určiť, z akého apriórneho (triedy apriórnych rozdelení) vychádza toto aposteriórne rozdelenie/jeho aproximácia?

Grade proposed by reviewer: A

Responsibility: Mgr. et Mgr. Hana Odstrčilová