Bachelor's Thesis

Use of Sequential Pattern Mining in Google Analytics

Final Thesis 1.45 MB

Author of thesis: Ing. Gergő Viskievič

Acad. year: 2020/2021

Supervisor: Ing. Jan Luhan, Ph.D., MSc

Reviewer: Ing. Pavel Šabatka

Abstract:

The bachelor thesis focuses on the design and development of an algorithm for sequential pattern mining in Google Analytics 4 data. Presents and analyzes available algorithms for sequential pattern mining. Analyzes the data model and the use of Google Analytics 4. Based on the requirements of business processes, the algorithm is proposed suitable for the expected input data.

Keywords:

Google Analytics 4, sequential patterns, Python, knowledge extraction, algorithm,
sequential rules, sequential pattern mining

Date of defence

22.06.2021

Result of the defence

Defended (thesis was successfully defended)

znamkaAznamka

Grading

A

Process of defence

Otázky oponenta Co přesně znamenají uzavřené a neuzavřené sekvenční vzory? - Odpovězeno Na jakých datech jste přesně algoritmus testoval? - Odpovězeno Byl Algoritmus testován i pro samostné URL stránenk? - Odpovězeno

Language of thesis

Slovak

Faculty

Department

Study programme

System Engineering and Informatics (BAK-MIn-D)

Field of study

Managerial Informatics (BAK-MIn)

Composition of Committee

doc. RNDr. Bedřich Půža, CSc. (předseda)
Ing. Jiří Kříž, Ph.D. (místopředseda)
Ing. Lenka Širáňová, Ph.D. (člen)
Ing. Jan Luhan, Ph.D., MSc (člen)
Mgr. Eva Michalíková, Ph.D. (člen)

Supervisor’s report
Ing. Jan Luhan, Ph.D., MSc

Práce je zpracována na velmi dobré (až nadstandardní) úrovni. Hlavní cíl v podobě návrhu podpory pro analýzu chování uživatelů webových stránek prostřednictvím dolování sekvenčních vzorů dle konkrétní specifikace zadavatele byl naplněn. Výstupem práce je návrh algoritmu využitelného pro výše specifikovaný cíl.

V samotné práci je patrný systematický a komplexní přístup k řešení dané problematiky. Dílčí části mají logickou návaznost a směřují k vytyčenému cíli. Pokrývají plně danou problematiku a kombinují různé přístupy pro řešení problému.

Zpracování splňuje požadavky závěrečné práce, přičemž lze nalézt pouze drobné nedostatky ve formátování, stylistice, či drobných jazykových nepřesnostech.

Z práce je zřejmá autorova orientace v dané problematice a systematický přístup pro řešení komplexního problému.

Práci doporučuji k obhajobě.

Otázka k obhajobě:
Jaký je aktuální vývoj v oblasti Vašich návrhů?
Evaluation criteria Grade
Splnění stanovených cílů A
Zvolený postup řešení, adekvátnost použitých metod A
Schopnost interpretovat dosažené výsledky a vyvozovat z nich závěry A
Praktická využitelnost výsledků B
Uspořádání práce, formální náležitosti, použitá terminologie a odborná jazyková úroveň B
Práce s informačními zdroji, včetně citací B

Grade proposed by supervisor: A

Reviewer’s report
Ing. Pavel Šabatka

Teoretický úvod pokrývá řešenou problematiku v dostatečném rozsahu. Jsou zde pouze drobné nepřesnosti v popisu Google Analytics 4. Uzavřené a neuzavřené sekvenční vzory jsou vysvětleny zavádějícím způsobem.
V závěru práce je popsáno, že algoritmus byl testován na 2 různých datasetech. Zhodnocení výkonnosti algoritmu a smysluplnost nalezených výsledků pro jednotlivé datasety ale v práci chybí.
Velmi oceňuji číst mapování potřeb firmy a návrh cíle algoritmu. Obecně mi práce s cíli a příjemci dat ve vzdělávání datových analytiků chybí, přitom je pro úspěch projektu klíčová.
Pozitivně také hodnotím volbu nástroje Google Analytics 4 - jedná se o technologii starou necelý rok, stále ještě s nedokonalou dokumentací. Spoustu věcí je zde třeba zjišťovat testováním, což zvyšuje náročnost nastavení i zpracování dat.
Zozsah práce i její náročnost odpovídá požadavkům na bakalářskou práci. Rod House of Řezáč bude algoritmus rozhodně dále využívat.
Evaluation criteria Grade
Splnění stanovených cílů B
Zvolený postup řešení, adekvátnost použitých metod A
Schopnost interpretovat dosažené výsledky a vyvozovat z nich závěry C
Praktická využitelnost výsledků B
Struktura práce, použitá terminologie a odborná jazyková úroveň B
Práce s informačními zdroji A
Topics for thesis defence:
  1. Co přesně znamenají uzavřené a neuzavřené sekvenční vzory? Na jakých datech jste přesně algoritmus testoval? Pro jaká data dává smysluplnější výstupy? Byl algoritmus testován i pro samotné URL stránek? Byl pro taková data dostatečně výkonný? Testoval jste algoritmus podle jména události v GA4? Takové nastavení by dávalo velký smysl.

Grade proposed by reviewer: A

Responsibility: Mgr. et Mgr. Hana Odstrčilová