Přístupnostní navigace
E-application
Search Search Close
Bachelor's Thesis
Author of thesis: Kryštof Lorenčík
Acad. year: 2025/2026
Supervisor: Ing. Vladimír Bartík, Ph.D.
Reviewer: Ing. Ivana Burgetová, Ph.D.
This thesis focuses on the use of anomaly detection to identify spam in text data. Spam is defined as a deviation from normal communication, so the models are trained only on normal messages and determine the degree of deviation in new texts. In this work, an experimental application was designed and implemented that enables the unified processing of data, the creation of a text representation, the training of detection models, the selection of a decision threshold, and the evaluation of the results achieved. The experiments compared Term Frequency-Inverse Document Frequency (TF-IDF) and Sentence-BERT (SBERT) representations in combination with Isolation Forest, One-Class Support Vector Machine (One-Class SVM), and Local Outlier Factor (LOF) methods. Evaluation on SMS and email messages showed that detecting spam as an anomaly is more difficult for short messages than for longer emails and that the suitability of the chosen method depends on the nature of the input data.
anomaly detection, text data, spam detection, detection models, TF-IDF, SBERT, Isolation Forest, One-Class SVM, Local Outlier Factor
Date of defence
17.06.2026
Result of the defence
Defended (thesis was successfully defended)
Grading
C
Process of defence
Student nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta a na další otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm C.
Topics for thesis defence
Language of thesis
Czech
Faculty
Fakulta informačních technologií
Department
Department of Information Systems
Study programme
Information Technology (BIT)
Composition of Committee
doc. Ing. František Zbořil, Ph.D. (předseda) doc. Ing. Vojtěch Mrázek, Ph.D. (místopředseda) Ing. Petr Veigend, Ph.D. (člen) Ing. David Bařina, Ph.D. (člen) Ing. Miloš Musil, Ph.D. (člen)
Supervisor’s reportIng. Vladimír Bartík, Ph.D.
Student zadání bakalářské práce splnil a jeho celkovou aktivitu hodnotím kladně, proto navrhuji hodnocení stupněm B (velmi dobře).
Cílem bakalářské práce bylo vytvořit jednoduchou experimentální aplikaci pro detekci anomálií v textových datech a na vhodně zvolených datasetech porovnat existující metody, včetně porovnání využití jazykových modelů s klasickými metodami. Student zadání splnil.
Většinu použité literatury si student vyhledal samostatně, k volbě literatury nemám výhrady.
Student řešil práci samostatně, několikrát však své řešení konzultoval a informoval o pokrocích.
Konečná verze technické zprávy i realizačního výstupu byla dokončena s mírným předstihem, vše tedy bylo před dokončením konzultováno.
Grade proposed by supervisor: B
Reviewer’s reportIng. Ivana Burgetová, Ph.D.
Předložená bakalářská práce sestává z experimentální aplikace pro detekci anomálií v textu, která je funkční a dobře použitelná. Student také provedl a vyhodnotil základní experimenty. Implementace je doplněna technickou zprávou, která je bohužel málo konkrétní. Celkově proto práci hodnotím jako průměrnou a navrhuji hodnocení stupněm C.
Evaluation level: průměrně obtížné zadání
Logická struktura technické zprávy je vcelku dobrá, jednotlivé části na sebe dobře navazují a zpráva je pochopitelná pro čtenáře. Bohužel text jen tak klouže po povrchu řešeného tématu a pokud se čtenář nad popsanými informacemi hlouběji zamýšlí, řada informací zde chybí (jakých hodnot vlastně může skóre vyjadřující anomalitu nabývat, jak je u metod řešeno to, aby byly použity v módu novelty detection, případně to, jak jsou využívány parametry detekčních metod). Některé důležité údaje jsou fragmentované a čtenář je musí složitě dohledávat (počet odstraněných duplikátů nebo zhodnocení metod v kapitole 5.4 pomocí různých metrik, kdy pro různé metody není použita ani jedna stejná metrika). Stejně tak obrázek 3.1 poskytuje jen hrubý náhled na řešený problém, ale detaily zde chybí.
Jazyková stránka práce je vcelku dobrá, ale poněkud ji kazí některé slangové či neobvykle přeložené výrazy (cachování, konfúzní matice, semeno). Dále si student bohužel nepohlídal jednopísmenné předložky nebo spojky na koncích řádků.
Realizačním výstupem je experimentální aplikace pro detekci anomálií v textových datech. Dovoluje zpracování dvou přiložených datasetů, případně dalších ve stejném formátu. Aplikace dovoluje experimenty se 4 různými způsoby předzpracování textu a 3 různými metodami pro detekci anomálií. Aplikace je plně funkční a dobře použitrelná pro experimentační účely.
Jedná se o práci experimentálního charakteru. Student vyhodnotil celkem 12 různých kombinací metod pro předzpracování textu a detekci anomálií na dvou různých typech textů. Kladně hodnotím to, že se student snažil omezit vliv náhodného rozdělení datasetů na trénovací, validační a testovací část opakováním experimentů pro několik různých seedů. Na druhou stranu dosažené výsledky jsou podle mě spíše orientační, protože student nehledal ideální hodnoty parametrů pro jednotlivé metody, ale využíval jen jedno implicitní nastavení.
Evaluation level: zadání splněno
Evaluation level: je v obvyklém rozmezí
Práci s literaturou hodnotím průměrně. Student si vyhledal nezbytné zdroje, které dobře pokrývají řešenou problematiku. Převzaté prvky jsou řádně odlišeny od vlastních výsledků a úvah.
Grade proposed by reviewer: C
Responsibility: Mgr. et Mgr. Hana Odstrčilová