Bachelor's Thesis

Anomaly Detection in Text Datasets

Author of thesis: Kryštof Lorenčík

Acad. year: 2025/2026

Abstract:

This thesis focuses on the use of anomaly detection to identify spam in text data. Spam is defined as a deviation from normal communication, so the models are trained only on normal messages and determine the degree of deviation in new texts. In this work, an experimental application was designed and implemented that enables the unified processing of data, the creation of a text representation, the training of detection models, the selection of a decision threshold, and the evaluation of the results achieved. The experiments compared Term Frequency-Inverse Document Frequency (TF-IDF) and Sentence-BERT (SBERT) representations in combination with Isolation Forest, One-Class Support Vector Machine (One-Class SVM), and Local Outlier Factor (LOF) methods. Evaluation on SMS and email messages showed that detecting spam as an anomaly is more difficult for short messages than for longer emails and that the suitability of the chosen method depends on the nature of the input data.

Keywords:

anomaly detection, text data, spam detection, detection models, TF-IDF, SBERT, Isolation Forest, One-Class SVM, Local Outlier Factor

Date of defence

17.06.2026

Result of the defence

Defended (thesis was successfully defended)

znamkaCznamka

Grading

Process of defence

Student nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta a na další otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm C.

Topics for thesis defence

Pokoušel jste se hledat nejvhodnější hodnoty parametrů detekčních metod alespoň třeba pro nejlepší kombinaci předzpracování a detekční metody?
Bylo by vhodné použití jazykových modelů ve vaší práci?
Řešili jste nějak problém nevyvážených datasetů?

Language of thesis

Czech

Faculty

Fakulta informačních technologií

Department

Department of Information Systems

Study programme

Information Technology (BIT)

Composition of Committee

doc. Ing. František Zbořil, Ph.D. (předseda)
doc. Ing. Vojtěch Mrázek, Ph.D. (místopředseda)
Ing. Petr Veigend, Ph.D. (člen)
Ing. David Bařina, Ph.D. (člen)
Ing. Miloš Musil, Ph.D. (člen)

Supervisor’s report
Ing. Vladimír Bartík, Ph.D.

Student zadání bakalářské práce splnil a jeho celkovou aktivitu hodnotím kladně, proto navrhuji hodnocení stupněm B (velmi dobře).

Evaluation criteria	Verbal classification
Informace k zadání	Cílem bakalářské práce bylo vytvořit jednoduchou experimentální aplikaci pro detekci anomálií v textových datech a na vhodně zvolených datasetech porovnat existující metody, včetně porovnání využití jazykových modelů s klasickými metodami. Student zadání splnil.
Práce s literaturou	Většinu použité literatury si student vyhledal samostatně, k volbě literatury nemám výhrady.
Aktivita během řešení, konzultace, komunikace	Student řešil práci samostatně, několikrát však své řešení konzultoval a informoval o pokrocích.
Aktivita při dokončování	Konečná verze technické zprávy i realizačního výstupu byla dokončena s mírným předstihem, vše tedy bylo před dokončením konzultováno.
Publikační činnost, ocenění

Points proposed by supervisor: 85

Grade proposed by supervisor: B

Reviewer’s report
Ing. Ivana Burgetová, Ph.D.

Předložená bakalářská práce sestává z experimentální aplikace pro detekci anomálií v textu, která je funkční a dobře použitelná. Student také provedl a vyhodnotil základní experimenty. Implementace je doplněna technickou zprávou, která je bohužel málo konkrétní. Celkově proto práci hodnotím jako průměrnou a navrhuji hodnocení stupněm C.

Evaluation criteria	Verbal classification	Points
Náročnost zadání	Evaluation level: průměrně obtížné zadání
Prezentační úroveň technické zprávy	Logická struktura technické zprávy je vcelku dobrá, jednotlivé části na sebe dobře navazují a zpráva je pochopitelná pro čtenáře. Bohužel text jen tak klouže po povrchu řešeného tématu a pokud se čtenář nad popsanými informacemi hlouběji zamýšlí, řada informací zde chybí (jakých hodnot vlastně může skóre vyjadřující anomalitu nabývat, jak je u metod řešeno to, aby byly použity v módu novelty detection, případně to, jak jsou využívány parametry detekčních metod). Některé důležité údaje jsou fragmentované a čtenář je musí složitě dohledávat (počet odstraněných duplikátů nebo zhodnocení metod v kapitole 5.4 pomocí různých metrik, kdy pro různé metody není použita ani jedna stejná metrika). Stejně tak obrázek 3.1 poskytuje jen hrubý náhled na řešený problém, ale detaily zde chybí.	68
Formální úprava technické zprávy	Jazyková stránka práce je vcelku dobrá, ale poněkud ji kazí některé slangové či neobvykle přeložené výrazy (cachování, konfúzní matice, semeno). Dále si student bohužel nepohlídal jednopísmenné předložky nebo spojky na koncích řádků.	72
Realizační výstup	Realizačním výstupem je experimentální aplikace pro detekci anomálií v textových datech. Dovoluje zpracování dvou přiložených datasetů, případně dalších ve stejném formátu. Aplikace dovoluje experimenty se 4 různými způsoby předzpracování textu a 3 různými metodami pro detekci anomálií. Aplikace je plně funkční a dobře použitrelná pro experimentační účely.	81
Využitelnost výsledků	Jedná se o práci experimentálního charakteru. Student vyhodnotil celkem 12 různých kombinací metod pro předzpracování textu a detekci anomálií na dvou různých typech textů. Kladně hodnotím to, že se student snažil omezit vliv náhodného rozdělení datasetů na trénovací, validační a testovací část opakováním experimentů pro několik různých seedů. Na druhou stranu dosažené výsledky jsou podle mě spíše orientační, protože student nehledal ideální hodnoty parametrů pro jednotlivé metody, ale využíval jen jedno implicitní nastavení.
Rozsah splnění požadavků zadání	Evaluation level: zadání splněno
Rozsah technické zprávy	Evaluation level: je v obvyklém rozmezí
Práce s literaturou	Práci s literaturou hodnotím průměrně. Student si vyhledal nezbytné zdroje, které dobře pokrývají řešenou problematiku. Převzaté prvky jsou řádně odlišeny od vlastních výsledků a úvah.	78

Topics for thesis defence:

Pokoušel jste se hledat nejvhodnější hodnoty parametrů detekčních metod alespoň třeba pro nejlepší kombinaci předzpracování a detekční metody?

Points proposed by reviewer: 75

Grade proposed by reviewer: C

Responsibility: Mgr. et Mgr. Hana Odstrčilová

VUT

Faculties and university institutes

Parts

Anomaly Detection in Text Datasets