Bachelor's Thesis

Stylometric Detection of AI-Generated Text

Author of thesis: Martin Poruba

Acad. year: 2025/2026

Abstract:

As artificial intelligence text generators become more common, distinguishing between human and machine-written text has become a major challenge for education and digital security. This thesis explores using stylometry – the mathematical study of writing style – to detect AI-generated text. By treating AI models as "authors" with their own specific writing habits, a detection program was built in Python. This program measures 21 different text features, such as word length, vocabulary richness, and word distribution entropy.
The system was tested on AuTexTification 2023, a collection of over 55,000 English texts written by both humans and various AI models. The results show that combining different machine learning methods, specifically Random Forest and SVM, works best for telling human and AI text apart, with Random Forest being the most successful individual method. The study confirms that analyzing writing style is a useful and understandable way to spot AI text, as we can trace exactly why the system made its decision. However, the system can still be tricked if the AI text is intentionally rephrased to hide its origin. Future work will focus on adding more writing features to the analysis and adapting the system for other languages.

Keywords:

Stylometry, stylometric features, AI-generated text, AI detection, large language models, machine learning, authorship attribution

Date of defence

17.06.2026

Result of the defence

Defended (thesis was successfully defended)

znamkaDznamka

Grading

Process of defence

Student nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta a na další otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm D.

Topics for thesis defence

Jak se výkon systému změní po přidání některých opomenutých příznaků?
Mohlo by úspěšnosti řešení pomoci přidání dalších příznaků? Jakých?
Můžete okomentovat prezentovanou tabulku?

Language of thesis

English

Faculty

Fakulta informačních technologií

Department

Department of Intelligent Systems

Study programme

Information Technology (BIT)

Composition of Committee

doc. Ing. František Zbořil, CSc. (předseda)
doc. Ing. Michal Španěl, Ph.D. (místopředseda)
Ing. Jan Pluskal, Ph.D. (člen)
Ing. Aleš Smrčka, Ph.D. (člen)
Ing. Josef Strnadel, Ph.D. (člen)

Supervisor’s report
Ing. Anton Firc, Ph.D.

Práce splňuje požadavky zadání a dosahuje dostatečné kvality. Student vytvořil řešení odpovídající stanovenému cíli, nicméně celkový výsledek nepřináší výraznější rozšíření nad rámec zadání. Aktivita během roku mohla být pravidelnější a některé části práce mohly být zpracovány důkladněji. Celkově práci hodnotím stupněm C.

Evaluation criteria	Verbal classification
Informace k zadání	Cílem práce bylo navrhnout a implementovat klasifikátor pro detekci textu generovaného umělou inteligencí na základě stylometrických vlastností. Zadání hodnotím jako průměrně náročné, neboť vyžadovalo pochopení rozdílů mezi stylometrickými vlastnostmi textu psaného člověkem a textu generovaného umělou inteligencí a následnou aplikaci těchto vlastností při tvorbě klasifikátoru s využitím existujících frameworků. Práce naplňuje požadavky zadání v dostatečné kvalitě.
Práce s literaturou	Student pracoval s relevantní literaturou a vhodně ji využil při řešení práce. K práci se studijními materiály nemám zásadní připomínky.
Aktivita během řešení, konzultace, komunikace	Aktivita studenta během řešení byla soustředěna především do druhé poloviny semestru a do závěrečné fáze práce. Průběžná komunikace a konzultace mohly být pravidelnější. Poskytnuté připomínky však student reflektoval.
Aktivita při dokončování	Práce byla dokončována spíše na poslední chvíli. Finální verze práce však byla konzultována, takže k definitivnímu obsahu bylo možné poskytnout zpětnou vazbu.
Publikační činnost, ocenění	Publikační činnost ani ocenění související s touto prací mi nejsou známy.

Points proposed by supervisor: 75

Grade proposed by supervisor: C

Reviewer’s report
Ing. Zbyněk Lička

Student důkladně prozkoumal celou řadu metod strojového učení i jejich kombinací. Provedl experimentální vyhodnocení a ablační studii, která ukázala, že jeden z příznaků přidaných nad rámec referenčního řešení se stal jedním z nejdůležitějších příznaků. Za slabinu práce považuji nedostatečně motivované zahrnutí pouze omezeného množství příznaků oproti referenčnímu řešení. Výraznější nedostatky se objevují také v práci s literaturou, zejména ve formálním zpracování citací, využívání některých méně vhodných zdrojů a nedostatečné literární opoře u části tvrzení. S ohledem na tyto nedostatky a náročnost zadání hodnotím práci stupněm D.

Evaluation criteria	Verbal classification	Points
Náročnost zadání	Evaluation level: průměrně obtížné zadání Zadání hodnotím jako průměrně obtížné. Práce pokrývá standardní aktivity spojené s analýzou existujících přístupů, návrhem a implementací nástroje, experimentálním ověřením a vyhodnocením dosažených výsledků.
Prezentační úroveň technické zprávy	Práce je pro čtenáře dobře pochopitelná, text se čte plynule a jednotlivé kapitoly na sebe logicky navazují. Popis implementace by místy zasloužil hlubší strukturování, avšak jako celek je dostačující a implementace nástroje je vhodně členěna. V práci se objevují některé prezentační nedostatky, například méně vhodné názvy částí, jako je „Why This Matters for AI-Text Detection“. V sekci 4.3 autor u popisu jednotlivých metrik opakovaně začíná odstavce názvem metriky, který je již uveden v nadpisu. Tyto nedostatky však výrazně nenarušují celkovou čitelnost práce.	80
Formální úprava technické zprávy	Po formální stránce je práce v pořádku. V textu se nevyskytují výrazné jazykové ani typografické chyby. Drobně rušivým nedostatkem je, že popisky obrázků často nekončí tečkou.	85
Realizační výstup	Student při řešení vycházel ze stejného datasetu jako referenční systém. Z referenčního řešení převzal podmnožinu příznaků a doplnil tři vlastní příznaky: Shannonovu entropii, směrodatnou odchylku délky vět a směrodatnou odchylku délky slov. Výsledný systém kombinuje dva modely. Implementace je funkční a její funkčnost student demonstroval při konzultaci. Pro implementaci využil řadu existujících knihoven, přičemž jejich použití je v souladu s licenčními podmínkami. Slabším místem řešení je omezený výběr příznaků oproti referenčnímu systému, který není dostatečně motivován. Student navíc opomenul jeden z nejdůležitějších příznaků referenčního systému. Výsledný systém dosahuje horších výsledků než referenční řešení, přičemž student neprovedl vlastní reimplementaci referenčního systému a porovnává se pouze s výsledky prezentovanými v původním článku. To může být zdrojem nepřesnosti. Dalším možným zdrojem nepřesnosti je použití pevného rozhodovacího prahu nastaveného na hodnotu 0,5 bez normalizace. Pozitivně hodnotím provedenou ablační studii důležitosti příznaků. Ta ukázala, že Shannonova entropie, tedy jeden z příznaků doplněných studentem, přispívá k výsledkům nejvíce.	60
Využitelnost výsledků	Výsledný nástroj lze využít jako základ pro další rozšíření a případnou implementaci referenčního řešení. Samostatně zajímavým výsledkem je ablační studie důležitosti příznaků, která mimo jiné ukázala, že jeden z příznaků přidaných studentem patří mezi nejvýznamnější.
Rozsah splnění požadavků zadání	Evaluation level: zadání splněno Všechny body zadání byly splněny. Student se seznámil s oblastí stylometrie, fungováním velkých jazykových modelů a existujícími přístupy k detekci strojově generovaného textu. Na základě získaných poznatků navrhl a implementoval vlastní nástroj, jehož funkčnost následně experimentálně ověřil a vyhodnotil.
Rozsah technické zprávy	Evaluation level: je v obvyklém rozmezí Technická zpráva je v obvyklém rozsahu. Jednotlivé části práce pokrývají relevantní oblasti od teoretického úvodu přes popis existujících přístupů až po návrh, implementaci a vyhodnocení výsledného nástroje.
Práce s literaturou	Výběr zdrojů je převážně vhodný a zahrnuje odborné prameny relevantní k tématu práce. V některých případech se však autor opírá o méně vhodné zdroje, například blogové příspěvky ([12]). U některých tvrzení a používané terminologie by bylo vhodné poskytnout hlubší oporu v odborné literatuře, například v části věnované fungování velkých jazykových modelů. U některých obrázků je sice uveden zdroj, ale v textu není verbálně zřejmé, že jde o převzatý obrázek. Příkladem je obrázek 2.1. Seznam literatury má rovněž formální nedostatky. U online zdrojů chybí některé povinné položky, u publikací s DOI není tento identifikátor vždy uveden a v některých případech chybí i základní identifikátory, například URL ([10]). Problematické je to zejména u zdrojů, které jsou v textu často používány.	50

Topics for thesis defence:

Jak se výkon systému změní po přidání některých opomenutých příznaků?

Points proposed by reviewer: 68

Grade proposed by reviewer: D

Responsibility: Mgr. et Mgr. Hana Odstrčilová

VUT

Faculties and university institutes

Parts

Stylometric Detection of AI-Generated Text