Master's Thesis

Detecting AI-generated Text

Final Thesis 3.99 MB

Author of thesis: Ing. Matej Koreň

Acad. year: 2024/2025

Supervisor: Ing. Radek Hranický, Ph.D.

Reviewer: Ing. Jakub Reš

Abstract:

This thesis addresses the detection of texts generated by artificial intelligence (AI) with the use of various machine learning models and large language models (LLM). It explores text analysis techniques, machine learning methods, and modern transformer-based models, such as BERT or GPT and their ability to generate text. The main goal of the thesis is to create a reliable tool for binary text classification, especially for AI-generated text
detection. The machine learning models we have selected and tested (Extreme Gradient Boosting Classifier, BERT and a combined model) all achieved a classification accuracy of around 80%. They were then transformed into a web application, which offers interactive decision explanations, and integrated into the test module of the company Lakmoos AI. The developed solution is useful in plagiarism detection or text ownership attribution and helps the company to create language models that produce answers as humanly as possible.

Keywords:

Large language models, Natural language processing, Machine learning, Artificial intelligence, GPT, BERT, transformers, Data processing, Text classification, AI detection

Date of defence

23.06.2025

Result of the defence

Defended (thesis was successfully defended)

znamkaCznamka

Grading

C

Process of defence

Student nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm C - dobře.

Topics for thesis defence

  1. Využil jste celou datovou sadu při trénování modelů? Pokud ano, nezvažoval jste oddělení části pro účely validace?
  2. Považujete experimentální testování ve Vaší práci za dostatečně robustní?
  3. Při vytváření datové sady zmiňujete vyvážení tříd pomocí zahození vzorků z majoritní třídy. O jakou třídu se jednalo a jakým způsobem jste vybíral vzorky k zahození? V případě, že se jednalo o třídu generovaného textu, soustředil jste se na vyvážení zdrojů, tedy různých LLM?

Language of thesis

English

Faculty

Department

Study programme

Information Technology and Artificial Intelligence (MITAI)

Specialization

Information Systems and Databases (NISD)

Composition of Committee

doc. Dr. Ing. Dušan Kolář (předseda)
RNDr. Marek Rychlý, Ph.D. (člen)
Ing. Zbyněk Křivka, Ph.D. (člen)
Ing. Šárka Květoňová, Ph.D. (člen)
Ing. Radek Hranický, Ph.D. (člen)
Ing. Jiří Hynek, Ph.D. (člen)

Supervisor’s report
Ing. Radek Hranický, Ph.D.

Pan Koreň vytvořil zajímavé a přínosné dílo, ve kterém zkombinoval přístupy  XGBoost a BERT. Díky využití metody SHAP výsledné řešení nejen odhadne, zda text vytvořila umělá inteligence, ale také vysvětlí, které jeho pasáže nasvědčují použití AI a které naopak vykazují rysy „lidské“ tvorby. Součástí technické práce je také zhodnocení limitací práce a diskuse nad etickými aspekty.


Nad rámec zadání student také implementoval webovou aplikaci s grafickým uživatelským rozhraním, která integruje vytvořené klasifikátory.


Řešení bylo testováno v prostředí společnosti Lakmoos AI a aktuálně probíhá integrace do podnikového řešení.


S ohledem na aktivitu studenta, funkční řešení, zajímavou kombinaci přístupů, publikační činnost a rozšíření nad rámec zadání hodnotím stupněm „A“.

Evaluation criteria Verbal classification
Informace k zadání

Jednalo se o firemní zadání pro společnost Lakmoos AI, s.r.o. Cílem bylo vytvořit řešení, které rozpozná, zda je vstupní text generován umělou inteligencí.

Aktivita při dokončování

Práce byla dokončena v dostatečném předstihu před odevzdáním. Mé připomínky student následně zapracoval.

Publikační činnost, ocenění

Pan Koreň svou práci prezentoval na konferenci Excel at FIT.

Zdrojové kódy realizačního výstup práce student zveřejnil jako Open-source pod licencí MIT na portálu GitHub: https://github.com/xkoren10/AI-Detector.

Práce s literaturou

Student využil veškeré doporučené literatury a množství dalších relevantních zdrojů si samostatně dohledal.

Aktivita během řešení, konzultace, komunikace

Student byl během akademického roku aktivní a řešení průběžně konzultoval s vedoucím i zástupci společnosti Lakmoos. Dohodnuté termíny dodržoval a na schůzky docházel připraven.

Points proposed by supervisor: 92

Grade proposed by supervisor: A

Reviewer’s report
Ing. Jakub Reš

Celkově hodnotím práci známkou D. Na autorově práci je vidět úsilí, ale u diplomové práci by bylo vhod lepší metodiky při vypracování jak technického výstupu, tak zprávy.

Evaluation criteria Verbal classification Points
Rozsah splnění požadavků zadání

Evaluation level: zadání splněno

Zadání bylo splněno, nemám výhrady.

Rozsah technické zprávy

Evaluation level: je v obvyklém rozmezí

Technická zpráva je v rozsahu přibližně 78 normostran a splňuje tak obvyklé rozmezí.

(Dle nástroje Theses Checker https://app.fit.vut.cz/theses-checker/)

Prezentační úroveň technické zprávy

Prezentační úroveň první části práce je v celku ucházející, nicméně v technické části zaostává. Z práce není zřejmé, jak autor postupoval a tudíž by nebylo možné jednoduše práci zreplikovat (celá kapitola o implementaci klasifikátoru neobsahuje dostatečné informace o postupu trénování a evaluaci modelů). Dále by bylo vhodné zvážit více akademickou formu anglického jazyka pro méně zavádějící a subjektivní výrazy ("good enough", "might look something like", ...).

60
Formální úprava technické zprávy

Formální úprava zprávy silně zaostává za očekáváním u diplomové práce. V technické zprávě jsou velmi časté inkonzistence a absence referencí tabulek, figur, kapitol, i sekcí. Taktéž se velmi často objevuje nevhodné použití uvozovek a poznámek pod čarou (mnohé poznámky pod čarou by bylo možné zapracovat do textu práce či úplně vynechat). Ojediněle se v práci taktéž objevuje nevhodné zalomení citací a referencí poznámek pod čarou na nový řádek, nevhodné umístění citací (např. v nadpisu), chybějící popisy tabulek a (pro vědeckou práci) nevhodné anglické fráze.

55
Práce s literaturou

Diplomová práce obsahuje 35 citací, u přibližně čtvrtiny se nejedná o vědeckou literaturu a v ojedinělých případech se nejedná o relevantní literaturu.

Některé zdroje ve zprávě nejsou uvedeny, například u Figure 2.2, u které chybí citace originálního zdroje.

70
Realizační výstup

Technický výstup práce byl prezentován jako aktivně nasazený nástroj v rámci firmy.

Nicméně zdrojové kódy nejsou označeny hlavičkami a nelze tak jednoduše rozeznat autorovu práci. Dále pak postrádají přehledné uspořádání a dostatečnou dokumentaci (např. ipynb pro experimenty).

Způsob testování modelů je taktéž nevhodný. Autor provedl výkonnostní testování, při kterém ovšem použil vzorek tytéž datové sady, jako pro trénování modelů a tedy dosáhl prakticky té samé accuracy. Testování výsledného produktu tedy postrádá robustnost a hraničí s irelevantním.

Mimo zmíněné vnikla taktéž jako součást práce datová sada, kterou autor publikoval.

75
Využitelnost výsledků

Výsledkem práce je softwarové dílo, které je zamýšleno pro využití v praxi. Vzhledem k nedostatečně popsanému postupu trénování a testování modelů je ovšem zapotřebí další validace před samotným nasazením.

Datová sada, která vznikla jako součást výstupu práce, se jeví jako využitelná.

Náročnost zadání

Evaluation level: průměrně obtížné zadání

Vzhledem k implementační podstatě a možnostem využití existujících dat a technologií hodnotím toto zadání jako průměrně obtížné.

Topics for thesis defence:
  1. Využil jste celou datovou sadu při trénování modelů? Pokud ano, nezvažoval jste oddělení části pro účely validace?
  2. Považujete experimentální testování ve Vaší práci za dostatečně robustní?
  3. Při vytváření datové sady zmiňujete vyvážení tříd pomocí zahození vzorků z majoritní třídy. O jakou třídu se jednalo a jakým způsobem jste vybíral vzorky k zahození? V případě, že se jednalo o třídu generovaného textu, soustředil jste se na vyvážení zdrojů, tedy různých LLM?
Points proposed by reviewer: 68

Grade proposed by reviewer: D

Responsibility: Mgr. et Mgr. Hana Odstrčilová