diplomová práce

Detekce textu generovaného AI

Text práce 3.99 MB

Autor práce: Ing. Matej Koreň

Ak. rok: 2024/2025

Vedoucí: Ing. Radek Hranický, Ph.D.

Oponent: Ing. Jakub Reš

Abstrakt:

Táto práca sa zaoberá detekciou textov generovaných umelou inteligenciou (AI) za použitia rôznych modelov strojového učenia a veľkých jazykových  modelov (LLM). Práca skúma techniky analýzy textov, metódy strojového učenia a moderné transformátorové modely,  ako je BERT či GPT a ich schopnosť generovať text. Hlavným cieľom práce je vytvoriť spoľahlivý nástroj pre binárnu klasifikáciu textu, konkrétne detekciu textu vygenerovaného umelou inteligenciou. Modely strojoveho učenia, ktoré sme vybrali a otestovali (Extreme Gradient Boosting Classifier, BERT a kombinovaný model) dosiahli presnosť klasifikácie v okolí 80%. Tieto modely boli následne prevedené do formy webovej aplikácie, ktorá poskytuje interaktívne vysvetlenia rozhodnutia klasifikácie, a taktiež integrované do testovacieho modulu spoločnosti Lakmoos AI. Vytvorené riešenie je vhodné pre detekciu plagiátorstva či určenie vlastníctva textu a zároveň dopomáha vo firme vytvárať jazykové modely, ktoré sa svojimi odpoveďami čo najviac približujú k tým ľudským.

Klíčová slova:

Veľké jazykové modely, Spracovanie prirodzeného jazyka, Strojové učenie, Umelá inteligencia, GPT, BERT, transformátory, Spracovanie dát, Klasifikácia textu, Detekcia AI

Termín obhajoby

23.06.2025

Výsledek obhajoby

obhájeno (práce byla úspěšně obhájena)

znamkaCznamka

Klasifikace

C

Průběh obhajoby

Student nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm C - dobře.

Otázky k obhajobě

  1. Využil jste celou datovou sadu při trénování modelů? Pokud ano, nezvažoval jste oddělení části pro účely validace?
  2. Považujete experimentální testování ve Vaší práci za dostatečně robustní?
  3. Při vytváření datové sady zmiňujete vyvážení tříd pomocí zahození vzorků z majoritní třídy. O jakou třídu se jednalo a jakým způsobem jste vybíral vzorky k zahození? V případě, že se jednalo o třídu generovaného textu, soustředil jste se na vyvážení zdrojů, tedy různých LLM?

Jazyk práce

angličtina

Fakulta

Ústav

Studijní program

Informační technologie a umělá inteligence (MITAI)

Specializace

Informační systémy a databáze (NISD)

Složení komise

doc. Dr. Ing. Dušan Kolář (předseda)
RNDr. Marek Rychlý, Ph.D. (člen)
Ing. Zbyněk Křivka, Ph.D. (člen)
Ing. Šárka Květoňová, Ph.D. (člen)
Ing. Radek Hranický, Ph.D. (člen)
Ing. Jiří Hynek, Ph.D. (člen)

Posudek vedoucího
Ing. Radek Hranický, Ph.D.

Pan Koreň vytvořil zajímavé a přínosné dílo, ve kterém zkombinoval přístupy  XGBoost a BERT. Díky využití metody SHAP výsledné řešení nejen odhadne, zda text vytvořila umělá inteligence, ale také vysvětlí, které jeho pasáže nasvědčují použití AI a které naopak vykazují rysy „lidské“ tvorby. Součástí technické práce je také zhodnocení limitací práce a diskuse nad etickými aspekty.


Nad rámec zadání student také implementoval webovou aplikaci s grafickým uživatelským rozhraním, která integruje vytvořené klasifikátory.


Řešení bylo testováno v prostředí společnosti Lakmoos AI a aktuálně probíhá integrace do podnikového řešení.


S ohledem na aktivitu studenta, funkční řešení, zajímavou kombinaci přístupů, publikační činnost a rozšíření nad rámec zadání hodnotím stupněm „A“.

Kritérium hodnocení Slovní hodnocení
Informace k zadání

Jednalo se o firemní zadání pro společnost Lakmoos AI, s.r.o. Cílem bylo vytvořit řešení, které rozpozná, zda je vstupní text generován umělou inteligencí.

Aktivita při dokončování

Práce byla dokončena v dostatečném předstihu před odevzdáním. Mé připomínky student následně zapracoval.

Publikační činnost, ocenění

Pan Koreň svou práci prezentoval na konferenci Excel at FIT.

Zdrojové kódy realizačního výstup práce student zveřejnil jako Open-source pod licencí MIT na portálu GitHub: https://github.com/xkoren10/AI-Detector.

Práce s literaturou

Student využil veškeré doporučené literatury a množství dalších relevantních zdrojů si samostatně dohledal.

Aktivita během řešení, konzultace, komunikace

Student byl během akademického roku aktivní a řešení průběžně konzultoval s vedoucím i zástupci společnosti Lakmoos. Dohodnuté termíny dodržoval a na schůzky docházel připraven.

Výsledný počet bodů navržený vedoucím: 92

Známka navržená vedoucím: A

Posudek oponenta
Ing. Jakub Reš

Celkově hodnotím práci známkou D. Na autorově práci je vidět úsilí, ale u diplomové práci by bylo vhod lepší metodiky při vypracování jak technického výstupu, tak zprávy.

Kritérium hodnocení Slovní hodnocení Body
Rozsah splnění požadavků zadání

Stupeň hodnocení: zadání splněno

Zadání bylo splněno, nemám výhrady.

Rozsah technické zprávy

Stupeň hodnocení: je v obvyklém rozmezí

Technická zpráva je v rozsahu přibližně 78 normostran a splňuje tak obvyklé rozmezí.

(Dle nástroje Theses Checker https://app.fit.vut.cz/theses-checker/)

Prezentační úroveň technické zprávy

Prezentační úroveň první části práce je v celku ucházející, nicméně v technické části zaostává. Z práce není zřejmé, jak autor postupoval a tudíž by nebylo možné jednoduše práci zreplikovat (celá kapitola o implementaci klasifikátoru neobsahuje dostatečné informace o postupu trénování a evaluaci modelů). Dále by bylo vhodné zvážit více akademickou formu anglického jazyka pro méně zavádějící a subjektivní výrazy ("good enough", "might look something like", ...).

60
Formální úprava technické zprávy

Formální úprava zprávy silně zaostává za očekáváním u diplomové práce. V technické zprávě jsou velmi časté inkonzistence a absence referencí tabulek, figur, kapitol, i sekcí. Taktéž se velmi často objevuje nevhodné použití uvozovek a poznámek pod čarou (mnohé poznámky pod čarou by bylo možné zapracovat do textu práce či úplně vynechat). Ojediněle se v práci taktéž objevuje nevhodné zalomení citací a referencí poznámek pod čarou na nový řádek, nevhodné umístění citací (např. v nadpisu), chybějící popisy tabulek a (pro vědeckou práci) nevhodné anglické fráze.

55
Práce s literaturou

Diplomová práce obsahuje 35 citací, u přibližně čtvrtiny se nejedná o vědeckou literaturu a v ojedinělých případech se nejedná o relevantní literaturu.

Některé zdroje ve zprávě nejsou uvedeny, například u Figure 2.2, u které chybí citace originálního zdroje.

70
Realizační výstup

Technický výstup práce byl prezentován jako aktivně nasazený nástroj v rámci firmy.

Nicméně zdrojové kódy nejsou označeny hlavičkami a nelze tak jednoduše rozeznat autorovu práci. Dále pak postrádají přehledné uspořádání a dostatečnou dokumentaci (např. ipynb pro experimenty).

Způsob testování modelů je taktéž nevhodný. Autor provedl výkonnostní testování, při kterém ovšem použil vzorek tytéž datové sady, jako pro trénování modelů a tedy dosáhl prakticky té samé accuracy. Testování výsledného produktu tedy postrádá robustnost a hraničí s irelevantním.

Mimo zmíněné vnikla taktéž jako součást práce datová sada, kterou autor publikoval.

75
Využitelnost výsledků

Výsledkem práce je softwarové dílo, které je zamýšleno pro využití v praxi. Vzhledem k nedostatečně popsanému postupu trénování a testování modelů je ovšem zapotřebí další validace před samotným nasazením.

Datová sada, která vznikla jako součást výstupu práce, se jeví jako využitelná.

Náročnost zadání

Stupeň hodnocení: průměrně obtížné zadání

Vzhledem k implementační podstatě a možnostem využití existujících dat a technologií hodnotím toto zadání jako průměrně obtížné.

Otázky k obhajobě:
  1. Využil jste celou datovou sadu při trénování modelů? Pokud ano, nezvažoval jste oddělení části pro účely validace?
  2. Považujete experimentální testování ve Vaší práci za dostatečně robustní?
  3. Při vytváření datové sady zmiňujete vyvážení tříd pomocí zahození vzorků z majoritní třídy. O jakou třídu se jednalo a jakým způsobem jste vybíral vzorky k zahození? V případě, že se jednalo o třídu generovaného textu, soustředil jste se na vyvážení zdrojů, tedy různých LLM?
Výsledný počet bodů navržený oponentem: 68

Známka navržená oponentem: D

Odpovědnost: Mgr. et Mgr. Hana Odstrčilová