Master's Thesis
Methods of Analysis and Detection of PDF Malware
Author of thesis: Ing. Ľuboš Bever
Acad. year: 2023/2024
Supervisor: doc. Dr. Ing. Dušan Kolář
Reviewer: Ing. Zbyněk Křivka, Ph.D.
Abstract:Nowadays, malware is increasingly spread via PDF email attachments. These files attempt to deliver malware to the victim's device using social engineering. This work first identifies potential JavaScript threats to the Acrobat API. The gro of the thesis is a detailed analysis of 12 actual PDF file malware campaigns, studying also the propagation method, the prevalence of the samples and sometimes an in-depth analysis of the entire infection vector of the threat. More sophisticated campaigns have also been encountered, for optimal detection of which two extensions to the YARA modules have been developed - TLSH calculation and detection over /Launch actions. Several tools have been identified, analyzed, and detected to create such threats. A total of 24 classification and 115 detection YARA rules were created, all of which were successfully deployed in Avast Antivirus software.
Keywords:Malware, PDF, E-mail attachments, Social engineering, JavaScript for Acrobat API, PDF malware creation tools, PDF malware detection, YARA, YARA rules, TLSH in YARA
Defended (thesis was successfully defended)
znamkaAznamka
Student nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta a na další otázky přítomných, např. ohledně výpočtu TLS hashe a konkrétní použité implementace, různých pravidel pro jeden typ útoku a množství použitých referenčních obrázků. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm A - výborně.
Topics for thesis defence
- Ve vašich nových Yara pravidlech se velmi často vyskytují "makra" začínající TECHNIQUE_PDF_..., které pravděpodobně spouští v odpovídajícím PDF modulu specializovaný kód. Uvažoval jste, zda by některé techniky bylo možnost zapisovat základními konstrukty jazyka Yara? Které techniky by bylo možné nahradit a jakým způsobem?
Information Technology and Artificial Intelligence (MITAI)
doc. Dr. Ing. Petr Hanáček (předseda)
doc. Ing. Michal Bidlo, Ph.D. (člen)
doc. Mgr. Adam Rogalewicz, Ph.D. (člen)
doc. Ing. Petr Matoušek, Ph.D., M.A. (člen)
Mgr. Kamil Malinka, Ph.D. (člen)
Ing. Vladimír Veselý, Ph.D. (člen)
Jedná se o náročnou práci, která naplnila všechna očekávání.
Evaluation criteria |
Verbal classification |
Informace k zadání |
Diplomová práce se vymyká tradičním pracem. Její náročnost spočívá v hlubokém studiu a porozumění možností skriptování ve formátu PDF a možnostech zneužití těchto skriptů pro tvorbu malware. Následně, analýze zachycených vzorků s potenciálními hrozbami, jejich klasifikaci. Zadání je splněno. |
Aktivita při dokončování |
Student pracoval průběžně, řadu dílčích cílů dosáhl v předstihu. Definitivní podobu práce jsme probrali, ale samotný text už jsem neviděl. Nicméně, díky průběžným konzultacím to nepovažuji za závažné. |
Publikační činnost, ocenění |
Vzhledem k charakteru práce žádná/é. |
Práce s literaturou |
Student si získával všechny podklady prakticky sám tak, aby plnil dohodnuté cíle. |
Aktivita během řešení, konzultace, komunikace |
Aktivita během celého roku byla příkladná. Ve všech směrech. |
Points proposed by supervisor:
95
Display moreGrade proposed by supervisor: A
Velmi pěkně splněné ambiciózní zadání, které kombinuje práci analytika (až skoro průzkumníka nových typů malware v PDF) a programátora analytických nástrojů. Text je informačně velmi bohatý a kvalitní i po formální stránce, takže hodnotím Výborně/A.
Evaluation criteria |
Verbal classification |
Points |
Rozsah splnění požadavků zadání |
Evaluation level: zadání splněno |
|
Rozsah technické zprávy |
Evaluation level: přesahuje obvyklé rozmezí Rozsah technické zprávy spíše překračuje maximální rozsah, protože rozsah provedené práce byl nadstandardní. Některé části byly přesunuty do příloh, kde například detailní popis struktury formátu PDF (příloha E) je sám o sobě velmi zajímavý a dobře zpracovaný. |
|
Prezentační úroveň technické zprávy |
Práce má bezesporu logickou strukturu a velmi dobrou provázanost jednotlivých kapitol. Výjimečně jsem narazil na drobné nedostatky jako zkratku používanou dříve, než došlo k její definici (zkratka FP je definována až na str. 93). Jako drobnou nevýhodu rozsáhlého textu vidím nutnost přílišného zkrácení úvodních částí, takže základní orientace v tématu malware je nezbytná. Z podobných důvodů je věnováno poměrně málo prostoru samotné implementaci a integraci nástrojů, které student jistě provedl a bere to spíše jako samozřejmost. |
90 |
Formální úprava technické zprávy |
Ač je text psán slovensky, a tudíž nemohu hodnotit jazykovou stránku zcela sebevědomě, tak jsem v textu nenašel téměř žádné pravopisné chyby (až na pár chybějících čárek a několik překlepů). Typograficky je text také velmi kvalitní. Jedinou výtku mám u sazby výpisů kódu, které jsou často zalomeny koncem stránky, ale čitelnost to naštěstí nenarušuje. |
95 |
Práce s literaturou |
I přestože student analyzoval nejaktuálnější hrozby, tak zvládl nastudovat také velké množství literatury (39 vseměs kvalitních zdrojů), a tu vhodně v textu využít. Vedle toho práce obsahuje desítky poznámek pod čarou na další programátorské a datové zdroje. |
100 |
Realizační výstup |
Realizační výstup využívá a rozšiřuje existující nástroje firmy Gen, což kladlo časové nároky na zorientování se v cizím kódu, schopnosti jej opravit a rozšířit. Kromě vytvoření sady YARA pravidel, což byl formální výstup analytické práce studenta, byl též rozšířen nástroj YARA o možnost stanovení míry podobnosti binárních posloupností (např. podobnost obrázků). Díky pečlivé analýze popisu formátu PDF byl opraven a rozšířen také existující modul PDF. Soubory zcela vytvořené studentem mají řádně vyplněnou hlavičku. Soubory, které student pouze modifikoval, jsou na médiu pouze jako úryvky. |
90 |
Využitelnost výsledků |
Výsledky již byly využity firmou Gen na ochranu uživatelů. Přehled počtu ochráněných uživatelů studentem průběžně vytvářenými Yara pravidly a nástroji je viditelná na straně 95 (dopad na desetitisíce uživatelů). |
|
Náročnost zadání |
Evaluation level: značně obtížné zadání Zadání je náročné jednak po studijní, a především analytické stránce. Po zorientování se v technikách malware a detailním nastudování zákeřností formátu PDF bylo třeba provést často jistě zdlouhavou analytickou práci při studiu aktuálních malware šířených ve formátu PDF. Z hlediska implementace a využití výsledků v praxi bylo třeba zajistit integraci do nástrojů firmy Gen (dříve Avast). |
|
Topics for thesis defence:
- Ve vašich nových Yara pravidlech se velmi často vyskytují "makra" začínající TECHNIQUE_PDF_..., které pravděpodobně spouští v odpovídajícím PDF modulu specializovaný kód. Uvažoval jste, zda by některé techniky bylo možnost zapisovat základními konstrukty jazyka Yara? Které techniky by bylo možné nahradit a jakým způsobem?
Points proposed by reviewer:
96
Display moreGrade proposed by reviewer: A
Reasons for publication postponement
Publication of the final thesis has been postponed in compliance with the provisions of Section 47b (4) of Act No. 111/1998 Coll., on the Higher Education Institutions and on amendments and supplements to other acts, as amended.
Responsibility: Mgr. et Mgr. Hana Odstrčilová