Master's Thesis

Efficient Large-scale Collection of Information Related to Domain Names

Final Thesis 14.68 MB

Author of thesis: Ing. Ondřej Ondryáš

Acad. year: 2023/2024

Supervisor: Ing. Radek Hranický, Ph.D.

Reviewer: Ing. Kamil Jeřábek, Ph.D.

Abstract:

This thesis presents a software solution that provides fast data collection and feature extraction for the purpose of detecting malicious domain names using machine learning. It introduces the FETA DomainRadar research project targeted at developing a system for assessing domain name maliciousness. It discusses various sources of information that proved helpful for the task. It elaborates the system's design and presents its crucial component for collecting and processing data that can be used to evaluate domain names captured in monitored high-traffic networks in real time and to build large training datasets effectively. Based on Apache Kafka, the system is designed to allow horizontal scalability in distributed deployments, with experiments showing massive improvements in throughput when multiple instances cooperate. The system collected data from eight external sources for 400,000 domain names in about 4 hours, reaching the average throughput of 28 domain names per second. It was deployed in the CESNET academic network, where it steadily collected and processed data at 9.56 domain names per second.

Keywords:

domain name, DNS, WHOIS, RDAP, IP, TLS, certificates, reputation systems, NERD, big data, data collection, Apache Kafka, Kafka Streams, distributed computation, phishing, malware, classification, detection, feature extraction

Date of defence

28.08.2024

Result of the defence

Defended (thesis was successfully defended)

znamkaAznamka

Grading

A

Process of defence

Student nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta a na další otázky přítomných, např. ohledně propustnosti z pohledu počtu zpracovaných DNS jmen za sekundu či možností zrychlení prostřednictvím využití cache paměti. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázkyrozhodla práci hodnotit stupněm A - výborně.

Topics for thesis defence

  1. Jakým způsobem byste v systému řešil monitorování událostí aplikace a systémových prostředků?

Language of thesis

English

Faculty

Department

Study programme

Information Technology and Artificial Intelligence (MITAI)

Specialization

Computer Networks (NNET)

Composition of Committee

doc. Ing. Richard Růžička, Ph.D., MBA (předseda)
prof. Ing. Tomáš Vojnar, Ph.D. (člen)
Ing. Tomáš Milet, Ph.D. (člen)
doc. Ing. František Zbořil, CSc. (člen)
Ing. Jaroslav Dytrych, Ph.D. (člen)
doc. Ing. Lukáš Burget, Ph.D. (člen)

Supervisor’s report
Ing. Radek Hranický, Ph.D.

Bez jakékoli nadsázky prohlašuji, že pan Ondryáš byl dosud nejaktivnějším studentem, kterého jsem jako vedoucí vedl. Do realizace svého díla se pustil s nadšením a aktivní přístup mu vydržel po celou dobu řešení. Během akademického roku tak vytvořil rozsáhlé implementační dílo, které velmi detailně zdokumentoval. Použitelnost vytvořeného řešení pak důkladně experimentálně ověřil. Realizační výstup je plně funkční a byl již nasazen do pilotního provozu na akademické síti sdružení CESNET. Technická zpráva je vysoce kvalitní dílo, které svým enormním rozsahem odpovídá spíše disertační než diplomové práci.


S ohledem na excelentní aktivitu studenta, rozsah díla, kvalitu zpracování, vytvořená rozšíření nad rámec zadání a publikační činnost doporučuji hodnotit stupněm A.


Dle mého názoru se rozsahem i kvalitou jedná o výjimečnou práci. V případě že oponent a členové komise dojdou k obdobnému závěru, doporučuji zvážit návrh na odpovídající ocenění.

Evaluation criteria Verbal classification
Informace k zadání

Téma souvisí s výzkumným projektem MV ČR FETA. Cílem bylo navrhnout a implementovat komplexní systém pro sběr a zpracování dat o internetových doménách pro účely nástroje DomainRadar, který je součástí výstupu V2 tohoto projektu.

Zadání bylo splněno v plném rozsahu a nad jeho rámec bylo realizováno množství rozšíření, např. integrace Kafka Connect, modul pro změnu konfigurace systému za běhu, modul pro „standalone“ vstup, nasazení prototypu nástroje do pilotního provozu na sítí CESNET apod.

Aktivita při dokončování

Práce byla dokončena v předstihu před termínem odevzdání a její obsah byl se mnou důkladně konzultován. Mé připomínky student zapracoval.

Publikační činnost, ocenění

V průběhu akademického roku se pan Ondryáš aktivně věnoval publikačním a dalším tvůrčím aktivitám. Konkrétně se jako spoluautor podílel na tvorbě článku „Spotting the Hook: Leveraging Domain Data for Advanced Phishing Detection“, který byl odeslán na konferenci IEEE/IFIP CNSM 2024 (CORE B). Dále je student spoluautorem vykázaného realizačního díla „Sada dat (DNS, IP, WHOIS/RDAP, TLS, GeoIP) k benigním a phishingovým doménám“. V současné době pan Ondryáš také aktivně spolupracuje na tvorbě další publikace do žurnálu Data in Brief, jejíž odeslání je v plánu na podzim tohoto roku. Veškeré tyto výstupy úzce souvisí s tématem práce.

Práce s literaturou

Student nejen využil doporučené literatury, ale samostatně si dohledal obrovské množství dalších zdrojů. Bibliografie tak čítá úctyhodných 129 pramenů, přičemž všechny považuji za relevantní k tématu.

Aktivita během řešení, konzultace, komunikace

Aktivita studenta byla příkladná. Obsah práce pravidelně konzultoval a dohodnuté termíny plnil v předstihu. Na konzultace docházel vždy připraven. Mimo konzultací s vedoucím návrh svého řešení také prezentoval spoluřešitelům projektu FETA a podílel se i na realizaci demonstrace pro aplikačního garanta projektu.

Points proposed by supervisor: 100

Grade proposed by supervisor: A

Reviewer’s report
Ing. Kamil Jeřábek, Ph.D.

Jedná se o kvalitní práci jejíž výsledek je nedílnou součástí výstupu probíhajícího výzkumného projektu. Technická dokumentace je psaná v anglickém jazyce velmi detailně a kvalitně. Testování a validace výstupu bylo provedeno nad velkým množstvím dat simulující realné podmínky a řešení je již nasazeno v pilotním provozu. Student se navíc v rámci práce podílel na tvorbě vědeckých publikací, díky čemuž získal dobrý základ pro případné pokračování na doktorském studiu.

Evaluation criteria Verbal classification Points
Rozsah splnění požadavků zadání

Evaluation level: zadání splněno a práce obsahuje podstatná rozšíření

Práce splňuje zadání v plném rozsahu a navíc obsahuje i rozšíření nad rámec práce.

Rozsah technické zprávy

Evaluation level: přesahuje obvyklé rozmezí

Práce výrazně přesahuje obvyklé rozmezí. Vzhledem k rozšířením, návaznosti na vytvářený systém v rámci projektu a rozsáhlého testování v závěru práce, je množství stran opodstatnitelné.

Prezentační úroveň technické zprávy

Prezentační úroveň technické zprávy je velmi kvalitní. Práce je dobře logicky strukturovaná, detailní a pro čtenáře dobře pochopitelná.

100
Formální úprava technické zprávy

Práce je psána v anglickém jazyce a po jazykové stránce se jeví v pořádku. V práci nejsou znatelné typografické prohřešky.

100
Práce s literaturou

Výběr studijních pramenů je kvalitní a relevantní tématu práce. Student nastudoval a čerpal z velkého množství dostupné odborné a vědecké literatury nad rámec vedoucím doporučené literatury.

100
Realizační výstup

Realizační výstup je kvalitní a funkční. Výstup byl demonstrován studentem a je v současné době nasazen spolu se zbytkem systému v pilotním provozu v reálném prostředí. Student musel navíc vytvořit a automatizovat konfiguraci jednotlivých částí pro distribuované zpracování. Demonstrace efektivity výsledného řešení byla prezentována v práci detailně a dostatečně.

100
Využitelnost výsledků

Výsledek práce bude použit v praxi v rámci výstupu výzkumného projektu a je již začleněn do pilotního provozu v reálném prostředí vysokorychlostní sítě.

Náročnost zadání

Evaluation level: obtížnější zadání

Jedná se o obtížnější zadání. Student musel nastudovat problematiku a začlenit svou práci do výstupu probíhajícího výzkumného projektu.

Topics for thesis defence:
  1. Jakým způsobem byste v systému řešil monitorování událostí aplikace a systémových prostředků?
Points proposed by reviewer: 100

Grade proposed by reviewer: A

Responsibility: Mgr. et Mgr. Hana Odstrčilová