Přístupnostní navigace
E-application
Search Search Close
Master's Thesis
Author of thesis: Ing. Ondřej Ondryáš
Acad. year: 2023/2024
Supervisor: Ing. Radek Hranický, Ph.D.
Reviewer: Ing. Kamil Jeřábek, Ph.D.
This thesis presents a software solution that provides fast data collection and feature extraction for the purpose of detecting malicious domain names using machine learning. It introduces the FETA DomainRadar research project targeted at developing a system for assessing domain name maliciousness. It discusses various sources of information that proved helpful for the task. It elaborates the system's design and presents its crucial component for collecting and processing data that can be used to evaluate domain names captured in monitored high-traffic networks in real time and to build large training datasets effectively. Based on Apache Kafka, the system is designed to allow horizontal scalability in distributed deployments, with experiments showing massive improvements in throughput when multiple instances cooperate. The system collected data from eight external sources for 400,000 domain names in about 4 hours, reaching the average throughput of 28 domain names per second. It was deployed in the CESNET academic network, where it steadily collected and processed data at 9.56 domain names per second.
domain name, DNS, WHOIS, RDAP, IP, TLS, certificates, reputation systems, NERD, big data, data collection, Apache Kafka, Kafka Streams, distributed computation, phishing, malware, classification, detection, feature extraction
Date of defence
28.08.2024
Result of the defence
Defended (thesis was successfully defended)
Grading
A
Process of defence
Student nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta a na další otázky přítomných, např. ohledně propustnosti z pohledu počtu zpracovaných DNS jmen za sekundu či možností zrychlení prostřednictvím využití cache paměti. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázkyrozhodla práci hodnotit stupněm A - výborně.
Topics for thesis defence
Language of thesis
English
Faculty
Fakulta informačních technologií
Department
Department of Information Systems
Study programme
Information Technology and Artificial Intelligence (MITAI)
Specialization
Computer Networks (NNET)
Composition of Committee
doc. Ing. Richard Růžička, Ph.D., MBA (předseda) prof. Ing. Tomáš Vojnar, Ph.D. (člen) Ing. Tomáš Milet, Ph.D. (člen) doc. Ing. František Zbořil, CSc. (člen) Ing. Jaroslav Dytrych, Ph.D. (člen) doc. Ing. Lukáš Burget, Ph.D. (člen)
Supervisor’s reportIng. Radek Hranický, Ph.D.
Bez jakékoli nadsázky prohlašuji, že pan Ondryáš byl dosud nejaktivnějším studentem, kterého jsem jako vedoucí vedl. Do realizace svého díla se pustil s nadšením a aktivní přístup mu vydržel po celou dobu řešení. Během akademického roku tak vytvořil rozsáhlé implementační dílo, které velmi detailně zdokumentoval. Použitelnost vytvořeného řešení pak důkladně experimentálně ověřil. Realizační výstup je plně funkční a byl již nasazen do pilotního provozu na akademické síti sdružení CESNET. Technická zpráva je vysoce kvalitní dílo, které svým enormním rozsahem odpovídá spíše disertační než diplomové práci.
S ohledem na excelentní aktivitu studenta, rozsah díla, kvalitu zpracování, vytvořená rozšíření nad rámec zadání a publikační činnost doporučuji hodnotit stupněm A.
Dle mého názoru se rozsahem i kvalitou jedná o výjimečnou práci. V případě že oponent a členové komise dojdou k obdobnému závěru, doporučuji zvážit návrh na odpovídající ocenění.
Téma souvisí s výzkumným projektem MV ČR FETA. Cílem bylo navrhnout a implementovat komplexní systém pro sběr a zpracování dat o internetových doménách pro účely nástroje DomainRadar, který je součástí výstupu V2 tohoto projektu.
Zadání bylo splněno v plném rozsahu a nad jeho rámec bylo realizováno množství rozšíření, např. integrace Kafka Connect, modul pro změnu konfigurace systému za běhu, modul pro „standalone“ vstup, nasazení prototypu nástroje do pilotního provozu na sítí CESNET apod.
Práce byla dokončena v předstihu před termínem odevzdání a její obsah byl se mnou důkladně konzultován. Mé připomínky student zapracoval.
V průběhu akademického roku se pan Ondryáš aktivně věnoval publikačním a dalším tvůrčím aktivitám. Konkrétně se jako spoluautor podílel na tvorbě článku „Spotting the Hook: Leveraging Domain Data for Advanced Phishing Detection“, který byl odeslán na konferenci IEEE/IFIP CNSM 2024 (CORE B). Dále je student spoluautorem vykázaného realizačního díla „Sada dat (DNS, IP, WHOIS/RDAP, TLS, GeoIP) k benigním a phishingovým doménám“. V současné době pan Ondryáš také aktivně spolupracuje na tvorbě další publikace do žurnálu Data in Brief, jejíž odeslání je v plánu na podzim tohoto roku. Veškeré tyto výstupy úzce souvisí s tématem práce.
Student nejen využil doporučené literatury, ale samostatně si dohledal obrovské množství dalších zdrojů. Bibliografie tak čítá úctyhodných 129 pramenů, přičemž všechny považuji za relevantní k tématu.
Aktivita studenta byla příkladná. Obsah práce pravidelně konzultoval a dohodnuté termíny plnil v předstihu. Na konzultace docházel vždy připraven. Mimo konzultací s vedoucím návrh svého řešení také prezentoval spoluřešitelům projektu FETA a podílel se i na realizaci demonstrace pro aplikačního garanta projektu.
Grade proposed by supervisor: A
Reviewer’s reportIng. Kamil Jeřábek, Ph.D.
Jedná se o kvalitní práci jejíž výsledek je nedílnou součástí výstupu probíhajícího výzkumného projektu. Technická dokumentace je psaná v anglickém jazyce velmi detailně a kvalitně. Testování a validace výstupu bylo provedeno nad velkým množstvím dat simulující realné podmínky a řešení je již nasazeno v pilotním provozu. Student se navíc v rámci práce podílel na tvorbě vědeckých publikací, díky čemuž získal dobrý základ pro případné pokračování na doktorském studiu.
Evaluation level: zadání splněno a práce obsahuje podstatná rozšíření
Práce splňuje zadání v plném rozsahu a navíc obsahuje i rozšíření nad rámec práce.
Evaluation level: přesahuje obvyklé rozmezí
Práce výrazně přesahuje obvyklé rozmezí. Vzhledem k rozšířením, návaznosti na vytvářený systém v rámci projektu a rozsáhlého testování v závěru práce, je množství stran opodstatnitelné.
Prezentační úroveň technické zprávy je velmi kvalitní. Práce je dobře logicky strukturovaná, detailní a pro čtenáře dobře pochopitelná.
Práce je psána v anglickém jazyce a po jazykové stránce se jeví v pořádku. V práci nejsou znatelné typografické prohřešky.
Výběr studijních pramenů je kvalitní a relevantní tématu práce. Student nastudoval a čerpal z velkého množství dostupné odborné a vědecké literatury nad rámec vedoucím doporučené literatury.
Realizační výstup je kvalitní a funkční. Výstup byl demonstrován studentem a je v současné době nasazen spolu se zbytkem systému v pilotním provozu v reálném prostředí. Student musel navíc vytvořit a automatizovat konfiguraci jednotlivých částí pro distribuované zpracování. Demonstrace efektivity výsledného řešení byla prezentována v práci detailně a dostatečně.
Výsledek práce bude použit v praxi v rámci výstupu výzkumného projektu a je již začleněn do pilotního provozu v reálném prostředí vysokorychlostní sítě.
Evaluation level: obtížnější zadání
Jedná se o obtížnější zadání. Student musel nastudovat problematiku a začlenit svou práci do výstupu probíhajícího výzkumného projektu.
Grade proposed by reviewer: A
Responsibility: Mgr. et Mgr. Hana Odstrčilová