diplomová práce

Porovnání nástrojů zamezujících sledování uživatele prohlížeče

Text práce 1.48 MB

Autor práce: Ing. Vojtěch Fiala

Ak. rok: 2024/2025

Vedoucí: Ing. Libor Polčák, Ph.D.

Oponent: Ing. Martin Bednář

Abstrakt:

Rozšířené sledování uživatelů na webových stránkách vedlo k vývoji nástrojů na ochranu soukromí, jako jsou speciální prohlížeče či jejich rozšíření. Srovnání efektivity těchto nástrojů je však náročné kvůli dynamické a komplexní povaze webových stránek. Tato práce se zabývá testováním a srovnáním nástrojů, které brání sledování uživatelů v prohlížeči. Konkrétně se zaměřuje na nástroje, které blokují webové požadavky. Zachycením a opětovným přehráním reálného webového provozu v kontrolovaném prostředí jsou zajištěny konzistentní podmínky pro testování. Navržený systém využívá orientované stromy k rekonstrukci struktury zachycených požadavků a identifikaci zablokovaných spojení, což umožňuje detailně zkoumat nepřímo zablokované požadavky. Výsledky ukazují výrazné rozdíly v efektivitě blokování mezi jednotlivými nástroji, přičemž významné odchylky byly zaznamenány i mezi verzemi stejného rozšíření pro prohlížeče Chrome a Firefox.

Klíčová slova:

blokování obsahu, blokátory obsahu, blokování reklam, blokátory reklam, otisk prohlížeče, srovnání, vyhodnocení, soukromí, nástroje zajišťující soukromí, ochrana proti sledování, stromy požadavků

Termín obhajoby

24.06.2025

Výsledek obhajoby

obhájeno (práce byla úspěšně obhájena)

znamkaAznamka

Klasifikace

A

Průběh obhajoby

Student nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta a na další otázky přítomných, např. ohledně možného předstírání identity coby účinějšího řešení. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm A - výborně.

Otázky k obhajobě

  1. Jaké výhody a nevýhody má Vaše deterministická metoda testování oproti jiným nedeterministickým metodám (např. oproti online navštívení jedné stránky vícekrát a průměrování výsledků metrik z každé návštěvy)?
  2. V předložené práci zmiňujete, že reálný webový provoz nelze vždy reprezentovat stromovou strukturou, protože obsahuje cykly. Bylo by reálné ve Vašich metodách upustit od stromové struktury a využít pro zachycení webového provozu obecnější grafy s cykly a s jedním vstupním vrcholem?

Jazyk práce

angličtina

Fakulta

Ústav

Studijní program

Informační technologie a umělá inteligence (MITAI)

Specializace

Počítačové sítě (NNET)

Složení komise

doc. Ing. Petr Matoušek, Ph.D., M.A. (předseda)
prof. Ing. Tomáš Hruška, CSc. (člen)
doc. Ing. Ondřej Lengál, Ph.D. (člen)
doc. Ing. Ondřej Ryšavý, Ph.D. (člen)
Ing. Martin Hrubý, Ph.D. (člen)
Ing. Vojtěch Mrázek, Ph.D. (člen)

Posudek vedoucího
Ing. Libor Polčák, Ph.D.

Vyjádření Gen Digital:


"Cením si proaktivního přístupu k řešení úkolu, důkladného prozkoumání oblasti s cílem pochopit různé možnosti přístupů a následného výběru takového, který umožňuje deterministickým a replikovatelným způsobem testovat různá anti-track řešení. Pan Fiala prokázal schopnost problém správně uchopit, navrhnout zajímavé řešení a zároveň jej i implementovat. Jeho výsledky navíc přinášejí cenný vhled do současných možností anti-track přístupů. Oceňuji také, že jeho práce umožňuje na dosažené výsledky dále navázat, což považuji za další přínos."


Plně se s tímto hodnocením ztotožňuji.

Kritérium hodnocení Slovní hodnocení
Informace k zadání

Práce navazuje na můj výzkum a dříve vedené práce, ale zároveň se také týkala spolupráce s firmou Gen Digital. Zadání práce bylo splněno a očekávání naplněná.

Aktivita při dokončování

Práce byla dokončená více než měsíc v předstihu, takže jsme měli dostatek času, jak ji vyladit.

Publikační činnost, ocenění

Práce byla prezentována na Excel@FIT, lze očekávat, že její výsledky ještě v budoucnu využiji.

Práce s literaturou

Student s literaturu pracoval příkladně. Využil mnou doporučené zdroje, ale také si sám dohledával vlastní.

Aktivita během řešení, konzultace, komunikace

Po celou dobu řešení práce jsme se pravidelně scházeli, student byl vždy připraven, plný nápadů a odhodlání, jak práci posunout. Trochu jsem studenta musel mírnit, protože svými snahami by značně přesáhl očekávání kladená na diplomovou práci.

Paralelně k častým konzultacím se mnou probíhaly i konzultace s Gen Digital.

Výsledný počet bodů navržený vedoucím: 95

Známka navržená vedoucím: A

Posudek oponenta
Ing. Martin Bednář

Předložená práce přináší nový způsob testování nástrojů, které brání uživatele proti sledování na webu prostřednictvím blokování požadavků. Dosud existující metody testování mají řadu omezení a chybí jednoznačně přijímaná metrika pro porovnávání výsledků testování.


Vzhledem k tomu vnímám nové metody navržené a implementované studentem jako velmi zajímavé a přínosné. Navržené metody vynikají svou deterministickou, opakovatelnou možností testování v kontrolovaném prostředí.


Všechny aspekty práce vykazují vynikající úroveň, proto navrhuji celkové hodnocení stupněm  A (výborně).

Kritérium hodnocení Slovní hodnocení Body
Rozsah splnění požadavků zadání

Stupeň hodnocení: zadání splněno

Předložená práce splňuje zadání ve všech bodech.

Rozsah technické zprávy

Stupeň hodnocení: je v obvyklém rozmezí

Technická zpráva má přibližně 81 normostran (dle nástroje: app.fit.vut.cz/normostrany), čímž svým rozsahem spadá do obvyklého rozmezí. Všechny části technické zprávy jsou informačně bohaté a pro práci nezbytné.

Prezentační úroveň technické zprávy

Prezentační úroveň technické zprávy hodnotím jako vysoce kvalitní. Práce je logicky strukturovaná, díky čemuž je orientace v technické zprávě pro čtenáře intuitivní. Rozsahy kapitol jsou vyvážené. Návaznost textu je na výborné úrovni. Uvození kapitol i sekcí stručným popisem a odkazování mezi kapitolami přispívá k výborné návaznosti textu. Velmi kladně hodnotím časté využití diagramů a tabulek v technické zprávě, které významně dokreslují textový popis.

Celková výborná prezentační úroveň přeložené technické zprávy významně přispívá k dobré pochopitelnosti práce pro čtenáře.

95
Formální úprava technické zprávy

Předložená technická zpráva je po formální stránce zpracována velmi pečlivě pouze s výjimečnými drobnými překlepy ("determinstické" v rozšířeném abstraktu nebo zdvojený člen "a" v podsekci 2.2.1). Text je psán odborným jazykem, bez gramatických nebo stylistických chyb. Použitá terminologie je konzistentní a odpovídá standardům v oblasti informačních technologií. Velmi kladně hodnotím sepsání technické zprávy v angličtině.

90
Práce s literaturou

V práci je čerpáno z 36 literárních pramenů - převážně vědeckých publikací. Výběr literatury je aktuální (většina zdrojů je z posledních 5 let) a relevantní k řešenému tématu. Citace jsou uvedeny korektně a v jednotném stylu. Kromě citací obsahuje práce také desítky poznámek pod čarou na další zdroje. Nebylo zjištěno porušení citační etiky.

90
Realizační výstup

Realizačním výstupem je plně funkční testovací prostředí, v němž jsou implementovány dvě metody na hodnocení nástrojů omezujících sledování uživatele. Implementace je provedena velmi kvalitně, zdrojový kód je přehledný, srozumitelný a dokumentovaný.

Obě metody zcela splňují zadaný cíl, ale mají svá omezení, která jsou v práci přiznána a nesnižují její celkovou kvalitu. Jedno ze zásadnějších omezení uvádím jako příklad.

V první metodě byla stanovena metrika requests_blocked_in_total, o které sám autor píše, že metrika sice vrací určité číslo, ale nelze dle této metriky řadit - nelze říci, že více je lépe (i když to tak lze intuitivně vnímat). Pokud bychom intuitivně vnímali, že více zablokovaných požadavků je lépe, došli bychom k výsledku, že rozšíření, které kompletně zablokovalo webový provoz, získá dle této metriky nejlepší hodnocení. Což určitě není pravda. Blokované požadavky by bylo potřeba vnímat v kontextu a rozlišovat, zda byly zablokovány a měly být zablokovány (true positive) nebo neměly být zablokovány (false positive), což už není předmětem navržené metriky ani celé metody testování.

85
Využitelnost výsledků

Výsledky práce mají praktickou využitelnost jak pro výzkumné účely (např. při dalším vývoji nástrojů na ochranu soukromí), tak i pro vývojáře bezpečnostních rozšíření a prohlížečů - například pro společnost Gen (dříve Avast), která se podílela na vytvoření zadání a konzultacích během realizace.

Práci hodnotím jako přínosnou a originální s potenciálem pro praktické i akademické využití.

Náročnost zadání

Stupeň hodnocení: průměrně obtížné zadání

Zadání hodnotím jako průměrně obtížné, i když lze nalézt aspekty obtížnějšího zadání. Obtížnost poněkud zvyšuje například potřeba porozumění, modifikace a využití nástroje JShelter pro sběr dat (konkrétně počtu přístupů webové stránky k vybraným API webového prohlížeče).

Otázky k obhajobě:
  1. V předložené práci zmiňujete, že reálný webový provoz nelze vždy reprezentovat stromovou strukturou, protože obsahuje cykly. Bylo by reálné ve Vašich metodách upustit od stromové struktury a využít pro zachycení webového provozu obecnější grafy s cykly a s jedním vstupním vrcholem?
  2. Jaké výhody a nevýhody má Vaše deterministická metoda testování oproti jiným nedeterministickým metodám (např. oproti online navštívení jedné stránky vícekrát a průměrování výsledků metrik z každé návštěvy)?
Výsledný počet bodů navržený oponentem: 90

Známka navržená oponentem: A

Odpovědnost: Mgr. et Mgr. Hana Odstrčilová