Master's Thesis

Protection against profiling with random multilingual search

Final Thesis 3.83 MB

Author of thesis: Ing. Jan Klusáček

Acad. year: 2023/2024

Supervisor: Ing. Anton Firc

Reviewer: doc. Ing. František Zbořil, Ph.D.

Abstract:

Search engines must first create a user profile to deliver tailored results. However, in order to create such a profile, they need to collect a significant amount of information about users, which they obtain by monitoring their activities. As a result, privacy may be compromised and search results may become biased and subjective. This thesis addresses the issue of user profiling in online search engines and aims to investigate whether random multilingual search can be used to stop or at least mitigate the profiling process. The results obtained by conducting the experiments suggest that although the search results hardly change when random search is used, the search engine identified different interests in users who used random search compared to other users. In addition, this work experimentally verified that to reduce user profiling, it is better to use fewer languages and a higher ratio of random searches to real user searches. Among other things, random searches were also found to change already identified interests in users who had been using the search engine for some time without random searching.

Keywords:

user profiling, personalization, search engines, Google, Seznam.cz, search, anonymization

Date of defence

17.06.2024

Result of the defence

Defended (thesis was successfully defended)

znamkaCznamka

Grading

C

Process of defence

Student nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta a na další otázky přítomných, např. ohledně způsobu provádění experimentů a charakteru sady použitých dotazů, trvání prováděných experimentů, délky zadávaných dotazů či hodnocení relevance odpovědí na náhodné dotazy. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm C - dobře.

Topics for thesis defence

  1. V jakém formátu jsou vyhledávačem ukládány odhadované zájmy tazatele?
  2. Lze odhadnout, jak by probíhalo profilování, pokud by po nějakou dobu byly používány náhodné dotazy a ty by po čase používány být přestaly? Dosáhl by pak vyhledávač stejných výsledků, jak kdyby náhodné dotazy vůbec nebyly použity?

Language of thesis

English

Faculty

Department

Study programme

Information Technology and Artificial Intelligence (MITAI)

Specialization

Cybersecurity (NSEC)

Composition of Committee

doc. Dr. Ing. Petr Hanáček (předseda)
doc. Ing. Michal Bidlo, Ph.D. (člen)
doc. Mgr. Adam Rogalewicz, Ph.D. (člen)
doc. Ing. Petr Matoušek, Ph.D., M.A. (člen)
doc. Mgr. Kamil Malinka, Ph.D. (člen)
Ing. Vladimír Veselý, Ph.D. (člen)

Supervisor’s report
Ing. Anton Firc

Práce je kvalitní a naplnění všech požadavek předčilo požadavky. Student pracoval velmi flexibilně a dokázal reagovat na omezení, která se během zpracování objevila. Celkově byla samostatní práce studenta velmi kvalitní a důsledná. Výstupy práce přinášejí nové poznatky které jsou zajímavé pro bezpečnostní komunitu.

Evaluation criteria Verbal classification
Informace k zadání

Zadání této bakalářské práce bylo náročnější, vyžadovalo orientaci v nové problematice, samostatný návrh vyhodnocení a experimentů a experimentální ověření. Student využil volnost zadání a práci zpracoval perfektně.

Aktivita při dokončování

Práce byla dokončena s předstihem a všechny připomínky byly zapracovány.

Publikační činnost, ocenění

Je v plánu práci přepsat do výzkumné publikace a odeslat na relevantní bezpečnostní konferenci.

Práce s literaturou

Student využil doporučenou literaturu a aktivně vyhledával další relevantní odbornou literaturu, kterou vhodně využil. Rozsah použité literatury úplně nespada do standardu závěrečné práce, což je však dáno množstvím dostupné literatury v dané oblasti, ne zanedbáním ze strany studenta.

Aktivita během řešení, konzultace, komunikace

Student byl během řešení velmi aktivní, pravidelně se účastnil konzultací, na které vždy přicházel připraven a prezentoval výrazný pokrok ve své práci.

Points proposed by supervisor: 95

Grade proposed by supervisor: A

Mé průměrné hodnocení je založeno na ne zcela kvalitním provedením textové zprávy. Také to, že se jedná spíše o experimentální práci, i když velmi dobře odvedenou, mě v průměrném hodnocení utvrzuje. Stupeň C ovšem uvádím na jeho horní hranici.

Evaluation criteria Verbal classification Points
Rozsah splnění požadavků zadání

Evaluation level: zadání splněno

Zadání splněno bylo. Za cílový vyhledávací systém byl zvolen Seznam a experimentálně bylo zjištěno, že použitím náhodných dotazů nebo více jazyků, ve kterých jsou dotazy zadávány, lze do jisté míry omezit schopnost tohoto vyhledávače profilovat tazatele.

Rozsah technické zprávy

Evaluation level: je v obvyklém rozmezí

Prezentační úroveň technické zprávy

V textu práce je uvedeno až na několik výtek, které uvedu níže, vše podstatné a stejně tak je přijatelná i struktura textu.  Na začátku student představuje profilování uživatelů a vyhledávací systémy. Zde by se hodilo uvést to, co uvádí v závěru v kapitole 7, a tedy proč páce nemohla být vykonána se systémem Google a proč byl zvolen systém Seznam. Některé formulace jsou uváděny vícekrát, například o nulové a alternativní hypotéze. Na úkor toho mohly být blíže diskutovány dílčí výsledky, opět jako příklad uvedu výsledky s odloženým použitím náhodných dotazů. Také mohlo být uvedeno, jak se profilace vyvíjí, kdyby náhodné dotazy po nějakém čase přestaly být používány.

Další výhrady mám k některým dalším částem, které jsou stručné, i když by mohly být více rozvedeny. Například se jedná o statistické metody, které byly při testování použity. Jaccardův index je sice stručně uveden, ale co značí p-hodnota zde chybí, i když ta je použita později u experimentů (resp. že takto se značí Jaccardův index).  Kapitola 6.1.3. také mohla být podrobnější. Zmínění koeficientu alfa je zde bez bližšího uvedení. 

Dále mi v práci chybí názorné příklady. Například jak vypadá zápis zjištěných zájmů tazatele, přičemž takový zápis je podstatný pro provádění testování. Jako poslední výtku uvedu svoji nespokojenost  s tím, jak je popsán implementovaný systém. Popis jednotlivých souborů skriptů (strana 26) s fungování systému (strana 28) šlo udělat lépe, názorněji a formálněji.

Prezentační stránku práce považuji za slabší a hodnotím mírně pod průměrem.

60
Formální úprava technické zprávy

Práce je psána v angličtině a nakolik mohu tento jazyk posoudit, zdá se mi bez gramatických chyb. Neformální výrazy jsou použity jen v několika málo případech (naked eye na straně 74). Po stylistické stránce mám výhrady k použití některých obrázků, které nejsou příliš čitelné (strana 18). Dále se mi nelíbí použití odrážek na stranách 26 a 27. Proto hodnotím tento bod průměrně.

75
Práce s literaturou

Třicet uvedených pramenů je relevantních vůči tématu práce a tyto jsou v práci řádně citovány. Nenalezl jsem ani žádné jiné prohřešky proti citační etice.

90
Realizační výstup

Realizačním výstupem je systém, se kterým byly prováděny výše uvedené testy. Student analyzoval možnosti provádění automatických dotazů, zvolil podle mého názoru správný přístup a ten vhodně implementoval. Tímto systémem dokázal provádět zamýšlené experimenty a získávat  potřebná data.

90
Využitelnost výsledků

Výsledky experimentů ukazují, že použivání náhodných dotazů dokáže zmást vyhledávač Seznam při profilaci uživatele, konkrétně při odhadování jeho zájmů. Tato práce může být výchozí pro další zkoumání možností anonymizace uživatelů používajících i jiné vyhledávače.

Náročnost zadání

Evaluation level: průměrně obtížné zadání

Tématem práce bylo ověření, zdali se použitím náhodných dotazů nebo použitím více jazyků dá omezit schopnosti vyhledávacích systémů při profilaci uživatele. Jelikož se jedná spíše o experimentální projekt, který ovšem vyžaduje pochopení prosesu profilace a nalezení způsobu, jak experimenty provádět a vyhodnocovat, hodnotím obtížnost jako průměrnou.

Topics for thesis defence:
  1. V jakém formátu jsou vyhledávačem ukládány odhadované zájmy tazatele?
  2. Lze odhadnout, jak by probíhalo profilování, pokud by po nějakou dobu byly používány náhodné dotazy a ty by po čase používány být přestaly? Dosáhl by pak vyhledávač stejných výsledků, jak kdyby náhodné dotazy vůbec nebyly použity?
Points proposed by reviewer: 79

Grade proposed by reviewer: C

Responsibility: Mgr. et Mgr. Hana Odstrčilová