Přístupnostní navigace
E-application
Search Search Close
Master's Thesis
Author of thesis: Ing. Jan Klusáček
Acad. year: 2023/2024
Supervisor: Ing. Anton Firc
Reviewer: doc. Ing. František Zbořil, Ph.D.
Search engines must first create a user profile to deliver tailored results. However, in order to create such a profile, they need to collect a significant amount of information about users, which they obtain by monitoring their activities. As a result, privacy may be compromised and search results may become biased and subjective. This thesis addresses the issue of user profiling in online search engines and aims to investigate whether random multilingual search can be used to stop or at least mitigate the profiling process. The results obtained by conducting the experiments suggest that although the search results hardly change when random search is used, the search engine identified different interests in users who used random search compared to other users. In addition, this work experimentally verified that to reduce user profiling, it is better to use fewer languages and a higher ratio of random searches to real user searches. Among other things, random searches were also found to change already identified interests in users who had been using the search engine for some time without random searching.
user profiling, personalization, search engines, Google, Seznam.cz, search, anonymization
Date of defence
17.06.2024
Result of the defence
Defended (thesis was successfully defended)
Grading
C
Process of defence
Student nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta a na další otázky přítomných, např. ohledně způsobu provádění experimentů a charakteru sady použitých dotazů, trvání prováděných experimentů, délky zadávaných dotazů či hodnocení relevance odpovědí na náhodné dotazy. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm C - dobře.
Topics for thesis defence
Language of thesis
English
Faculty
Fakulta informačních technologií
Department
Department of Intelligent Systems
Study programme
Information Technology and Artificial Intelligence (MITAI)
Specialization
Cybersecurity (NSEC)
Composition of Committee
doc. Dr. Ing. Petr Hanáček (předseda) doc. Ing. Michal Bidlo, Ph.D. (člen) doc. Mgr. Adam Rogalewicz, Ph.D. (člen) doc. Ing. Petr Matoušek, Ph.D., M.A. (člen) doc. Mgr. Kamil Malinka, Ph.D. (člen) Ing. Vladimír Veselý, Ph.D. (člen)
Supervisor’s reportIng. Anton Firc
Práce je kvalitní a naplnění všech požadavek předčilo požadavky. Student pracoval velmi flexibilně a dokázal reagovat na omezení, která se během zpracování objevila. Celkově byla samostatní práce studenta velmi kvalitní a důsledná. Výstupy práce přinášejí nové poznatky které jsou zajímavé pro bezpečnostní komunitu.
Zadání této bakalářské práce bylo náročnější, vyžadovalo orientaci v nové problematice, samostatný návrh vyhodnocení a experimentů a experimentální ověření. Student využil volnost zadání a práci zpracoval perfektně.
Práce byla dokončena s předstihem a všechny připomínky byly zapracovány.
Je v plánu práci přepsat do výzkumné publikace a odeslat na relevantní bezpečnostní konferenci.
Student využil doporučenou literaturu a aktivně vyhledával další relevantní odbornou literaturu, kterou vhodně využil. Rozsah použité literatury úplně nespada do standardu závěrečné práce, což je však dáno množstvím dostupné literatury v dané oblasti, ne zanedbáním ze strany studenta.
Student byl během řešení velmi aktivní, pravidelně se účastnil konzultací, na které vždy přicházel připraven a prezentoval výrazný pokrok ve své práci.
Grade proposed by supervisor: A
Reviewer’s reportdoc. Ing. František Zbořil, Ph.D.
Mé průměrné hodnocení je založeno na ne zcela kvalitním provedením textové zprávy. Také to, že se jedná spíše o experimentální práci, i když velmi dobře odvedenou, mě v průměrném hodnocení utvrzuje. Stupeň C ovšem uvádím na jeho horní hranici.
Evaluation level: zadání splněno
Zadání splněno bylo. Za cílový vyhledávací systém byl zvolen Seznam a experimentálně bylo zjištěno, že použitím náhodných dotazů nebo více jazyků, ve kterých jsou dotazy zadávány, lze do jisté míry omezit schopnost tohoto vyhledávače profilovat tazatele.
Evaluation level: je v obvyklém rozmezí
V textu práce je uvedeno až na několik výtek, které uvedu níže, vše podstatné a stejně tak je přijatelná i struktura textu. Na začátku student představuje profilování uživatelů a vyhledávací systémy. Zde by se hodilo uvést to, co uvádí v závěru v kapitole 7, a tedy proč páce nemohla být vykonána se systémem Google a proč byl zvolen systém Seznam. Některé formulace jsou uváděny vícekrát, například o nulové a alternativní hypotéze. Na úkor toho mohly být blíže diskutovány dílčí výsledky, opět jako příklad uvedu výsledky s odloženým použitím náhodných dotazů. Také mohlo být uvedeno, jak se profilace vyvíjí, kdyby náhodné dotazy po nějakém čase přestaly být používány.
Další výhrady mám k některým dalším částem, které jsou stručné, i když by mohly být více rozvedeny. Například se jedná o statistické metody, které byly při testování použity. Jaccardův index je sice stručně uveden, ale co značí p-hodnota zde chybí, i když ta je použita později u experimentů (resp. že takto se značí Jaccardův index). Kapitola 6.1.3. také mohla být podrobnější. Zmínění koeficientu alfa je zde bez bližšího uvedení.
Dále mi v práci chybí názorné příklady. Například jak vypadá zápis zjištěných zájmů tazatele, přičemž takový zápis je podstatný pro provádění testování. Jako poslední výtku uvedu svoji nespokojenost s tím, jak je popsán implementovaný systém. Popis jednotlivých souborů skriptů (strana 26) s fungování systému (strana 28) šlo udělat lépe, názorněji a formálněji.
Prezentační stránku práce považuji za slabší a hodnotím mírně pod průměrem.
Práce je psána v angličtině a nakolik mohu tento jazyk posoudit, zdá se mi bez gramatických chyb. Neformální výrazy jsou použity jen v několika málo případech (naked eye na straně 74). Po stylistické stránce mám výhrady k použití některých obrázků, které nejsou příliš čitelné (strana 18). Dále se mi nelíbí použití odrážek na stranách 26 a 27. Proto hodnotím tento bod průměrně.
Třicet uvedených pramenů je relevantních vůči tématu práce a tyto jsou v práci řádně citovány. Nenalezl jsem ani žádné jiné prohřešky proti citační etice.
Realizačním výstupem je systém, se kterým byly prováděny výše uvedené testy. Student analyzoval možnosti provádění automatických dotazů, zvolil podle mého názoru správný přístup a ten vhodně implementoval. Tímto systémem dokázal provádět zamýšlené experimenty a získávat potřebná data.
Výsledky experimentů ukazují, že použivání náhodných dotazů dokáže zmást vyhledávač Seznam při profilaci uživatele, konkrétně při odhadování jeho zájmů. Tato práce může být výchozí pro další zkoumání možností anonymizace uživatelů používajících i jiné vyhledávače.
Evaluation level: průměrně obtížné zadání
Tématem práce bylo ověření, zdali se použitím náhodných dotazů nebo použitím více jazyků dá omezit schopnosti vyhledávacích systémů při profilaci uživatele. Jelikož se jedná spíše o experimentální projekt, který ovšem vyžaduje pochopení prosesu profilace a nalezení způsobu, jak experimenty provádět a vyhodnocovat, hodnotím obtížnost jako průměrnou.
Grade proposed by reviewer: C
Responsibility: Mgr. et Mgr. Hana Odstrčilová