Идентификация пользователей по истории посещений в браузере


Сотрудники компании Mozilla опубликовали результаты исследования возможности идентификации пользователей на основании профиля посещений в браузере, который может быть виден третьим лицам и сайтам. Анализ 52 тысяч профилей посещений, предоставленных пользователями Firefox, принявшими участие в эксперименте, показал, что предпочтения в посещении сайтов характерны для каждого пользователя и постоянны. Уникальность полученных профилей истории посещений составила 99%. При этом высокая степень уникальности профилей сохраняется даже если ограничить выборку только сотней популярных сайтов.

Проверка возможности повторной идентификации проводилась в ходе двухнедельного эксперимента - данные о посещениях в первую неделю попытались сопоставить с данными за вторую неделю. Выяснилось, что можно повторно идентифицировать 50% пользователей, посетивших 50 и более различных доменов. При посещении 150 и более различных доменов охват повторной идентификации увеличивался до 80%. Проверка выполнялась в выборке из 10 тысяч сайтов для симуляции данных, которые могут получить крупные провайдеры контента (например, Google может контролировать обращения к 9823 сайтам из этих 10000, Facebook к 7348, Verizon к 5500).

Указанная особенность позволяет крупным владельцам популярных ресурсов с достаточно высокой вероятностью идентифицировать пользователей. Например, компании Google, Facebook и Twitter, виджеты которых размещаются на сторонних сайтах, теоретически могут повторно идентифицировать примерно 80% пользователей.

Определить ранее открытые сайты также можно косвенными методами, например, путём перебора в коде на JavaScript популярных доменов с оценкой различия задержек при загрузки ресурсов - если сайт был недавно открыт пользователем, то ресурс будет выдан из кэша браузера почти мгновенно. Ранее для определения открытых страниц могли применяться оценка кэширования настроек HSTS (при открытии сайта с HSTS, HTTP-запрос сразу перенаправлялся на HTTPS без попытки обращения по HTTP) и анализ состояния CSS-свойства "visited".

Подобные методы определения истории посещений на основе CSS использовались в похожем исследовании, проводимом с 2009 по 2011 год. Данное исследователи показало возможность идентификации 42% пользователей при проверке 50 страниц и 70% при проверке 500 страниц. Исследование Mozilla подтвердило и уточнило выводы прошлой публикации, при этом была существенно повышена точность определения истории посещений, а охват проверяемых доменов был увеличен с 6000 до 10000 (всего были получены данные о 660000 доменах, но при оценке идентификации использовалась выборка в 10 тысяч наиболее популярных доменов).

Источник: https://www.opennet.ru/opennews/art.shtml?num=53635


Comments 0