Hacia mediciones realistas y reproducibles de rastreos web
Jordan Jueckstock (North Carolina State University), Shaown Sarker (North Carolina State University), Peter Snyder (Brave Software), Aidan Beggs (North Carolina State University), Panagiotis Papadopoulos (Telefonica Research), Matteo Varvello (Nokia Bell Labs), Ben Livshits (Brave Software, Imperial College London), Alexandros Kapravelos (North Carolina State University) | Mediciones
Las mediciones web precisas son críticas para entender y mejorar la seguridad y privacidad en línea. Implícito en estas mediciones está el supuesto de que los rastreos automatizados se generalizan a las experiencias de los usuarios web típicos, a pesar de evidencia anecdótica significativa que sugiere lo contrario. La evidencia anecdótica sugiere que la web se comporta de manera diferente cuando se accede desde puntos de medición bien conocidos, o con frameworks de medición y automatización bien conocidos, por razones que van desde la detección de DDOS, ocultación de comportamiento malicioso o detección de bots.
Este trabajo mejora el estado de la privacidad y seguridad web al investigar cómo y de qué manera cambian las mediciones de privacidad y seguridad al usar herramientas de medición web típicas, en comparación con configuraciones de medición diseñadas intencionalmente para coincidir con los “usuarios” web reales. Construimos un marco de medición web que abarca puntos finales de red y configuraciones de navegador que van desde ajustes predeterminados disponibles en el mercado comúnmente utilizados en estudios de investigación hasta configuraciones más representativas de los usuarios web típicos, y señalamos el efecto de los factores de realismo en las mediciones relevantes de seguridad y privacidad cuando se aplican a los principales 25k dominios web de Tranco.
Descubrimos que las mediciones de privacidad y seguridad web se ven significativamente afectadas por el punto de vista de la medición y la configuración del navegador, y concluimos que, a menos que los investigadores consideren cuidadosamente si y cómo sus herramientas de medición web se alinean con los usuarios del mundo real, es probable que la Comunidad de investigación esté sistemáticamente perdiendo señales importantes. Por ejemplo, descubrimos que la sola configuración del navegador puede causar cambios en el 19% de los dominios conocidos de anuncios y de rastreo encontrados, y afecta de manera similar la frecuencia de carga de hasta el 10% de familias distintas de unidades de código JavaScript ejecutadas. También descubrimos que la elección de puntos de red de medición tiene efectos similares, aunque menos dramáticos, en las mediciones de privacidad y seguridad. Para ayudar a la replicabilidad de la medición, y para ayudar a la futura investigación web, compartimos nuestro conjunto de datos y configuraciones de medición precisas.