Los investigadores descubren fugas de datos en Google Tag Manager (GTM), así como vulnerabilidades de seguridad, inyecciones arbitrarias de scripts e instancias de consentimiento para la recopilación de datos habilitadas de forma predeterminada. Un análisis legal identifica posibles violaciones de la ley de protección de datos de la UE.
Hay muchas revelaciones preocupantes, incluida la de que GTM del lado del servidor “obstruye los esfuerzos de auditoría de cumplimiento por parte de los reguladores, los funcionarios de protección de datos y los investigadores…”
GTM, desarrollado por Google en 2012 para ayudar a los editores a implementar scripts JavaScript de terceros, se utiliza actualmente en nada menos que 28 millones de sitios web. El estudio de investigación evalúa ambas versiones de GTM, la del lado del cliente y la más nueva GTM del lado del servidor que se introdujo en 2020.
El análisis, realizado por investigadores y expertos jurídicos, reveló una serie de cuestiones inherentes a la arquitectura GTM.
Un examen de 78 etiquetas del lado del cliente, 8 etiquetas del lado del servidor y dos plataformas de gestión de consentimiento (CMP) reveló fugas de datos ocultos, casos de etiquetas que eludían los sistemas de permisos de GTM para inyectar scripts y consentimiento configurado como habilitado de forma predeterminada sin cualquier interacción del usuario.
Un hallazgo importante se refiere al GTM del lado del servidor. GTM del lado del servidor funciona cargando y ejecutando etiquetas en un servidor remoto, lo que crea la percepción de la ausencia de terceros en el sitio web.
Sin embargo, el estudio demostró que esta arquitectura permite que las etiquetas que se ejecutan en el servidor compartan clandestinamente los datos de los usuarios con terceros, eludiendo las restricciones del navegador y las medidas de seguridad como la Política de seguridad de contenido (CSP).
Metodología utilizada en la investigación sobre fugas de datos de GTM
Los investigadores son del Centre Inria de l’Université, el Centre Inria d’Université Côte d’Azur, el Centre Inria de l’Université y la Universidad de Utrecht.
La metodología utilizada por los investigadores fue comprar un dominio e instalar GTM en un sitio web activo.
El trabajo de investigación explica en detalle:
“Para realizar experimentos y configurar la infraestructura GTM, compramos un dominio (aquí lo llamamos ejemplo.com) y creamos un sitio web público que contiene una página web básica con un párrafo de texto y un formulario de inicio de sesión HTML. Hemos incluido un formulario de inicio de sesión desde Senol et al. …recientemente descubrimos que las entradas de los usuarios a menudo se filtran de los formularios, por lo que decidimos probar si las etiquetas pueden ser responsables de dicha filtración.
El sitio web y la infraestructura GTM del lado del servidor se alojaron en una máquina virtual que alquilamos en la plataforma de computación en la nube Microsoft Azure ubicada en un centro de datos en la UE.
…Utilizamos la funcionalidad de ‘perfiles’ del navegador para iniciar cada experimento en un entorno nuevo, sin cookies, almacenamiento local y otras tecnologías que mantengan un estado.
El navegador que visitaba el sitio web se ejecutaba en un ordenador conectado a Internet a través de una red institucional de la UE.
Para crear instalaciones de GTM del lado del cliente y del servidor, creamos una nueva cuenta de Google, iniciamos sesión en ella y seguimos los pasos sugeridos en la documentación oficial de GTM”.
Los resultados del análisis contienen múltiples hallazgos críticos, incluido que la “Etiqueta de Google” facilita la recopilación de múltiples tipos de datos de los usuarios sin consentimiento y en el momento del análisis presentaba una vulnerabilidad de seguridad.
La recopilación de datos está oculta a los editores
Otro descubrimiento fue el alcance de la recopilación de datos mediante la “Etiqueta de Pinterest”, que reunió una cantidad significativa de datos de los usuarios sin revelarlos al editor.
Lo que algunos pueden encontrar preocupante es que los editores que implementan estas etiquetas no sólo pueden no estar al tanto de las filtraciones de datos, sino que las herramientas en las que confían para ayudarlos a monitorear la recopilación de datos no les notifican sobre estos problemas.
Los investigadores documentaron sus hallazgos:
“Observamos que los datos enviados por la Etiqueta de Pinterest no son visibles para el Editor en el sitio web de Pinterest, donde iniciamos sesión para observar la divulgación de Pinterest sobre los datos recopilados.
Además, encontramos que los datos recopilados por la etiqueta de Google sobre la interacción del formulario no se muestran en el panel de Google Analytics.
Este hallazgo demuestra que, para dichas etiquetas, los editores no conocen los datos recopilados por las etiquetas que seleccionan”.
Inyecciones de scripts de terceros
Google Tag Managers tiene una función para controlar etiquetas, incluidas etiquetas de terceros, llamada Web Containers. Las etiquetas pueden ejecutarse dentro de un entorno limitado que limita sus funcionalidades. El sandbox también utiliza un sistema de permisos con un permiso llamado inject_script que permite que un script descargue y ejecute cualquier script (arbitrario) fuera del contenedor web.
El permiso inject_script permite que la etiqueta omita el sistema de permisos GTM para obtener acceso a todas las API y DOM del navegador.
Captura de pantalla que ilustra la inyección de guiones
Los investigadores analizaron 78 etiquetas del lado del cliente admitidas oficialmente y descubrieron 11 etiquetas que no tienen el permiso inject_script pero que pueden inyectar scripts arbitrarios. Siete de esas once etiquetas fueron proporcionadas por Google.
Escriben:
“11 de 78 etiquetas oficiales del lado del Cliente inyectan un script de terceros en el DOM sin pasar por el sistema de permisos GTM; y el “Modo de consentimiento” de GTM habilita algunos de los propósitos de consentimiento de forma predeterminada, incluso antes de que el usuario haya interactuado con el banner de consentimiento”.
La situación es aún peor porque no es sólo una vulnerabilidad de privacidad, sino también una vulnerabilidad de seguridad.
El artículo de investigación explica el significado de lo que descubrieron:
“Este hallazgo muestra que el sistema de permisos GTM implementado en el entorno limitado de Web Container permite a Tags insertar scripts arbitrarios y no controlados, abriendo así posibles vulnerabilidades de seguridad y privacidad en el sitio web. Hemos revelado este hallazgo a Google a través de su sistema en línea Bug Bounty”.
Plataformas de gestión de consentimiento (CMP)
Las plataformas de gestión de consentimiento (CMP) son una tecnología para gestionar el consentimiento que los usuarios han otorgado en términos de su privacidad. Esta es una forma de gestionar la personalización de anuncios, el almacenamiento de datos del usuario, el almacenamiento de datos analíticos, etc.
La documentación de Google para el uso de CMP establece que establecer los valores predeterminados del modo de consentimiento es responsabilidad de los especialistas en marketing y editores que utilizan GTM.
Los valores predeterminados se pueden configurar para denegar la personalización de anuncios de forma predeterminada, por ejemplo.
La documentación dice:
“Establecer valores predeterminados de consentimiento
Recomendamos establecer un valor predeterminado para cada tipo de consentimiento que esté utilizando.Los valores del estado de consentimiento en este artículo son solo ejemplos. Usted es responsable de asegurarse de que el modo de consentimiento predeterminado esté configurado para que cada uno de sus productos de medición coincida con la política de su organización”.
Lo que los investigadores descubrieron es que los CMP para GTM del lado del cliente se cargan en un estado indefinido en la página web y eso se vuelve problemático cuando un CMP no carga variables predeterminadas (conocidas como variables indefinidas).
El problema es que GTM considera que las variables indefinidas significan que los usuarios han dado su consentimiento a todas las variables indefinidas, aunque el usuario no haya dado su consentimiento de ninguna manera.
Los investigadores explicaron lo que está sucediendo:
“Sorprendentemente, en este caso, GTM considera que todas esas variables indefinidas son aceptadas por el usuario final, aunque el usuario final aún no haya interactuado con el banner de consentimiento de CMP.
Entre dos CMP probados (ver §3.1.1), detectamos este comportamiento para el CMP Consentmanager.
Este CMP establece un valor predeterminado para solo dos variables de consentimiento (analytics_storage y ad_storage), dejando tres variables de consentimiento de GTM (security_-storage, personalization_storage, funcionalidad_storage) y variables de consentimiento específicas de este CMP (por ejemplo, cmp_Purpose_c56, que corresponde al propósito de “Redes sociales”). en estado indefinido.
Por lo tanto, estas variables adicionales se consideran otorgadas por GTM. Como resultado, todas las etiquetas que dependen de estas cuatro variables de consentimiento se ejecutan incluso sin el consentimiento del usuario”.
Implicaciones legales
El artículo de investigación señala que las leyes de privacidad de los Estados Unidos, como el Reglamento General de Protección de Datos de la Unión Europea (GDPR) y la Directiva de Privacidad Electrónica (ePD), regulan el procesamiento de datos de los usuarios y el uso de tecnologías de seguimiento e imponen multas significativas por violaciones de esas leyes, como como requerir consentimiento para el almacenamiento de cookies y otras tecnologías de seguimiento.
Un análisis legal del GTM del lado del cliente detectó un total de siete posibles infracciones.
Siete posibles violaciones de las leyes de protección de datos
- Posible infracción 1. Los escáneres CMP a menudo no cumplen con sus objetivos
- Posible infracción 2. La asignación de los propósitos de CMP a las variables de consentimiento de GTM no cumple con los requisitos.
- Posible infracción 3. Los propósitos de GTM se limitan al almacenamiento del lado del cliente.
- Posible infracción 4. Los propósitos de GTM no son específicos ni explícitos.
- Posible infracción 5. Si las variables de consentimiento se configuran de forma predeterminada como “aceptadas”, las etiquetas se ejecutan sin consentimiento.
- Posible infracción 6. Google Tag envía datos independientemente de las decisiones de consentimiento del usuario.
- Posible infracción 7. GTM permite a los proveedores de etiquetas inyectar scripts que exponen a los usuarios finales a riesgos de seguridad.
Análisis legal de Server-Side GTM
Los investigadores escriben que los hallazgos plantean preocupaciones legales sobre GTM en su estado actual. Afirman que el sistema introduce más desafíos legales que resoluciones, lo que complica los esfuerzos de cumplimiento y plantea un desafío para que los reguladores realicen un seguimiento eficaz.
Estos son algunos de los factores que generaron preocupación sobre la capacidad de cumplir con las regulaciones:
- Cumplir con los derechos de los interesados es difícil para el editor
Tanto para GTM del lado del cliente como del lado del servidor, no existe una manera fácil para que un editor cumpla con una solicitud de acceso a los datos recopilados como lo exige el artículo 15 del RGPD. El editor tendría que rastrear manualmente a cada recopilador de datos para cumplir con esa solicitud legal. - El consentimiento incorporado genera problemas de confianza
Cuando se utilizan etiquetas con consentimiento integrado, los editores se ven obligados a confiar en que los proveedores de etiquetas realmente implementan el consentimiento integrado en el código. No existe una manera fácil para que un editor revise el código para verificar que el proveedor de etiquetas realmente esté ignorando el consentimiento y recopilando información del usuario. Revisar el código es imposible para las etiquetas oficiales que están protegidas dentro del script gtm.js. Los investigadores afirman que revisar el código para comprobar su cumplimiento “requiere ingeniería inversa intensa”. - GTM del lado del servidor es invisible para la supervisión y auditoría regulatorias
Los investigadores escriben que los bloques GTM del lado del servidor obstruyen la auditoría de cumplimiento porque la recopilación de datos se produce de forma remota en un servidor. - El consentimiento es difícil de configurar en los contenedores del servidor GTM
Faltan herramientas de gestión de consentimiento en los contenedores de servidores GTM, lo que impide que los CMP muestren los propósitos y los recopiladores de datos como lo exige la normativa.
La auditoría se describe como muy difícil:
“Además, la auditoría y el monitoreo se pueden lograr exclusivamente contactando al editor para otorgar acceso a la configuración del contenedor del servidor GTM.
Además, el editor puede cambiar la configuración del contenedor del servidor GTM en cualquier momento (por ejemplo, antes de cualquier investigación regulatoria), enmascarando cualquier verificación de cumplimiento”.
Conclusión: GTM tiene trampas y defectos
Los investigadores recibieron malas calificaciones de GTM por su seguridad y sus valores predeterminados de incumplimiento, afirmando que introduce más problemas legales que soluciones, al tiempo que complica el cumplimiento de las regulaciones y dificulta que los reguladores supervisen el cumplimiento.
Lea el trabajo de investigación:
Google Tag Manager: fugas de datos ocultos y sus posibles infracciones según la ley de protección de datos de la UE
Descargue el PDF del trabajo de investigación aquí.
Imagen destacada de Shutterstock/Praneat