En la última entrega de la sesión mensual de preguntas y respuestas en horario de oficina de Google, se hizo una pregunta sobre el mayor volumen de datos filtrados en comparación con los datos generales en Google Search Console.
La pregunta provocó una respuesta detallada de Gary Illyes, miembro del equipo de Relaciones de Búsqueda de Google, quien arrojó luz sobre el uso de filtros de floración por parte de Google.
Datos desproporcionados en Search Console
La pregunta era: “¿Por qué los datos filtrados son más altos que los datos generales en Search Console? No tiene ningún sentido”.
A primera vista, esto podría parecer una especie de contradicción.
La expectativa es que los datos generales sean más completos y, por lo tanto, más extensos que cualquier subconjunto filtrado.
Sin embargo, esto no es lo que experimentan los usuarios. ¿Que está pasando aqui?
Consola de búsqueda y filtros Bloom
Illyes comienza su respuesta:
“La respuesta corta es que hacemos un uso intensivo de algo llamado filtros Bloom porque necesitamos manejar una gran cantidad de datos, y los filtros Bloom pueden ahorrarnos mucho tiempo y almacenamiento.
Cuando manejas una gran cantidad de elementos en un conjunto, y me refiero a miles de millones de elementos, si no billones, buscar cosas rápidamente se vuelve muy difícil. Aquí es donde los filtros Bloom resultan útiles”.
Los filtros Bloom aceleran las búsquedas en big data consultando primero una colección separada de datos codificados o hash.
Esto permite un análisis más rápido pero menos preciso, explica Illyes:
“Dado que primero buscas hashes, es bastante rápido, pero a veces el hashing conlleva una pérdida de datos, ya sea intencionada o no, y estos datos faltantes son lo que estás experimentando: menos datos para analizar significa predicciones más precisas sobre si algo existe en el conjunto principal o no, y estos datos faltantes son lo que estás experimentando: menos datos para revisar significa predicciones más precisas sobre si algo existe en el conjunto principal o no.
Básicamente, los filtros Bloom aceleran las búsquedas al predecir si algo existe en un conjunto de datos, pero a expensas de la precisión, y cuanto más pequeño sea el conjunto de datos, más precisas serán las predicciones”.
Velocidad sobre precisión: una compensación deliberada
La explicación de Illyes revela una compensación deliberada: velocidad y eficiencia por encima de una precisión perfecta.
Este enfoque puede resultar sorprendente, pero es una estrategia necesaria cuando se trata de la gran escala de datos que Google maneja a diario.
En resumen
Los datos filtrados pueden ser mayores que los datos generales en Search Console porque Google utiliza filtros de floración para analizar rápidamente grandes cantidades de datos.
Los filtros Bloom permiten a Google trabajar con billones de puntos de datos, pero sacrifican cierta precisión.
Esta compensación es intencional. A Google le importa más la velocidad que el 100% de precisión. Las pequeñas imprecisiones valen la pena para que Google analice los datos rápidamente.
Por lo tanto, no es un error ver que los datos filtrados son mayores que los datos generales. Así es como funcionan los filtros de floración.
Imagen de portada: Tetiana Yurchenko/Shutterstock