Noticias

Aclaración sobre la fuga de datos de Google


Durante las vacaciones en Estados Unidos se compartieron algunas publicaciones sobre una supuesta filtración de datos relacionados con el ranking de Google. Las primeras publicaciones sobre las filtraciones se centraron en “confirmar” creencias que Rand Fishkin mantuvo durante mucho tiempo, pero no se prestó mucha atención al contexto de la información y lo que realmente significa.

El contexto importa: almacén de IA de documentos

El documento filtrado comparte relación con una plataforma pública de Google Cloud llamada Document AI Warehouse que se utiliza para analizar, organizar, buscar y almacenar datos. Esta documentación pública se titula Descripción general del Document AI Warehouse. Una publicación en Facebook comparte que los datos “filtrados” son la “versión interna” de la documentación públicamente visible de Document AI Warehouse. Ese es el contexto de estos datos.

Captura de pantalla: Almacén de documentos AI

Captura de pantalla

@DavidGQuaid tuiteó:

“Creo que está claro que es una API externa para crear un almacén de documentos, como sugiere el nombre”

Esto parece arrojar agua fría sobre la idea de que los datos “filtrados” representan información interna de la Búsqueda de Google.

Hasta donde sabemos en este momento, los “datos filtrados” comparten una similitud con lo que hay en la página pública Document AI Warehouse.

¿Fuga de datos de búsqueda interna?

La publicación original en SparkToro no dice que los datos provengan de la Búsqueda de Google. Dice que la persona que envió los datos a Rand Fishkin es quien hizo esa afirmación.

Una de las cosas que admiro de Rand Fishkin es que es meticulosamente preciso en sus escritos, especialmente cuando se trata de advertencias. Rand señala precisamente que es la persona que proporcionó los datos quien afirma que los datos provienen de la Búsqueda de Google. No hay pruebas, sólo un reclamo.

El escribe:

“Recibí un correo electrónico de una persona que afirmaba tener acceso a una filtración masiva de documentación API desde dentro de la división de Búsqueda de Google”.

El propio Fishkin no afirma que los ex empleados de Google hayan confirmado que los datos procedan de la Búsqueda de Google. Escribe que la persona que envió los datos por correo electrónico hizo esa afirmación.

“El correo electrónico afirmaba además que estos documentos filtrados fueron confirmados como auténticos por ex empleados de Google, y que esos ex empleados y otros habían compartido información privada adicional sobre las operaciones de búsqueda de Google”.

Fishkin escribe sobre una reunión por video posterior en la que el filtrador reveló que su contacto con ex empleados de Google fue en el contexto de un encuentro con ellos en un evento de la industria de búsqueda. Nuevamente, tendremos que aceptar la palabra de los filtradores sobre los ex-Googlers y que lo que dijeron fue después de revisar cuidadosamente los datos y no un comentario informal.

Fishkin escribe que se puso en contacto con tres ex empleados de Google al respecto. Lo que es notable es que esos ex empleados de Google no confirmaron explícitamente que los datos sean internos de la Búsqueda de Google. Solo confirmaron que los datos parecen parecerse a información interna de Google, no que se originaron en la Búsqueda de Google.

Fishkin escribe lo que le dijeron los ex empleados de Google:

  • “No tenía acceso a este código cuando trabajaba allí. Pero esto ciertamente parece legítimo”.
  • “Tiene todas las características de una API interna de Google”.
  • “Es una API basada en Java. Y alguien dedicó mucho tiempo a adherirse a los estándares internos de Google para la documentación y los nombres”.
  • “Necesitaría más tiempo para estar seguro, pero esto coincide con la documentación interna con la que estoy familiarizado”.
  • “Nada de lo que vi en una breve reseña sugiere que esto no sea legítimo”.

Decir que algo se origina en la Búsqueda de Google y decir que se origina en Google son dos cosas diferentes.

Manten una mente abierta

Es importante mantener la mente abierta sobre los datos porque hay muchas cosas que no están confirmadas. Por ejemplo, no se sabe si se trata de un documento interno del equipo de búsqueda. Por eso, probablemente no sea una buena idea tomar estos datos como consejos prácticos de SEO.

Además, no es aconsejable analizar los datos para confirmar específicamente creencias arraigadas. Así es como uno queda atrapado en el sesgo de confirmación.

Una definición de sesgo de confirmación:

“El sesgo de confirmación es la tendencia a buscar, interpretar, favorecer y recordar información de una manera que confirme o respalde las creencias o valores anteriores”.

El sesgo de confirmación llevará a una persona a negar cosas que son empíricamente ciertas. Por ejemplo, existe la idea de hace décadas de que Google automáticamente impide que un nuevo sitio se clasifique, una teoría llamada Sandbox. Todos los días, la gente informa que sus nuevos sitios y nuevas páginas se ubican casi de inmediato entre los diez primeros de la búsqueda de Google.

Pero si eres un creyente acérrimo en Sandbox, entonces una experiencia real observable como esa será descartada, sin importar cuántas personas observen la experiencia opuesta.

Brenda Malone, estratega técnica senior de SEO independiente y desarrolladora web (perfil de LinkedIn), me envió un mensaje sobre afirmaciones sobre Sandbox:

“Personalmente sé, por experiencia real, que la teoría del Sandbox es errónea. Acabo de indexar en dos días un blog personal con dos publicaciones. No hay forma de que un pequeño sitio de dos publicaciones debería haber sido indexado de acuerdo con la teoría de Sandbox”.

La conclusión aquí es que si resulta que la documentación proviene de la Búsqueda de Google, la forma incorrecta de analizar los datos es buscar la confirmación de creencias arraigadas.

¿A qué se debe la filtración de datos de Google?

Hay cinco cosas a considerar sobre los datos filtrados:

  1. Se desconoce el contexto de la información filtrada. ¿Está relacionado con la Búsqueda de Google? ¿Es para otros fines?
  2. La finalidad de los datos. ¿Se utilizó la información para resultados de búsqueda reales? ¿O se utilizó para la gestión o manipulación de datos internamente?
  3. Los ex empleados de Google no confirmaron que los datos sean específicos de la Búsqueda de Google. Sólo confirmaron que parece provenir de Google.
  4. Manten una mente abierta. Si buscas la reivindicación de creencias arraigadas, ¿adivina qué? Los encontrarás en todas partes. Esto se llama sesgo de confirmación.
  5. La evidencia sugiere que los datos están relacionados con una API externa para construir un almacén de documentos.

Lo que otros dicen sobre los documentos “filtrados”

Ryan Jones, alguien que no sólo tiene una profunda experiencia en SEO sino que también tiene un conocimiento formidable de la informática, compartió algunas observaciones razonables sobre la llamada fuga de datos.

Ryan tuiteó:

“No sabemos si esto es para producción o para pruebas. Supongo que es principalmente para probar cambios potenciales.

No sabemos qué se usa para la web o para otras verticales. Es posible que algunas cosas solo se utilicen para Google Home o noticias, etc.

No sabemos qué es una entrada para un algoritmo de ML y contra qué se usa para entrenar. Supongo que los clics no son una entrada directa, sino que se utilizan para entrenar un modelo sobre cómo predecir la capacidad de hacer clic. (Fuera de los aumentos de tendencias)

También supongo que algunos de estos campos solo se aplican a conjuntos de datos de entrenamiento y no a todos los sitios.

¿Estoy diciendo que Google no mintió? De nada. Pero examinemos esta filtración de manera objetable y sin prejuicios”.

@DavidGQuaid tuiteó:

“Tampoco sabemos si esto es para la búsqueda de Google o la recuperación de documentos en la nube de Google.

Las API parecen elegir y elegir; no es así como espero que se ejecute el algoritmo; ¿qué pasa si un ingeniero quiere omitir todos esos controles de calidad? Parece que quiero crear una aplicación de almacén de contenido para mi base de conocimiento empresarial”.

¿Los datos “filtrados” están relacionados con la Búsqueda de Google?

En este momento no hay pruebas contundentes de que estos datos “filtrados” procedan en realidad de la Búsqueda de Google. Existe una abrumadora ambigüedad sobre cuál es el propósito de los datos. Cabe destacar que hay indicios de que estos datos son simplemente “una API externa para crear un almacén de documentos, como sugiere el nombre” y no están relacionados de ninguna manera con la clasificación de los sitios web en la Búsqueda de Google.

La conclusión de que estos datos no se originaron en la Búsqueda de Google no es definitiva en este momento, pero es la dirección en la que parece estar soplando el viento de la evidencia.

Imagen destacada de Shutterstock/Jaaak

hola@juanrecio.com

Author

hola@juanrecio.com

¡Utiliza la tecnología y la inteligencia artificial en tus proyectos! ¿Quieres saber cómo?