Sólo pasaron veinticuatro horas después de que Gemini de Google fuera lanzado públicamente para que alguien notara que los chats se mostraban públicamente en los resultados de búsqueda de Google. Google respondió rápidamente a lo que parecía ser una filtración. La razón por la que sucedió esto es bastante sorprendente y no tan siniestra como parece a primera vista.
@shemiadhikarath tuiteó:
“Unas horas después del lanzamiento de @Google Gemini, motores de búsqueda como Bing han indexado conversaciones públicas de Gemini”.
Publicaron una captura de pantalla de la búsqueda del sitio gemini.google.com/share/
Pero si miras la captura de pantalla, verás que hay un mensaje que dice: “Nos gustaría mostrarle una descripción aquí, pero el sitio no nos lo permite”.
Temprano en la mañana del martes 13 de febrero, los chats de Google Gemini comenzaron a desaparecer de los resultados de búsqueda de Google; Google solo mostraba tres resultados de búsqueda. Por la tarde, el número de chats de Gemini filtrados que aparecen en los resultados de búsqueda se había reducido a un solo resultado de búsqueda.
¿Cómo se crearon las páginas de chat de Gemini?
Gemini ofrece una forma de crear un enlace a una versión visible públicamente de un chat privado.
Google no crea automáticamente páginas web a partir de chats privados. Los usuarios crean las páginas de chat a través de un enlace en la parte inferior de cada chat.
Captura de pantalla de cómo crear una página de chat compartida
¿Por qué se indexaron las páginas de chat de Gemini?
La razón obvia por la que se rastrearon e indexaron las páginas de chat es porque Google olvidó colocar un archivo robots.txt en la raíz del subdominio Gemini (gemini.google.com).
Un archivo robots.txt es un documento para controlar la actividad de los rastreadores en sitios web. Un editor puede bloquear rastreadores específicos mediante el uso de comandos estandarizados en el protocolo Robots.txt.
Revisé el archivo robots.txt a las 4:19 a.m. del 13 de febrero y vi que había uno en su lugar:
Luego revisé Internet Archive para ver cuánto tiempo llevaba el archivo robots.txt en su lugar y descubrí que estaba allí al menos desde el 8 de febrero, el día en que se anunciaron las aplicaciones Gemini.
Captura de pantalla del archivo de Internet
Eso significa que la razón obvia por la que se rastrearon las páginas de chat no es la razón correcta, es simplemente la razón más obvia.
Aunque el subdominio Google Gemini tenía un archivo robots.txt que bloqueaba a los rastreadores web tanto de Bing como de Google, ¿cómo terminaron rastreando esas páginas e indexándolas?
Páginas de chat privadas de dos formas descubiertas e indexadas
- Puede que haya un enlace público en alguna parte.
- Menos probable, pero quizás posible, es que hayan sido descubiertos a través del historial de navegación vinculado desde las cookies.
Es más probable que haya enlaces públicos.
Le pregunté a Bill Hartzer (@bhartzer) al respecto y descubrió un enlace público a una de las páginas indexadas:
Ahora sabemos que es muy probable que un enlace público haya provocado que estas páginas de Gemini Chat sean rastreadas e indexadas.
Bill Hartzer hizo esta observación:
“Aunque la URL de Gemini está bloqueada en el archivo robots.txt, hay un enlace a la URL de Gemini en un comentario del blog, por lo que la URL de Gemini se indexa.
Esto simplemente demuestra que Google seguirá indexando las URL cuyo rastreo está bloqueado en el archivo robots.txt.
Si Google realmente quisiera asegurarse de que la URL de Gemini no esté indexada, PERMITIRÍA el rastreo del archivo robots.txt y agregaría una metaetiqueta noindex en las páginas. ¿Quizás Google debería seguir sus propios consejos aquí?
¿Por qué las páginas de chat empezaron a desaparecer de los resultados de búsqueda?
Pero si hay un enlace público, ¿por qué Google empezó a eliminar las páginas de chat por completo? ¿Google creó una regla interna para que el rastreador de búsqueda excluya las páginas web de la carpeta /share/ del índice de búsqueda, incluso si están vinculadas públicamente?
Información sobre cómo indexar el contenido de búsqueda de Bing y Google
Ahora aquí está la parte realmente interesante para todos los fanáticos de las búsquedas interesados en cómo Google y Bing indexan el contenido.
El índice de búsqueda de Microsoft Bing respondió al contenido de Gemini de manera diferente a como lo hizo la búsqueda de Google. Mientras que Google todavía mostraba tres resultados de búsqueda en la madrugada del 13 de febrero, Bing solo mostraba un resultado del subdominio. Había una calidad aparentemente aleatoria en lo que se indexaba y en la cantidad.
¿Por qué se filtraron las páginas de chat de Gemini?
Aquí están los hechos conocidos:
- Google tenía un archivo robots.txt desde el 8 de febrero.
- Tanto Google como Bing indexaron páginas del subdominio gemini.google.com.
- Es posible que tanto Google como Bing hayan descubierto enlaces a los chats y posteriormente los hayan indexado.
- Los motores de búsqueda indexaron el contenido independientemente del archivo robots.txt y luego comenzaron a deshacerse de él.
Eso nos lleva de nuevo a la pregunta de por qué estas páginas comenzaron a desaparecer de los resultados de búsqueda tanto de Google como de Bing. Supongo que las páginas de chat de Google Gemini son páginas web de baja calidad que no vale la pena mostrar para lo que son esencialmente búsquedas de cola larga (site:gemini.google.com/share/). Realmente no hay ninguna razón útil para mostrar estas páginas en los resultados de búsqueda.
El contenido bloqueado por Robots.txt aún se puede descubrir, rastrear y terminar en el índice de búsqueda y, si las páginas son útiles, también se pueden clasificar, a menos que no lo sean. Creo que este puede ser el caso.