Se le preguntó a Martin Splitt de Google cómo se estaba adaptando el rastreo y el renderizado del robot de Google al aumento del contenido generado por IA.
La respuesta de Martin proporcionó información sobre cómo Google maneja el contenido generado por IA y el papel del control de calidad.
Representación de páginas web del robot de Google
La representación de una página web es el proceso de crear una página web en un navegador descargando HTML, imágenes, CSS y JavaScript y luego uniéndolo todo en una página web.
El rastreador de Google, Googlebot, también descarga archivos HTML, imágenes, CSS y JavaScript para representar la página web.
Cómo maneja Google el contenido generado por IA
El contexto de los comentarios de Martin se produjo en un seminario web llamado Explorando el arte de la renderización con Martin Splitt de Google, que fue producido por Duda.
Uno de los miembros de la audiencia preguntó si la gran cantidad de contenido de IA tenía un efecto en la capacidad de Google para representar páginas en el punto de rastreo.
Martin ofreció una explicación, pero también agregó información sobre cómo Google decide en el momento del rastreo si una página web es de baja calidad y qué hace Google después de una determinación.
Ammon Johns hizo la pregunta, que fue leída por Ulrika Viberg.
Aquí está la pregunta:
“Entonces, también tenemos uno de Ammon, y esto es algo de lo que se habla mucho.
Lo veo mucho.
Dijeron que la producción de contenido aumenta debido a la IA, lo que supone una carga cada vez mayor para el rastreo y el renderizado.
¿Es probable que sea necesario simplificar los procesos de renderizado?
Lo que Ammon aparentemente quiere saber es si se están produciendo procesos especiales en respuesta al contenido de IA para hacer frente al aumento de la carga de rastreo y renderizado.
Martín Splitt respondió:
“No, no lo creo, porque mi mejor suposición es…”
A continuación, Martin aborda el problema obvio con el contenido de IA que preocupa a los SEO: su detección.
Martín continuó:
“Así que estamos haciendo detección o control de calidad en múltiples etapas, y la mayoría del contenido sexual no necesariamente necesita JavaScript para mostrarnos qué tan sexual es.
Entonces, si antes detectamos que es contenido de mierda, entonces nos saltamos el renderizado, ¿cuál es el punto?
Si vemos, está bien, esto parece absoluto… podemos estar muy seguros de que esto es una mierda, y JavaScript podría agregar más basura, entonces adiós.
Si es una página vacía, entonces podríamos decir: no lo sabemos.
La gente normalmente no pone páginas vacías aquí, así que al menos intentemos renderizarlas.
Y luego, cuando el renderizado vuelve con una porquería, pensamos, sí, está bien, es justo, esto ha sido una porquería.
Entonces esto ya está sucediendo. Esto no es algo nuevo.
La IA podría aumentar la escala, pero no cambia mucho. El renderizado no es el culpable aquí”.
La detección de calidad se aplica a la IA
Martin Splitt no dijo que Google estuviera aplicando detección de IA en el contenido.
Dijo que Google estaba utilizando la Detección de Calidad en múltiples etapas.
Esto es muy interesante porque Search Engine Journal publicó un artículo sobre un algoritmo de detección de calidad que también detecta contenido de IA de baja calidad.
El algoritmo no fue creado para encontrar contenido generado por máquinas de baja calidad. Pero descubrieron que el algoritmo lo descubrió automáticamente.
Gran parte de este algoritmo coincide con todo lo que Google anunció sobre su sistema de contenido útil, que está diseñado para identificar contenido escrito por personas.
Danny Sullivan escribió sobre el algoritmo de contenido útil:
“…estamos implementando una serie de mejoras en la Búsqueda para que a las personas les resulte más fácil encontrar contenido útil creado por y para personas”.
Sin embargo, no se limitó a mencionar el contenido escrito por personas una sola vez. Su artículo que anuncia el sistema de contenido útil lo mencionó tres veces.
El algoritmo fue diseñado para detectar contenido generado por máquinas que también detecta contenido de baja calidad en general.
El artículo de investigación se titula Los modelos generativos son predictores no supervisados de la calidad de la página: un estudio a escala colosal.
En él los investigadores observan:
“Este artículo postula que los detectores entrenados para discriminar texto escrito por humanos y por máquinas son predictores efectivos de la calidad del lenguaje de las páginas web, superando a un clasificador de spam supervisado de referencia”.
Volviendo a lo que dijo Martin Splitt:
“…estamos realizando detección o control de calidad en múltiples etapas…
Entonces esto ya está sucediendo. Esto no es algo nuevo.
La IA podría aumentar la escala, pero no cambia mucho”.
Lo que Martin parece estar diciendo es que:
- No se está aplicando nada nuevo al contenido de IA
- Google utiliza detección de calidad para contenido humano y de inteligencia artificial
Mire el seminario web de Duda con Martin Splitt en el minuto 35:50: