Google responde al sitio que perdió rangos después de Googlebot DDoS Crawl

John Mueller de Google respondió una pregunta sobre un sitio que recibió millones de solicitudes de Googlebot para páginas que no existen, con una URL inexistente que recibió más de dos millones de visitas, esencialmente solicitudes de página de nivel DDOS. Las preocupaciones del editor sobre el presupuesto de rastreo y las clasificaciones aparentemente se realizan, ya que el sitio posteriormente experimentó una caída en la visibilidad de búsqueda.

Páginas noindex eliminadas y convertidas a 410

El código de respuesta del servidor 410 Gone pertenece a los códigos de respuesta Family 400 que indican que una página no está disponible. La respuesta 404 significa que una página no está disponible y no hace reclamos sobre si la URL volverá en el futuro, simplemente dice que la página no está disponible.

El código de estado 410 Gone significa que la página se ha ido y probablemente nunca volverá. A diferencia del código de estado 404, el 410 señala el navegador o el rastreador que el estado faltante del recurso es intencional y que cualquier enlace al recurso debe eliminarse.

La persona que hacía la pregunta estaba haciendo un seguimiento de una pregunta que publicaron hace tres semanas en Reddit, donde notaron que tenían alrededor de 11 millones de URL que no deberían haber sido descubiertas que se eliminaron por completo y comenzaron a servir un código de respuesta 410. Después de un mes y medio, Googlebot continuó regresando buscando las páginas faltantes. Compartieron su preocupación por el presupuesto de rastreo y los impactos posteriores en sus clasificaciones como resultado.

Mueller en ese momento los envió a una página de soporte de Google.

Pérdida de clasificaciones a medida que Google continúa alcanzando el sitio en los niveles DDoS

Tres semanas después, las cosas no han mejorado y publicaron una pregunta de seguimiento que señala que han recibido más de cinco millones de solicitudes de páginas que no existen. Publicaron una URL real en su pregunta, pero la anonimé, de lo contrario está literalmente.

La persona preguntó:

“Googlebot continúa rastreando agresivamente una sola URL (con cadenas de consulta), a pesar de que ha estado devolviendo un estado de 410 (desaparecido) durante aproximadamente dos meses.
En los últimos 30 días, hemos visto aproximadamente 5,4 millones de solicitudes de Googlebot. De ellos, alrededor de 2.4 millones fueron dirigidos a esta URL:
https://example.net/software/virtual-dj/ con la cadena?
También hemos visto una caída significativa en nuestra visibilidad en Google durante este período, y no puedo evitar preguntarme si hay una conexión, algo se siente apagado. La página afectada es:
https://example.net/software/virtual-dj/?feature=…
La razón por la que Google descubrió todas estas URL en primer lugar es que las expusimos involuntariamente en una carga útil JSON generada por Next.js, no eran enlaces reales en el sitio.
Hemos cambiado cómo funciona nuestras “múltiples características” (usando? MF Querystring y esa consulta está en robots.txt)
¿Sería problemático agregar algo como esto a nuestros robots.txt?
Desescar:/software/virtual-dj/? Característica =*
Objetivo principal: evitar que este rastreo excesivo inunde nuestros registros y potencialmente desencadenando efectos secundarios no deseados “.

John Mueller de Google confirmó que es el comportamiento normal de Google seguir regresando para verificar si una página que falta ha regresado. Este es el comportamiento predeterminado de Google en función de la experiencia que los editores pueden cometer errores, por lo que periódicamente volverán para verificar si la página ha sido restaurada. Esta es una característica útil para los editores que podrían eliminar involuntariamente una página web.

Mueller respondió:

“Google intenta reverenciar páginas que alguna vez existieron durante mucho tiempo, y si tiene muchos de ellas, probablemente verá más de ellas. Esto no es un problema: está bien que las páginas se hayan ido, incluso si son toneladas de ellas. Dicho, no permitir el rastreo de robots.txt también está bien, si las solicitudes lo molestan”.

PRECAUCIÓN: SEO técnico por delante

La siguiente parte es donde el SEO se vuelve técnico. Mueller advierte que la solución propuesta de agregar un robots.

Básicamente está aconsejando a la persona que le hace a la pregunta:

Compruebe dos veces que las URLs?
Use Chrome DevTools para simular qué sucede si esas URL están bloqueadas, para detectar la rotura temprano.
Monitoree la consola de búsqueda para 404 blandos para detectar cualquier impacto no deseado en las páginas que deben indexarse.

John Mueller continuó:

“Lo principal que atendería es que todos estos están devolviendo 404/410, y no que algunos de ellos sean utilizados por algo como JavaScript en páginas que desea haber indexado (ya que mencionó la carga útil JSON).
Es realmente difícil reconocer cuando no permite el rastreo de un recurso integrado (ya sea incrustado directamente en la página o cargado a pedido), a veces la página que hace referencia a la que deja de representar y no puede indexarse en absoluto.
Si tiene páginas renderizadas con el cliente JavaScript, intentaría averiguar dónde solían hacer referencia a las URL (si puede) y bloquear las URL en las herramientas Chrome Dev para ver qué sucede cuando carga la página.
Si no puede entender dónde estaban, no permitiría una parte de ellos y monitorearía los errores Soft-404 en la consola de búsqueda para ver si algo sucede visiblemente allí.
Si no está utilizando JavaScript Rendering Rendering, probablemente pueda ignorar este párrafo 🙂 “.

La diferencia entre la razón obvia y la causa real

John Mueller de Google tiene razón al sugerir un diagnóstico más profundo para descartar errores por parte del editor. Un error de editor comenzó la cadena de eventos que condujo a la indexación de páginas contra los deseos del editor. Por lo tanto, es razonable pedirle al editor que verifique si puede haber una razón más plausible para dar cuenta de una pérdida de visibilidad de búsqueda. Esta es una situación clásica en la que una razón obvia no es necesariamente la razón correcta. Hay una diferencia entre ser una razón obvia y ser la causa real. Entonces, la sugerencia de Mueller de no renunciar a encontrar la causa es un buen consejo.

Lea la discusión original aquí.

Imagen destacada de Shutterstock/Plutusart

Author

LATEST NEWS

Google confirma que los nombres de clase CSS no influyen en SEO

Las descripciones de IA impulsan un 10% más de consultas, por ganancias de Q2

CONTACTS

Google responde al sitio que perdió rangos después de Googlebot DDoS Crawl

Páginas noindex eliminadas y convertidas a 410

Pérdida de clasificaciones a medida que Google continúa alcanzando el sitio en los niveles DDoS

PRECAUCIÓN: SEO técnico por delante

La diferencia entre la razón obvia y la causa real

hola@juanrecio.com

Google confirma que los nombres de clase CSS no influyen en SEO

Las descripciones de IA impulsan un 10% más de consultas, por ganancias de Q2

Links de interés

LATEST NEWS

Google confirma que los nombres de clase CSS no influyen en SEO

Las descripciones de IA impulsan un 10% más de consultas, por ganancias de Q2

CONTACTS

Google responde al sitio que perdió rangos después de Googlebot DDoS Crawl

Páginas noindex eliminadas y convertidas a 410

Pérdida de clasificaciones a medida que Google continúa alcanzando el sitio en los niveles DDoS

PRECAUCIÓN: SEO técnico por delante

La diferencia entre la razón obvia y la causa real

hola@juanrecio.com

Related Posts

Google confirma que los nombres de clase CSS no influyen en SEO

Las descripciones de IA impulsan un 10% más de consultas, por ganancias de Q2

Links de interés