Alguien en Reddit publicó una pregunta sobre su problema de “presupuesto de rastreo” y preguntó si una gran cantidad de redireccionamientos 301 a respuestas de error 410 estaban causando que el robot de Google agotara su presupuesto de rastreo. John Mueller de Google ofreció una razón para explicar por qué Redditor puede estar experimentando un patrón de rastreo mediocre y aclaró un punto sobre los presupuestos de rastreo en general.
Presupuesto de rastreo
Es una idea comúnmente aceptada que Google tiene un presupuesto de rastreo, una idea que los SEO inventaron para explicar por qué algunos sitios no se rastrean lo suficiente. La idea es que a cada sitio se le asigne un número determinado de rastreos, un límite a la cantidad de rastreo para la que califica un sitio.
Es importante comprender los antecedentes de la idea del presupuesto de rastreo porque ayuda a comprender qué es realmente. Google ha insistido durante mucho tiempo en que no hay nada en Google que pueda llamarse presupuesto de rastreo, aunque la forma en que Google rastrea un sitio puede dar la impresión de que existe un límite de rastreo.
Un importante ingeniero de Google (en ese momento) llamado Matt Cutts aludió a este hecho sobre el presupuesto de rastreo en una entrevista de 2010.
Matt respondió una pregunta sobre el presupuesto de rastreo de Google explicando primero que no existía un presupuesto de rastreo en la forma en que lo conciben los SEO:
“Lo primero es que en realidad no existe un límite de indexación. Mucha gente pensaba que un dominio sólo tendría un cierto número de páginas indexadas, y en realidad no es así como funciona.
Tampoco existe un límite estricto para nuestro rastreo”.
En 2017, Google publicó una explicación del presupuesto de rastreo que reunía numerosos datos relacionados con el rastreo que, en conjunto, se asemejan a lo que la comunidad SEO llamaba presupuesto de rastreo. Esta nueva explicación es más precisa que la vaga frase general “presupuesto de rastreo” (documento de presupuesto de rastreo de Google resumido aquí por Search Engine Journal).
La breve lista de los puntos principales sobre un presupuesto de rastreo es:
- Una tasa de rastreo es la cantidad de URL que Google puede rastrear según la capacidad del servidor para proporcionar las URL solicitadas.
- Un servidor compartido, por ejemplo, puede alojar decenas de miles de sitios web, lo que da como resultado cientos de miles, si no millones, de URL. Por lo tanto, Google tiene que rastrear los servidores en función de su capacidad para cumplir con las solicitudes de páginas.
- Las páginas que son esencialmente duplicados de otras (como la navegación por facetas) y otras páginas de bajo valor pueden desperdiciar recursos del servidor, lo que limita la cantidad de páginas que un servidor puede proporcionarle al robot de Google para que las rastree.
- Las páginas que son livianas son más fáciles de rastrear.
- Las páginas 404 blandas pueden hacer que Google se centre en aquellas páginas de bajo valor en lugar de en las páginas que importan.
- Los patrones de enlaces entrantes e internos pueden ayudar a influir en las páginas que se rastrean.
Pregunta de Reddit sobre la tasa de rastreo
La persona en Reddit quería saber si las páginas percibidas de bajo valor que estaban creando estaban influyendo en el presupuesto de rastreo de Google. En resumen, una solicitud de una URL no segura de una página que ya no existe redirige a la versión segura de la página web faltante que genera una respuesta de error 410 (significa que la página desapareció permanentemente).
Es una pregunta legítima.
Esto es lo que preguntaron:
“Estoy intentando que el robot de Google se olvide de rastrear algunas URL muy antiguas que no son HTTPS y que todavía se siguen rastreando después de 6 años. Y coloqué una respuesta 410, en el lado HTTPS, en URL tan antiguas.
Entonces, el robot de Google encuentra una redirección 301 (de HTTP a HTTPS) y luego una 410.
http://example.com/old-url.php?id=xxxx -301-> https://example.com/old-url.php?id=xxxx (respuesta 410)
Dos preguntas. ¿G **** está contento con este 301+410?
Tengo problemas de “presupuesto de rastreo” y no sé si estas dos respuestas están agotando al robot de Google.
¿Es efectivo el 410? Quiero decir, ¿debería devolver el 410 directamente, sin un primer 301?
John Mueller de Google respondió:
GRAMO*?
Los 301 están bien, una mezcla 301/410 está bien.
El presupuesto de rastreo es en realidad solo un problema para sitios masivos (https://developers.google.com/search/docs/crawling-indexing/large-site-managing-crawl-budget). Si ve problemas allí y su sitio no es realmente masivo, entonces probablemente Google simplemente no ve mucho valor en rastrear más. Eso no es un problema técnico”.
Razones para no ser rastreado lo suficiente
Mueller respondió que “probablemente” Google no ve el valor de rastrear más páginas web. Eso significa que las páginas web probablemente podrían necesitar una revisión para identificar por qué Google podría determinar que no vale la pena rastrear esas páginas.
Ciertas tácticas populares de SEO tienden a crear páginas web de bajo valor que carecen de originalidad. Por ejemplo, una práctica popular de SEO es revisar las páginas web mejor clasificadas para comprender qué factores en esas páginas explican por qué se clasifican y luego tomar esa información para mejorar sus propias páginas replicando lo que funciona en los resultados de búsqueda.
Eso suena lógico pero no crea algo de valor. Si lo piensas como una elección binaria Uno y Cero, donde cero es lo que ya está en los resultados de búsqueda y Uno representa algo original y diferente, la popular táctica SEO de emular lo que ya está en los resultados de búsqueda está condenada a crear otro Cero, un sitio web que no ofrece nada más que lo que ya está en las SERP.
Claramente existen problemas técnicos que pueden afectar la velocidad de rastreo, como el estado del servidor y otros factores.
Pero en términos de lo que se entiende como presupuesto de rastreo, eso es algo que Google ha mantenido durante mucho tiempo como una consideración para sitios masivos y no para sitios web de tamaño pequeño a mediano.
Lea la discusión de Reddit:
¿G**** está contento con 301+410 respuestas para la misma URL?
Imagen destacada de Shutterstock/ViDI Studio