Noticias

Búsqueda de Google abrumada por un ataque masivo de spam


Los resultados de búsqueda de Google se han visto afectados durante los últimos días por un ataque de spam que sólo puede describirse como completamente fuera de control. Muchos dominios se clasifican para cientos de miles de palabras clave cada uno, una indicación de que la escala de este ataque podría alcanzar fácilmente millones de frases de palabras clave.

Sorprendentemente, muchos de los dominios sólo se han registrado en las últimas 24 a 48 horas.

Esto me llamó la atención recientemente a partir de una serie de publicaciones de Bill Hartzer (perfil de LinkedIn) donde publicó un gráfico de enlaces generado por la herramienta de vínculos de retroceso Majestic que expuso las redes de enlaces de varios de los sitios de spam.

El gráfico de enlaces que publicó mostró decenas de sitios web estrechamente interconectados entre sí, lo cual es un patrón bastante típico de las redes de enlaces spam.

Captura de pantalla de una red estrechamente interconectada

Búsqueda de Google abrumada por un ataque masivo de spamImagen de Bill Hartzer vía MajesticBúsqueda de Google abrumada por un ataque masivo de spam

Bill y yo hablamos sobre los sitios de spam a través de Facebook Messenger y ambos estuvimos de acuerdo en que, aunque los spammers trabajaron mucho en la creación de una red de vínculos de retroceso, los vínculos en realidad no eran responsables de las altas clasificaciones.

Bill dijo:

“Esto, en mi opinión, es en parte culpa de Google, que parece estar poniendo más énfasis en el contenido que en los enlaces”.

Estoy 100% de acuerdo en que Google está poniendo más énfasis en el contenido que en los enlaces. Pero mi opinión es que los enlaces de spam están ahí para que el robot de Google pueda descubrir las páginas de spam e indexarlas, aunque sea solo por uno o dos días.

Una vez indexadas, es probable que las páginas de spam exploten lo que considero dos lagunas en los algoritmos de Google, de las que hablaré a continuación.

Spam fuera de control en las SERP de Google

Varios sitios clasifican frases de cola larga que son algo fáciles de clasificar, así como frases con un componente de búsqueda local, que también son fáciles de clasificar.

Las frases de cola larga son frases de palabras clave que las personas utilizan, pero muy raramente. Longtail es un concepto que existe desde hace casi veinte años y posteriormente se popularizó con un libro de 2006 llamado The Long Tail: Why the Future of Business is Selling Less of More.

Los spammers pueden clasificar estas frases raramente buscadas porque hay poca competencia para esas frases, lo que facilita la clasificación.

Entonces, si un spammer crea millones de páginas de frases largas, esas páginas pueden clasificarse para cientos de miles de palabras clave todos los días en un corto período de tiempo.

Empresas como Amazon utilizan el principio de cola larga para vender cientos de miles de productos individuales una vez al día, lo que es diferente a vender un producto cien mil veces al día.

Eso es lo que están explotando los spammers: la facilidad para clasificar frases largas.

La segunda cosa que los spammers están explotando es la laguna inherente a la búsqueda local.

El algoritmo de búsqueda local no es el mismo que el algoritmo para clasificar palabras clave no locales.

Los ejemplos que han salido a la luz son variaciones de Craigslist y palabras clave relacionadas.

Ejemplos son frases como Piezas de automóvil de Craigslist, Habitaciones en Craigslist para alquilar, Craigslist en venta por propietario y miles de otras palabras clave, la mayoría de las cuales no utilizan la palabra Craigslist.

La escala del spam es enorme y va mucho más allá de las palabras clave con la palabra “Craigslist”.

Cómo se ve la página de spam

Es imposible ver cómo se ve la página de spam visitando las páginas con un navegador.

Intenté ver el código fuente de los sitios clasificados en Google, pero todos los sitios de spam redirigen automáticamente a otro dominio.

Luego ingresé la URL de spam en el verificador de enlaces del W3C para visitar el sitio web, pero el robot del W3C tampoco pudo ver el sitio.

Entonces cambié el agente de usuario de mi navegador para identificarme como Googlebot, pero el sitio de spam aún me redirigió.

Eso indicó que el sitio no estaba comprobando si el agente de usuario era el robot de Google.

El sitio de spam estaba buscando direcciones IP del robot de Google. Si la dirección IP del visitante coincidía con la de Google, entonces la página de spam mostraba contenido al robot de Google.

Todos los demás visitantes fueron redirigidos a otros dominios que mostraban contenido incompleto.

Para ver el HTML del sitio web tuve que visitarlo con una dirección IP de Google. Así que utilicé el probador de resultados enriquecidos de Google para visitar el sitio de spam y registrar el HTML de la página.

Le mostré a Bill Hartzer cómo extraer el HTML usando el probador de resultados enriquecidos e inmediatamente comenzó a twittear al respecto, jajaja. ¡Maldita sea!

Rich Results Tester tiene una opción para mostrar el HTML de una página web. Así que copié el HTML, lo pegué en un archivo de texto y luego lo guardé como un archivo HTML.

Captura de pantalla de HTML proporcionada por la herramienta de resultados enriquecidos

Búsqueda de Google abrumada por un ataque masivo de spamBúsqueda de Google abrumada por un ataque masivo de spam

Luego edité el archivo HTML para eliminar cualquier JavaScript y luego guardé el archivo nuevamente.

Ahora pude ver cómo se ve la página web en Google:

Captura de pantalla de la página web de spam

Captura de pantalla de una página web de spam posicionada en GoogleCaptura de pantalla de una página web de spam posicionada en Google

Un dominio se clasifica para más de 300.000 palabras clave

Bill me envió una hoja de cálculo que contenía una lista de frases de palabras clave que solo uno de los sitios de spam clasificó. Un sitio de spam, solo uno de ellos, obtuvo más de 300.000 frases de palabras clave.

Captura de pantalla que muestra palabras clave para un dominio

Imagen que muestra un primer plano de una hoja de cálculo con frases de palabras claveImagen que muestra un primer plano de una hoja de cálculo con frases de palabras clave

Había muchas frases de palabras clave de Craigslist, pero también había otras frases de cola larga, muchas de las cuales contenían un elemento de búsqueda local. Como mencioné, es fácil clasificar frases de cola larga, fácil clasificar frases de búsqueda local y combinar los dos tipos de frases, y es realmente fácil clasificar estas frases de palabras clave.

¿Por qué funciona esta técnica de spam?

La búsqueda local utiliza un algoritmo diferente al algoritmo no local. Por ejemplo, un sitio local, en general, no necesita muchos enlaces para clasificar una consulta. Las páginas sólo necesitan los tipos correctos de palabras clave para activar un algoritmo de búsqueda local y clasificarlo para un área geográfica.

Entonces, si busca “piezas de automóvil de Craigslist”, eso activará el algoritmo de búsqueda local y, debido a que es de cola larga, no tomará demasiado para clasificarlo.

Este es un problema persistente desde hace muchos años. Hace varios años, un sitio web pudo clasificarse como “Rinoplastia Plano, Texas” con un sitio que contenía contenido en latín antiguo y títulos en inglés. La rinoplastia es una búsqueda local de larga duración y Plano, Texas, es una ciudad relativamente pequeña. Clasificar para esa frase clave sobre rinoplastia fue tan fácil que el sitio web en idioma latino pudo clasificarla fácilmente.

Google conoce este problema de spam desde al menos el 19 de diciembre, tal y como reconoce en un tuit Danny Sullivan.

Será interesante ver si Google finalmente, después de todo este tiempo, encuentra una manera de combatir este tipo de spam.

Imagen destacada de Shutterstock/Kateryna Onyshchuk

hola@juanrecio.com

Author

hola@juanrecio.com

¡Utiliza la tecnología y la inteligencia artificial en tus proyectos! ¿Quieres saber cómo?