Google actualizó silenciosamente su documentación de Google Search Central para señalar que ahora están indexando archivos .csv.
Esto abre una nueva forma de ser rastreado o, si un editor no quiere que se rastreen sus archivos .csv, puede significar actualizar robots.txt para excluir esos archivos.
Valores separados por comas (CSV)
Los archivos de valores separados por comas (CSV) son archivos de texto que guardan datos en un formato tabular que se puede mostrar como una hoja de cálculo.
Los archivos CSV contienen datos en texto sin formato, lo que significa que los archivos CSV no contienen elementos de estilo como fuentes ni imágenes ni enlaces activos.
Son útiles para hacer cosas como cargar una lista de URL para rastrear software como Screaming Frog.
Pero también son útiles para organizar datos en una hoja de cálculo.
La indexación de archivos CSV es nueva
La capacidad de Google para indexar archivos CSV es una nueva funcionalidad porque una búsqueda de “tipo de archivo” en Google para archivos CSV actualmente no devuelve archivos CSV.
Búsquedas como las siguientes actualmente no devuelven archivos CSV:
- tipo de archivo:csv sitio:.gov
- tipo de archivo:csv sitio:.edu
- tipo de archivo:csv sitio:.com
Google ya ha utilizado archivos CSV indirectamente
Algo curioso de la indexación de archivos CSV por parte de Google es que la apariencia de búsqueda de Dataset de Google ya utilizaba archivos CSV pero aparentemente sólo cuando se describe con datos estructurados.
La documentación de datos estructurados del conjunto de datos en la antigua documentación para desarrolladores de Google (que se puede ver en Archive.org) establece que los archivos CSV son un estándar aceptable para aparecer en las funciones de búsqueda de conjuntos de datos.
El uso de datos tabulares como apariencia de búsqueda se remonta a 2018, cuando Google anunció que mostraría ese tipo de datos en la búsqueda cuando vayan acompañados de datos estructurados.
Según la documentación original:
“Los conjuntos de datos son más fáciles de encontrar cuando se proporciona información de respaldo, como su nombre, descripción, creador y formatos de distribución, que se proporcionan como datos estructurados…
A continuación se muestran algunos ejemplos de lo que puede considerarse un conjunto de datos:
- Una tabla o un archivo CSV con algunos datos.
- Una colección organizada de mesas.
- Un archivo en un formato propietario que contiene datos.
- Una colección de archivos que juntos constituyen un conjunto de datos significativo.
- Un objeto estructurado con datos en algún otro formato que quizás quieras cargar en una herramienta especial para su procesamiento.
- Imágenes que capturan datos
- Archivos relacionados con el aprendizaje automático, como parámetros entrenados o definiciones de estructuras de redes neuronales.
- Cualquier cosa que te parezca un conjunto de datos”
Google actualizó la documentación anterior en 2022 y la redirigió a la nueva documentación central de búsqueda.
La documentación actualizada deja más claro que Google se basa en datos estructurados para utilizar archivos CSV en su apariencia de búsqueda de conjuntos de datos.
Pero, ¿significará este cambio que Google eventualmente rastreará archivos CSV y los utilizará para las apariciones en búsquedas (además de los datos tabulares anotados en datos estructurados)?
Esto es lo que explica hoy la documentación actual:
“Los conjuntos de datos son más fáciles de encontrar cuando se proporciona información de respaldo, como su nombre, descripción, creador y formatos de distribución, como datos estructurados.
El enfoque de Google para el descubrimiento de conjuntos de datos utiliza Schema.org y otros estándares de metadatos que se pueden agregar a páginas que describen conjuntos de datos…
A continuación se muestran algunos ejemplos de lo que puede considerarse un conjunto de datos:
Una tabla o un archivo CSV con algunos datos…”
¿El CSV de indexación de Google está relacionado con una actualización reciente?
La definición de actualización de un algoritmo central es cuando Google realiza cambios “significativos” y “amplios” en su algoritmo central.
Puede ser una coincidencia que la indexación de archivos CSV y la actualización del algoritmo central se hayan producido prácticamente al mismo tiempo.
Pero puede que valga la pena considerar si Google ha mejorado su motor de rastreo para poder indexar CSV o si esa capacidad ya existía.
Lea la lista actualizada de tipos de archivos indexables:
Tipos de archivos indexables por Google
Lea la documentación del conjunto de datos de Search Central de Google:
Conjunto de datos (conjunto de datos, catálogo de datos, descarga de datos) datos estructurados
Imagen destacada de Shutterstock/Jane Kelly