Noticias

Cómo utilizar Google Sheets para web scraping con IA


Extraer datos de páginas web es una tarea relativamente avanzada que, hasta hace poco, requería cierto grado de habilidad técnica. La idea de sumergirse en códigos o scripts para la extracción de datos parecía abrumadora para muchos, incluido yo mismo.

La extracción de datos puede impulsar muchas tareas de SEO, como auditorías, análisis de la competencia y examen de sitios web y estructuras de datos.

Google Sheets ofrece soluciones sencillas para ayudar.

Una de esas soluciones es la función IMPORTXML que permite a los usuarios extraer datos de páginas web utilizando solo unos pocos parámetros. Hace que la extracción de datos sea accesible a un público más amplio, especialmente para aquellos que no conocen bien los lenguajes de programación.

Si bien esta función es impresionante, el verdadero avance se produjo con la adopción e integración de la IA generativa en la combinación.

En esta guía, le mostraremos cómo utilizar Google Sheets y la IA, en particular ChatGPT, para el web scraping sin necesidad de conocimientos avanzados de codificación.

Las herramientas: IA y chatbots

Ahora todos estamos familiarizados con la IA, ChatGPT y chatbots similares.

De hecho, muchos de nosotros utilizamos soluciones como ChatGPT para escribir nuestro propio código, scripts y programas sin o con conocimientos de programación muy limitados.

Es tan simple como proporcionar instrucciones detalladas en forma de indicaciones y trabajar con el chatbot para crear herramientas que hasta hace poco creíamos que estaban muy por encima de nosotros.

Pero lo más importante es que se trata de herramientas que están cambiando profundamente la forma en que abordamos nuestro trabajo diario.

Por ejemplo, si le hacemos a ChatGPT la siguiente pregunta: “¿Qué es la función IMPORTXML y cómo puedo usarla en Google Sheets para extraer el título de una página web HTML? Proporcione el código necesario para hacerlo en Google Sheets”, la respuesta es extremadamente precisa. En cuestión de segundos tenemos nuestra fórmula lista para usar en Google Sheets.

Pero para ser honesto, esa fue una tarea muy básica y sencilla que podríamos haber completado fácilmente sin ChatGPT.

La tarea

Entonces, ¿cómo funciona esto si queremos extraer datos que son un poco menos estándar en comparación con el título o la descripción de una página?

Por ejemplo, ¿cómo funciona esto si queremos extraer los siguientes datos de la página principal de PPC de Search Engine Journal?

Enumere todos los artículos destacados, sus autores, las URL de los enlaces y la descripción del artículo para las columnas enumeradas en https://www.searchenginejournal.com/category/paid-media/pay-per-click/.

¿Podemos hacer eso directamente con ChatGPT?

Ejecutando con ChatGPT

Al crear indicaciones, fueron necesarios algunos intentos para proporcionar instrucciones que fueran lo suficientemente detalladas para que el chatbot entendiera completamente el objetivo de la tarea y obtuviera buenos resultados.

En muchos casos, parecía que la IA estaba bajo presión para obtener resultados rápidos a pesar de su precisión.

Pero déjame explicarte.

La tarea consistía en analizar la página y enumerar todos los artículos destacados, sus autores, las URL de los enlaces y la descripción de cada uno de los 30 artículos enumerados en la página. Luego compile los datos en una tabla y finalmente expórtelos a un archivo CSV.

Sencillo ¿verdad?

Al principio, ChatGPT devolvió sólo una muestra de siete artículos y sólo sus títulos y URL; Después de un mensaje modificado, logró enumerar y exportar los 30 artículos y sus enlaces.

Eso estuvo bien. Entonces, para completar la tarea, solo necesitábamos agregar los autores y las descripciones de los artículos.

Pero aquí es donde el robot tropezó y no pudo proporcionar una descripción precisa de cada artículo a pesar de que le proporcionamos ejemplos del elemento de la página que necesitaba encontrar y copiar.

ChatGPT siguió ignorando las instrucciones y proporcionando sus propias descripciones de artículos una y otra vez.

ChatGPT incluso falló cuando intentamos con un enfoque diferente y descargamos y subimos una copia de la página HTML.

Extracto de ChatGPTCaptura de pantalla de ChatGPT, febrero de 2024

Esta vez, pudo proporcionar datos precisos para siete artículos, pero no pudo ir más allá. El problema informó:

“…la estructura y el contenido de la página presentan desafíos importantes para la extracción integral de datos en una sola sesión.

La página es bastante extensa y compleja y no es factible extraer los 30 artículos en el formato de interacción actual”.

ChatGPT extrayendo de 30 artículosCaptura de pantalla de ChatGPT, febrero de 2024

ChatGPT + Hojas de cálculo de Google

Entonces, volvamos a IMPORTXML y Google Sheets.

Esta vez, conseguir que ChatGPT proporcionara las fórmulas para cada campo fue muy sencillo.

  Instrucciones de extracción de ChatGPTCaptura de pantalla de ChatGPT, febrero de 2024

Estas son algunas de las fórmulas, sugeridas por el chatbot, que puedes probar fácilmente en Google Sheets para extraerlas:

Título

=IMPORTXML("https://www.searchenginejournal.com/category/paid-media/pay-per-click/", "//*[@id='archives-wrapper']/article/div/div[2]/h2/a")

Nombre del autor

=IMPORTXML("https://www.searchenginejournal.com/category/paid-media/pay-per-click/", "//*[@id='archives-wrapper']/article/div/div[2]/p[1]/a")

Enlace URL

=IMPORTXML("https://www.searchenginejournal.com/category/paid-media/pay-per-click/", "//*[@id='archives-wrapper']/article/div/div[2]/h2/a/@href")

Descripción

=IMPORTXML("https://www.searchenginejournal.com/category/paid-media/pay-per-click/", "//*[@id='archives-wrapper']/article/div/div[2]/p[2]")

En poco tiempo pudimos extraer los datos en la hoja de cálculo.

Hojas de cálculo de GoogleCaptura de pantalla de Google Sheets, febrero de 2024

Además, al utilizar fórmulas anidadas sencillas, podemos extraer rápidamente los datos de varias páginas al mismo tiempo.

En el siguiente ejemplo, pude extraer los mismos datos relacionados con cada artículo (título, autor, enlace URL y descripción) para las primeras 10 páginas de la sección PPC.

¡El resultado es un total de 300 artículos eliminados en menos de un minuto!

Resultados de extracción de Google SheetsCaptura de pantalla de Google Sheets, febrero de 2024

Comparando los dos

Entonces, ¿cómo se comparan ChatGPT con ChatGPT + Google Sheets IMPORTXML?

En mi experiencia, no pude encontrar una manera fácil y rápida de usar ChatGPT para extraer los datos que estaba buscando. Eso sí, eso no significa que esto no sea posible, y puede haber varias formas de hacerlo, pero No encontré ninguno.

Lo que funcionó para mí fue una combinación de diferentes herramientas, y eso me sirvió muy bien para el propósito previsto.

ChatGPT fue extremadamente útil para escribir las fórmulas IMPORTXML que necesitaba usar en Google Sheets, y esas fórmulas hicieron el resto.

Una ventaja adicional de la opción ChatGPT + Google Sheets es que puede usar la versión 3.5 gratuita de ChatGPT y obtener la herramienta para crear sus fórmulas IMPORTXML, en lugar de tener la versión 4 para escanear la página y extraer los datos.

Conclusión clave

Esto resalta un aspecto crítico de cómo la IA ha transformado nuestra forma de pensar y trabajar.

La mejor herramienta para el trabajo no es simplemente usar IA, Google Sheets o cualquier software específico, sino más bien una combinación de herramientas y habilidades.

Es en este enfoque integrado que desarrollamos flujos de trabajo que son eficientes y efectivos, mejorando así nuestra productividad general.

Más recursos:


Imagen de portada: Generación visual/Shutterstock

hola@juanrecio.com

Author

hola@juanrecio.com

¡Utiliza la tecnología y la inteligencia artificial en tus proyectos! ¿Quieres saber cómo?