OpenAI ha lanzado GPTBot, un nuevo rastreador web para mejorar los futuros modelos de inteligencia artificial como GPT-4 y el futuro GPT-5.
Cómo funciona GPTBot
Reconocible por el siguiente token de agente de usuario y la cadena completa de agente de usuario, este sistema busca en la web datos que puedan mejorar la precisión, las capacidades y la seguridad de la tecnología de IA.
User agent token: GPTBot
Full user-agent string: Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; GPTBot/1.0; +https://openai.com/gptbot)
Según se informa, debe filtrar estrictamente cualquier fuente restringida por paywall, fuentes que violen las políticas de OpenAI o fuentes que recopilen información de identificación personal.
La utilización de GPTBot puede potencialmente proporcionar un impulso significativo a los modelos de IA.
Al permitirle acceder a su sitio, contribuye a este conjunto de datos, mejorando así el ecosistema general de IA.
Sin embargo, no es un escenario único para todos. OpenAI ha otorgado a los administradores web el poder de elegir si otorgar o no acceso a GPTBot a sus sitios web.
Restricción del acceso de GPTBot
Si los propietarios de sitios web desean restringir GPTBot de su sitio, pueden modificar su archivo robots.txt.
Al incluir lo siguiente, pueden evitar que GPTBot acceda a la totalidad de su sitio web.
User-agent: GPTBot
Disallow: /
Por el contrario, aquellos que deseen otorgar acceso parcial pueden personalizar los directorios a los que puede acceder GPTBot. Para hacer esto, agregue lo siguiente al archivo robots.txt.
User-agent: GPTBot
Allow: /directory-1/
Disallow: /directory-2/
Con respecto a las operaciones técnicas de GPTBot, todas las llamadas realizadas a sitios web se originan en rangos de direcciones IP documentados en el sitio web de OpenAI. Este detalle brinda mayor transparencia y claridad a los administradores web sobre la fuente de tráfico en sus sitios.
Permitir o deshabilitar el rastreador web GPTBot podría afectar significativamente la privacidad de los datos, la seguridad y la contribución al avance de la IA de su sitio.
Preocupaciones legales y éticas
Las últimas noticias de OpenAI han provocado un debate en Hacker News sobre la ética y la legalidad del uso de datos web extraídos para entrenar sistemas de IA patentados.
GPTBot se identifica a sí mismo para que los administradores web puedan bloquearlo a través de robots.txt, pero algunos argumentan que no hay ningún beneficio en permitirlo, a diferencia de los rastreadores de motores de búsqueda que generan tráfico. Una preocupación importante es el contenido protegido por derechos de autor que se utiliza sin atribución. ChatGPT actualmente no cita fuentes.
También hay preguntas sobre cómo GPTBot maneja imágenes, videos, música y otros medios con licencia que se encuentran en los sitios web. Si ese medio termina en la formación de modelos, podría constituir una infracción de derechos de autor. Algunos expertos creen que los datos generados por rastreadores podrían degradar los modelos si el contenido escrito por IA se retroalimenta en el entrenamiento.
Por el contrario, algunos creen que OpenAI tiene derecho a usar datos web públicos libremente, comparándolos con una persona que aprende del contenido en línea. Sin embargo, otros argumentan que OpenAI debería compartir las ganancias si monetiza los datos web para obtener ganancias comerciales.
En general, GPTBot ha abierto debates complejos sobre la propiedad, el uso justo y los incentivos de los creadores de contenido web. Si bien seguir robots.txt es un buen paso, todavía falta transparencia. La comunidad tecnológica se pregunta cómo se utilizarán sus datos a medida que los productos de IA avancen rápidamente.
Imagen destacada: Vitor Miranda/Shutterstock