OpenAI publicó una respuesta a la demanda de The New York Times alegando que The NYTimes utilizó técnicas de manipulación para inducir a ChatGPT a regurgitar extractos extensos, afirmando que la demanda se basa en el uso indebido de ChatGPT para “seleccionar” ejemplos para el demanda judicial.
La demanda del New York Times contra OpenAI
El New York Times presentó una demanda contra OpenAI (y Microsoft) por infracción de derechos de autor alegando que ChatGPT “recita el contenido del Times palabra por palabra”, entre otras quejas.
La demanda presentó evidencia que muestra cómo GPT-4 podría generar grandes cantidades de contenido del New York Times sin atribución como prueba de que GPT-4 infringe el contenido del New York Times.
La acusación de que GPT-4 está generando copias exactas del contenido del New York Times es importante porque contradice la insistencia de OpenAI de que su uso de datos es transformador, que es un marco legal relacionado con la doctrina del uso justo.
La oficina de derechos de autor de Estados Unidos define el uso justo del contenido protegido por derechos de autor que es transformador:
“El uso legítimo es una doctrina jurídica que promueve la libertad de expresión al permitir el uso sin licencia de obras protegidas por derechos de autor en determinadas circunstancias.
… es más probable que los usos ‘transformadores’ se consideren justos. Los usos transformadores son aquellos que añaden algo nuevo, con un propósito ulterior o de carácter diferente, y no sustituyen el uso original de la obra”.
Por eso es importante que The New York Times afirme que el uso del contenido por parte de OpenAI no es un uso legítimo.
La demanda del New York Times contra OpenAI afirma:
“Los demandados insisten en que su conducta está protegida como “uso justo” porque su uso sin licencia de contenido protegido por derechos de autor para entrenar modelos GenAI tiene un nuevo propósito “transformador”. Pero no hay nada “transformador” en el uso del contenido del Times… Debido a que los resultados de los modelos GenAI de los demandados compiten con los insumos utilizados para entrenarlos e imitan estrechamente los datos utilizados para entrenarlos, copiar los trabajos del Times para ese propósito no es un uso legítimo”.
La siguiente captura de pantalla muestra evidencia de cómo GPT-4 genera una copia exacta del contenido del Times. El contenido en rojo es contenido original creado por el New York Times y publicado por GPT-4.
La respuesta de OpenAI socava las afirmaciones de la demanda del NYTimes
OpenAI ofreció una fuerte refutación de las afirmaciones hechas en la demanda del New York Times, alegando que la decisión del Times de acudir a los tribunales sorprendió a OpenAI porque habían asumido que las negociaciones estaban avanzando hacia una resolución.
Lo más importante es que OpenAI desacreditó las afirmaciones del New York Times de que GPT-4 genera contenido textual al explicar que GPT-4 está diseñado para no generar contenido textual y que The New York Times utilizó técnicas de indicación diseñadas específicamente para romper las barreras de seguridad de GPT-4 para producir la salida en disputa, socavando la implicación del New York Times de que la salida de contenido palabra por palabra es una salida GPT-4 común.
Este tipo de aviso diseñado para interrumpir ChatGPT para generar resultados no deseados se conoce como aviso adversario.
Ataques de provocación adversarios
La IA generativa es sensible a los tipos de indicaciones (solicitudes) que se le hacen y, a pesar de los mejores esfuerzos de los ingenieros para bloquear el uso indebido de la IA generativa, todavía hay nuevas formas de utilizar indicaciones para generar respuestas que sorteen las barreras integradas en la tecnología que están diseñados para evitar resultados no deseados.
Las técnicas para generar resultados no deseados se llaman Adversarial Prompting y eso es lo que OpenAI acusa a The New York Times de hacer para fabricar una base que demuestre que el uso de GPT-4 de contenido protegido por derechos de autor no es transformador.
La afirmación de OpenAI de que The New York Times hizo un mal uso de GPT-4 es importante porque socava la insinuación de la demanda de que generar contenido literal con derechos de autor es un comportamiento típico.
Ese tipo de provocación adversa también viola los términos de uso de OpenAI que establecen:
Lo que no puedes hacer
- Utilice nuestros Servicios de una manera que infrinja, se apropie indebidamente o viole los derechos de cualquier persona.
- Interferir o interrumpir nuestros Servicios, incluso eludir cualquier límite o restricción de tarifas o eludir cualquier medida de protección o mitigación de seguridad que implementemos en nuestros Servicios.
OpenAI reclama una demanda basada en indicaciones manipuladas
La refutación de OpenAI afirma que el New York Times utilizó indicaciones manipuladas diseñadas específicamente para subvertir las barreras de seguridad GPT-4 con el fin de generar contenido textual.
OpenAI escribe:
“Parece que manipularon intencionalmente indicaciones, que a menudo incluían extensos extractos de artículos, para que nuestro modelo regurgitara.
Incluso cuando utilizamos tales indicaciones, nuestros modelos no suelen comportarse de la forma en que insinúa The New York Times, lo que sugiere que le ordenaron al modelo que regurgitara o escogieron sus ejemplos de muchos intentos”.
OpenAI también respondió a la demanda del New York Times diciendo que los métodos utilizados por The New York Times para generar contenido textual eran una violación de la actividad permitida del usuario y el uso indebido.
Escriben:
“A pesar de sus afirmaciones, este uso indebido no es una actividad típica ni permitida para el usuario”.
OpenAI terminó afirmando que continúan construyendo resistencia contra los tipos de ataques rápidos de confrontación utilizados por The New York Times.
Escriben:
“De todos modos, continuamente hacemos que nuestros sistemas sean más resistentes a los ataques adversarios para regurgitar datos de entrenamiento, y ya hemos logrado muchos avances en nuestros modelos recientes”.
OpenAI respaldó su afirmación de diligencia en el respeto de los derechos de autor citando su respuesta de julio de 2023 a los informes de que ChatGPT estaba generando respuestas textuales.
Hemos aprendido que la versión beta “Explorar” de ChatGPT puede ocasionalmente mostrar contenido de maneras que no queremos, por ejemplo, si un usuario solicita específicamente el texto completo de una URL, puede cumplir con esta solicitud sin darse cuenta. Estamos deshabilitando la exploración mientras solucionamos este problema; queremos que los propietarios del contenido hagan lo correcto.
—OpenAI (@OpenAI) 4 de julio de 2023
El New York Times versus OpenAI
Siempre hay dos lados de una historia y OpenAI acaba de publicar su lado que muestra que las afirmaciones del New York Times se basan en ataques adversarios y un mal uso de ChatGPT para obtener respuestas textuales.
Lea la respuesta de OpenAI:
OpenAI y periodismo:
Apoyamos el periodismo, nos asociamos con organizaciones de noticias y creemos que la demanda del New York Times no tiene fundamento.
Imagen destacada de Shutterstock/pizzastereo