
La Oficina de Derechos de Autor de los Estados Unidos publicó una versión previa a la publicación de un informe sobre el uso de materiales con derechos de autor para capacitar a la IA generativa, describiendo un caso legal y objetivo que identifica los riesgos de derechos de autor en cada etapa del desarrollo generativo de la IA.
El informe fue creado en respuesta a la preocupación pública y del Congreso sobre el uso de contenido con derechos de autor, incluidas las versiones pirateadas, por sistemas de IA sin obtener primero el permiso. Si bien la oficina de derechos de autor no hace decisiones legales, los informes que crea ofrecen orientación legal y técnica que puede influir en la legislación y las decisiones judiciales.
El informe ofrece cuatro razones por las que las empresas de tecnología de IA deberían estar preocupadas:
- El informe establece que muchos actos de adquisición de datos, el proceso de creación de conjuntos de datos a partir de trabajos con derechos de autor y la capacitación podrían “constituir una infracción prima facie”.
- Desafía a la defensa común de la industria de que los modelos de capacitación no implican “copiar”, señalando que el proceso de crear conjuntos de datos implica la creación de múltiples copias, y que las mejoras en los pesos del modelo también pueden contener copias de esas obras. El informe cita informes de instancias en las que la IA reproduce obras con derechos de autor, ya sea por palabra o copias “casi idénticas”.
- Establece que el proceso de capacitación implica el derecho de reproducción, uno de los derechos exclusivos otorgados para enfatizar que la memorización y la regurgitación del contenido con derechos de autor por parte de los modelos pueden constituir una infracción, incluso si no es intencionada.
- El uso transformador, donde agrega un nuevo significado a un trabajo original, es una consideración importante en el análisis de uso justo. El informe reconoce que “es probable que” algunos usos de los trabajos con derechos de autor en la capacitación de IA sean transformadores “, pero” no está de acuerdo “con el argumento de que la capacitación de IA es transformador simplemente porque se asemeja al” aprendizaje humano “, como cuando una persona lee un libro y aprende de él.
Implicaciones de los derechos de autor en cada etapa del desarrollo de la IA
Quizás la parte más condenatoria del informe es donde dice que puede haber problemas de derechos de autor en cada etapa del desarrollo de la IA y enumera cada etapa de desarrollo y lo que puede estar mal con ello.
“A. Recopilación y curación de datos
Los pasos necesarios para producir un conjunto de datos de capacitación que contenga obras con derechos de autor, implican claramente el derecho de reproducción …
B. Entrenamiento
El proceso de entrenamiento también implica el derecho de reproducción. Primero, la velocidad y la escala de capacitación requieren que los desarrolladores descarguen el conjunto de datos y lo copien al almacenamiento de alto rendimiento antes de la capacitación.96 Segundo, durante la capacitación, obras o porciones sustanciales de obras se reproducen temporalmente a medida que se “muestran” al modelo en lotes.
Esas copias pueden persistir lo suficiente como para infringir el derecho de reproducción, 160 dependiendo del modelo en cuestión y las implementaciones específicas de hardware y software utilizadas por los desarrolladores.
En tercer lugar, el proceso de capacitación, que proporciona ejemplos de capacitación, mide el rendimiento del modelo contra los resultados esperados y actualiza iterativamente los pesos para mejorar el rendimiento, puede dar como resultado pesos del modelo que contienen copias de trabajos en los datos de entrenamiento. Si es así, la copia posterior de los pesos del modelo, incluso por las partes que no participan en el proceso de capacitación, también podría constituir una infracción prima facie.
C. trapo
El trapo también implica la reproducción de trabajos con derechos de autor.110 Típicamente, Rag funciona de una de dos maneras. En uno, el desarrollador de IA copia el material en una base de datos de recuperación, y el sistema de IA generativo puede acceder más tarde a esa base de datos para recuperar material relevante y suministrarlo al modelo junto con el indicador del usuario.111 En el otro, el sistema recupera el sistema de una fuente externa (por ejemplo, un motor de búsqueda o una respuesta específica) .181.
D. salidas
Los modelos de IA generativos a veces emiten material que replica o se parece mucho a las obras con derechos de autor. Los usuarios han demostrado que la IA generativa puede producir réplicas casi exactas de imágenes fijas de películas, 112 personajes de derechos de autor, 113 o texto de historias de noticias.114 tales resultados probablemente infringen el derecho de reproducción y, en la medida en que adapten los originales, el derecho a preparar trabajos derivados “.
El informe encuentra riesgos de infracción en cada etapa del desarrollo generativo de la IA, y aunque sus hallazgos no son legalmente vinculantes, podrían usarse para crear legislación y servir como orientación para los tribunales.
Comida para llevar
- Entrenamiento de IA e infracción de derechos de autor:
El informe argumenta que tanto la adquisición de datos como la capacitación del modelo pueden implicar copia no autorizada, posiblemente constituyendo “infracción prima facie”. - Rechazo de las defensas de la industria:
La oficina de derechos de autor disputa la industria de la IA Común de la industria de que la capacitación no implica la copia y que la capacitación de IA es análoga al aprendizaje humano. - Uso justo y uso transformador:
El informe no está de acuerdo con la amplia aplicación del uso transformador como defensa, especialmente cuando se basa en las comparaciones con la cognición humana. - Preocupación por todas las etapas del desarrollo de la IA:
Las preocupaciones de derechos de autor se identifican en cada etapa del desarrollo de la IA, desde la recopilación de datos, la capacitación, la generación de recuperación acuática (RAG) y los resultados del modelo. - Memorización y pesos del modelo:
La oficina advierte que los modelos de IA pueden retener contenido con derechos de autor en los pesos, lo que significa que incluso el uso o la distribución de esos pesos podría ser infringente. - Funciones de reproducción de salida y derivados:
La capacidad de la IA para generar resultados casi idénticos (por ejemplo, imágenes de películas, personajes o artículos) plantea preocupaciones sobre las violaciones de los derechos laborales de reproducción y derivados. - Riesgo de infracción específico de RAG:
Se describe que ambos métodos de RAG, copiar contenido en una base de datos o recuperar de fuentes externas, implican reproducciones potencialmente infractoras.
El informe de la Oficina de Derechos de Autor de EE. UU. Describe múltiples formas en que el desarrollo generativo de la IA puede infringir la ley de derechos de autor, desafiando la legalidad de usar datos con derechos de autor sin permiso en cada etapa técnica, desde la creación del conjunto de datos hasta los resultados del modelo. Rechaza el uso de la analogía del aprendizaje humano como defensa y la amplia aplicación de uso justo de la industria. Aunque el informe no tiene la misma fuerza que un hallazgo judicial, el informe puede usarse como orientación para legisladores y tribunales.
Imagen destacada de Shutterstock/Treecha