Los investigadores probaron la idea de que un modelo de IA puede tener una ventaja en la autodetección de su propio contenido porque la detección aprovechaba el mismo entrenamiento y conjuntos de datos. Lo que no esperaban encontrar era que de los tres modelos de IA que probaron, el contenido generado por uno de ellos era tan indetectable que ni siquiera la IA que lo generó podía detectarlo.
El estudio fue realizado por investigadores del Departamento de Ciencias de la Computación de la Escuela de Ingeniería Lyle de la Universidad Metodista del Sur.
Detección de contenido de IA
Muchos detectores de IA están entrenados para buscar señales reveladoras de contenido generado por IA. Estas señales se denominan “artefactos” y se generan debido a la tecnología de transformador subyacente. Pero otros artefactos son exclusivos de cada modelo básico (el modelo de lenguaje grande en el que se basa la IA).
Estos artefactos son únicos para cada IA y surgen de datos de entrenamiento distintivos y ajustes finos que siempre son diferentes de un modelo de IA a otro.
Los investigadores descubrieron evidencia de que es esta singularidad la que permite a una IA tener un mayor éxito en la autoidentificación de su propio contenido, significativamente mejor que intentar identificar el contenido generado por una IA diferente.
Bard tiene más posibilidades de identificar contenido generado por Bard y ChatGPT tiene una mayor tasa de éxito al identificar contenido generado por ChatGPT, pero…
Los investigadores descubrieron que esto no era cierto para el contenido generado por Claude. Claude tuvo dificultades para detectar el contenido que generaba. Los investigadores compartieron una idea de por qué Claude no pudo detectar su propio contenido y este artículo lo analiza más adelante.
Esta es la idea detrás de las pruebas de investigación:
“Dado que cada modelo se puede entrenar de manera diferente, es difícil crear una herramienta detectora para detectar los artefactos creados por todas las posibles herramientas de IA generativa.
Aquí, desarrollamos un enfoque diferente llamado autodetección, donde utilizamos el propio modelo generativo para detectar sus propios artefactos y distinguir su propio texto generado del texto escrito por humanos.
Esto tendría la ventaja de que no necesitamos aprender a detectar todos los modelos de IA generativa, sino que solo necesitamos acceder a un modelo de IA generativa para la detección.
Esta es una gran ventaja en un mundo donde continuamente se desarrollan y entrenan nuevos modelos”.
Metodología
Los investigadores probaron tres modelos de IA:
- ChatGPT-3.5 de OpenAI
- Bardo de Google
- Claude de Anthropic
Todos los modelos utilizados fueron las versiones de septiembre de 2023.
Se creó un conjunto de datos de cincuenta temas diferentes. A cada modelo de IA se le dieron exactamente las mismas indicaciones para crear ensayos de aproximadamente 250 palabras para cada uno de los cincuenta temas que generaron cincuenta ensayos para cada uno de los tres modelos de IA.
Luego, a cada modelo de IA se le pidió de manera idéntica que parafraseara su propio contenido y generara un ensayo adicional que era una reescritura de cada ensayo original.
También recopilaron cincuenta ensayos generados por humanos sobre cada uno de los cincuenta temas. Todos los ensayos generados por humanos fueron seleccionados de la BBC.
Luego, los investigadores utilizaron indicaciones de disparo cero para autodetectar el contenido generado por la IA.
La indicación de disparo cero es un tipo de indicación que se basa en la capacidad de los modelos de IA para completar tareas para las que no han sido entrenados específicamente.
Los investigadores explicaron además su metodología:
“Creamos una nueva instancia de cada sistema de IA iniciado y planteamos una consulta específica: ‘Si el siguiente texto coincide con su patrón de escritura y elección de palabras’. El procedimiento es
Se repite para los ensayos originales, parafraseados y humanos, y se registran los resultados.También agregamos el resultado de la herramienta de detección de IA ZeroGPT. No utilizamos este resultado para comparar el rendimiento, sino como punto de referencia para mostrar cuán desafiante es la tarea de detección”.
También observaron que una tasa de precisión del 50% equivale a adivinar, lo que puede considerarse esencialmente como un nivel de precisión que es un fracaso.
Resultados: Autodetección
Cabe señalar que los investigadores reconocieron que su tasa de muestreo fue baja y dijeron que no afirmaban que los resultados fueran definitivos.
A continuación se muestra un gráfico que muestra las tasas de éxito de la autodetección de IA del primer lote de ensayos. Los valores rojos representan la autodetección de IA y el azul representa qué tan bien se desempeñó la herramienta de detección de IA ZeroGPT.
Resultados de la autodetección por IA de contenido de texto propio
Bard tuvo un desempeño bastante bueno en la detección de su propio contenido y ChatGPT también tuvo un desempeño similar en la detección de su propio contenido.
ZeroGPT, la herramienta de detección de IA, detectó muy bien el contenido de Bard y tuvo un rendimiento ligeramente menor en la detección de contenido de ChatGPT.
Básicamente, ZeroGPT no pudo detectar el contenido generado por Claude y tuvo un desempeño peor que el umbral del 50%.
Claude fue el caso atípico del grupo porque no pudo autodetectar su propio contenido, con un desempeño significativamente peor que Bard y ChatGPT.
Los investigadores plantearon la hipótesis de que puede ser que la producción de Claude contenga artefactos menos detectables, lo que explica por qué tanto Claude como ZeroGPT no pudieron detectar los ensayos de Claude como generados por IA.
Entonces, aunque Claude no pudo autodetectar de manera confiable su propio contenido, eso resultó ser una señal de que la producción de Claude era de mayor calidad en términos de producir menos artefactos de IA.
ZeroGPT tuvo un mejor desempeño en la detección de contenido generado por Bard que en la detección de contenido de ChatGPT y Claude. Los investigadores plantearon la hipótesis de que podría ser que Bard genere artefactos más detectables, lo que hace que Bard sea más fácil de detectar.
Entonces, en términos de contenido de autodetección, Bard puede estar generando más artefactos detectables y Claude está generando menos artefactos.
Resultados: contenido parafraseado autodetectable
Los investigadores plantearon la hipótesis de que los modelos de IA podrían autodetectar su propio texto parafraseado porque los artefactos creados por el modelo (como se detecta en los ensayos originales) también deberían estar presentes en el texto reescrito.
Sin embargo, los investigadores reconocieron que las indicaciones para escribir el texto y parafrasear son diferentes porque cada reescritura es diferente del texto original, lo que en consecuencia podría conducir a resultados de autodetección diferentes para la autodetección del texto parafraseado.
Los resultados de la autodetección del texto parafraseado fueron de hecho diferentes de la autodetección de la prueba de ensayo original.
- Bard pudo autodetectar el contenido parafraseado a un ritmo similar.
- ChatGPT no pudo autodetectar el contenido parafraseado a una tasa mucho mayor que la tasa del 50% (que equivale a adivinar).
- El rendimiento de ZeroGPT fue similar a los resultados de la prueba anterior, con un rendimiento ligeramente peor.
Quizás el resultado más interesante lo obtuvo Claude de Anthropic.
Claude pudo autodetectar el contenido parafraseado (pero no pudo detectar el ensayo original en la prueba anterior).
Es un resultado interesante que los ensayos originales de Claude aparentemente tuvieran tan pocos artefactos para indicar que se trataba de IA generada que ni siquiera Claude pudo detectarlo.
Sin embargo, pudo autodetectar la paráfrasis, mientras que ZeroGPT no pudo.
Los investigadores comentaron sobre esta prueba:
“El hallazgo de que la parafraseo impide que ChatGPT se autodetecte y al mismo tiempo aumenta la capacidad de autodetección de Claude es muy interesante y puede ser el resultado del funcionamiento interno de estos dos modelos de transformadores”.
Captura de pantalla de la autodetección de contenido parafraseado por IA
Estas pruebas arrojaron resultados casi impredecibles, particularmente con respecto a Claude de Anthropic y esta tendencia continuó con la prueba de qué tan bien los modelos de IA detectaban el contenido de los demás, lo que tenía un aspecto interesante.
Resultados: modelos de IA que detectan el contenido de cada uno
La siguiente prueba mostró qué tan bien cada modelo de IA detectaba el contenido generado por los otros modelos de IA.
Si es cierto que Bard genera más artefactos que los otros modelos, ¿podrán los otros modelos detectar fácilmente el contenido generado por Bard?
Los resultados muestran que sí, el contenido generado por Bard es el más fácil de detectar mediante los otros modelos de IA.
Con respecto a la detección de contenido generado por ChatGPT, tanto Claude como Bard no pudieron detectarlo como generado por IA (al igual que Claude no pudo detectarlo).
ChatGPT pudo detectar contenido generado por Claude a un ritmo más alto que Bard y Claude, pero ese ritmo más alto no fue mucho mejor que adivinar.
El hallazgo aquí es que no todos eran tan buenos para detectar el contenido de los demás, lo que, según los investigadores, puede mostrar que la autodetección era un área de estudio prometedora.
Aquí está el gráfico que muestra los resultados de esta prueba específica:
En este punto cabe señalar que los investigadores no afirman que estos resultados sean concluyentes sobre la detección de IA en general. El objetivo de la investigación era probar si los modelos de IA podían lograr autodetectar su propio contenido generado. La respuesta es mayoritariamente sí, hacen un mejor trabajo en la autodetección, pero los resultados son similares a los encontrados con ZEROGpt.
Los investigadores comentaron:
“La autodetección muestra un poder de detección similar en comparación con ZeroGPT, pero tenga en cuenta que el objetivo de este estudio no es afirmar que la autodetección sea superior a otros métodos, lo que requeriría un gran estudio para compararlo con muchos métodos de última generación. Herramientas de detección de contenido de IA de última generación. Aquí sólo investigamos la capacidad básica de autodetección de los modelos”.
Conclusiones y conclusiones
Los resultados de la prueba confirman que detectar contenido generado por IA no es una tarea fácil. Bard es capaz de detectar su propio contenido y el contenido parafraseado.
ChatGPT puede detectar su propio contenido pero no funciona tan bien con su contenido parafraseado.
Claude se destaca porque no es capaz de autodetectar de manera confiable su propio contenido, pero sí pudo detectar el contenido parafraseado, lo cual fue algo extraño e inesperado.
Detectar los ensayos originales de Claude y los ensayos parafraseados fue un desafío para ZeroGPT y para los otros modelos de IA.
Los investigadores observaron sobre los resultados de Claude:
“Este resultado aparentemente no concluyente necesita más consideración ya que está impulsado por dos causas combinadas.
1) La capacidad del modelo para crear texto con muy pocos artefactos detectables. Dado que el objetivo de estos sistemas es generar texto similar al humano, menos artefactos que sean más difíciles de detectar significa que el modelo se acerca a ese objetivo.
2) La capacidad inherente del modelo para autodetectar puede verse afectada por la arquitectura utilizada, el aviso y el ajuste aplicado “.
Los investigadores hicieron esta observación adicional sobre Claude:
“Solo Claude no puede ser detectado. Esto indica que Claude podría producir menos artefactos detectables que los otros modelos.
La tasa de detección de la autodetección sigue la misma tendencia, lo que indica que Claude crea texto con menos artefactos, lo que hace que sea más difícil distinguirlo de la escritura humana”.
Pero, por supuesto, lo extraño es que Claude tampoco pudo autodetectar su propio contenido original, a diferencia de los otros dos modelos que tuvieron una mayor tasa de éxito.
Los investigadores indicaron que la autodetección sigue siendo un área interesante para la investigación continua y proponen que estudios adicionales puedan centrarse en conjuntos de datos más grandes con una mayor diversidad de texto generado por IA, probar modelos de IA adicionales, una comparación con más detectores de IA y, por último, sugirieron estudiar cómo la ingeniería rápida puede influir en los niveles de detección.
Lea el artículo de investigación original y el resumen aquí:
Autodetección de contenido de IA para modelos de lenguaje grande basados en transformadores
Imagen destacada de Shutterstock/SObeR 9426