Microsoft publicó un estudio de investigación que demuestra cómo las técnicas de indicaciones avanzadas pueden hacer que una IA generalista como GPT-4 funcione tan bien o mejor que una IA especializada entrenada para un tema específico. Los investigadores descubrieron que podían hacer que GPT-4 superara al modelo Med-PaLM 2 especialmente entrenado de Google que fue entrenado explícitamente en ese tema.
Técnicas avanzadas de indicaciones
Los resultados de esta investigación confirman los conocimientos que los usuarios avanzados de IA generativa han descubierto y están utilizando para generar imágenes o textos sorprendentes.
Las indicaciones avanzadas se conocen generalmente como ingeniería de indicaciones. Si bien algunos pueden burlarse de que la estimulación puede ser tan profunda como para justificar el nombre de ingeniería, el hecho es que las técnicas de estimulación avanzadas se basan en principios sólidos y los resultados de este estudio de investigación subrayan este hecho.
Por ejemplo, una técnica utilizada por los investigadores, el razonamiento en cadena de pensamiento (CoT), es una que muchos usuarios avanzados de IA generativa han descubierto y utilizado de manera productiva.
Las indicaciones en cadena de pensamiento son un método descrito por Google alrededor de mayo de 2022 que permite a la IA dividir una tarea en pasos basándose en el razonamiento.
Escribí sobre el artículo de investigación de Google sobre el razonamiento en cadena de pensamiento que permitía a una IA dividir una tarea en pasos, dándole la capacidad de resolver cualquier tipo de problemas planteados (incluidos los matemáticos) y lograr un razonamiento de sentido común.
Estos principios eventualmente se abrieron camino en cómo los usuarios de IA generativa obtuvieron resultados de alta calidad, ya sea creando imágenes o texto.
Peter Hatherley (perfil de Facebook), fundador de las suites de aplicaciones web Authored Intelligence, elogió la utilidad de la cadena de pensamiento:
“La cadena de pensamiento toma tus ideas iniciales y las convierte en algo extraordinario”.
Peter también señaló que incorpora CoT en sus GPT personalizados para potenciarlos.
La cadena de pensamiento (CoT) evolucionó a partir del descubrimiento de que pedirle algo a una IA generativa no es suficiente porque el resultado siempre será inferior al ideal.
Lo que hacen las indicaciones de CoT es describir los pasos que la IA generativa debe seguir para obtener el resultado deseado.
El gran avance de la investigación es que el uso del razonamiento CoT más otras dos técnicas les permitió alcanzar niveles sorprendentes de calidad más allá de lo que se sabía que era posible.
Esta técnica se llama Medprompt.
Medprompt demuestra el valor de las técnicas de indicación avanzadas
Los investigadores probaron su técnica con cuatro modelos de cimentación diferentes:
- Flan-PaLM 540B
- Med-PaLM 2
- GPT-4
- Aviso médico GPT-4
Utilizaron conjuntos de datos de referencia creados para probar el conocimiento médico. Algunas de estas pruebas eran de razonamiento, otras eran preguntas de exámenes de la junta médica.
Cuatro conjuntos de datos de evaluación comparativa médica
- MedQA (PDF)
Conjunto de datos de respuesta a preguntas de opción múltiple - PubMedQA (PDF)
Sí/No/Quizás Conjunto de datos de control de calidad - MedMCQA (PDF)
Conjunto de datos de múltiples sujetos y opciones múltiples - MMLU (Comprensión masiva del lenguaje multitarea) (PDF)
Este conjunto de datos consta de 57 tareas en múltiples dominios contenidos en los temas de Humanidades, Ciencias Sociales y STEM (ciencia, tecnología, ingeniería y matemáticas).
Los investigadores solo utilizaron tareas relacionadas con la medicina, como conocimiento clínico, genética médica, anatomía, medicina profesional, biología universitaria y medicina universitaria.
GPT-4 que utiliza Medprompt superó absolutamente a todos los competidores con los que se probó en los cuatro conjuntos de datos relacionados con la medicina.
La tabla muestra cómo Medprompt superó a otros modelos de fundaciones
Por qué es importante Medprompt
Los investigadores descubrieron que el uso del razonamiento CoT, junto con otras estrategias de estimulación, podría hacer que un modelo básico general como GPT-4 supere a los modelos especializados que fueron entrenados en un solo dominio (área de conocimiento).
Lo que hace que esta investigación sea especialmente relevante para todos los que utilizan la IA generativa es que la técnica MedPrompt se puede utilizar para obtener resultados de alta calidad en cualquier área de conocimiento, no solo en el ámbito médico.
Las implicaciones de este avance es que puede que no sea necesario gastar grandes cantidades de recursos en capacitar a un modelo de lenguaje grande especializado para que sea un experto en un área específica.
Sólo es necesario aplicar los principios de Medprompt para obtener resultados de IA generativa excepcionales.
Tres estrategias de estímulo
Los investigadores describieron tres estrategias de estímulo:
- Selección dinámica de pocos disparos
- Cadena de pensamiento autogenerada
- Conjunto aleatorio elegido
Selección dinámica de pocos disparos
La selección dinámica de pocos disparos permite que el modelo de IA seleccione ejemplos relevantes durante el entrenamiento.
El aprendizaje en pocas oportunidades es una forma para que el modelo fundamental aprenda y se adapte a tareas específicas con solo unos pocos ejemplos.
En este método, los modelos aprenden de un conjunto relativamente pequeño de ejemplos (a diferencia de miles de millones de ejemplos), con el objetivo de que los ejemplos sean representativos de una amplia gama de preguntas relevantes para el dominio del conocimiento.
Tradicionalmente, los expertos crean manualmente estos ejemplos, pero es un desafío garantizar que cubran todas las posibilidades. Una alternativa, llamada aprendizaje dinámico de pocos intentos, utiliza ejemplos que son similares a las tareas que el modelo necesita resolver, ejemplos que se eligen de un conjunto de datos de entrenamiento más grande.
En la técnica Medprompt, los investigadores seleccionaron ejemplos de entrenamiento que son semánticamente similares a un caso de prueba determinado. Este enfoque dinámico es más eficiente que los métodos tradicionales, ya que aprovecha los datos de entrenamiento existentes sin requerir actualizaciones extensas del modelo.
Cadena de pensamiento autogenerada
La técnica de Cadena de pensamiento autogenerada utiliza declaraciones en lenguaje natural para guiar el modelo de IA con una serie de pasos de razonamiento, automatizando la creación de ejemplos de cadena de pensamiento, lo que lo libera de depender de expertos humanos.
El artículo de investigación explica:
“La cadena de pensamiento (CoT) utiliza declaraciones en lenguaje natural, como “Pensemos paso a paso”, para alentar explícitamente al modelo a generar una serie de pasos de razonamiento intermedios.
Se ha descubierto que este enfoque mejora significativamente la capacidad de los modelos básicos para realizar razonamientos complejos.
La mayoría de los enfoques de la cadena de pensamiento se centran en el uso de expertos para componer manualmente ejemplos de pocas tomas con cadenas de pensamiento como motivación. En lugar de depender de expertos humanos, buscamos un mecanismo para automatizar la creación de ejemplos de cadenas de pensamiento.
Descubrimos que simplemente podíamos pedirle a GPT-4 que generara una cadena de pensamiento para los ejemplos de capacitación utilizando el siguiente mensaje:
Self-generated Chain-of-thought Template## Question: {{question}} {{answer_choices}} ## Answer model generated chain of thought explanation Therefore, the answer is [final model answer (e.g. A,B,C,D)]"
Los investigadores se dieron cuenta de que este método podría producir resultados erróneos (conocidos como resultados alucinados). Resolvieron este problema pidiéndole a GPT-4 que realizara un paso de verificación adicional.
Así lo hicieron los investigadores:
“Un desafío clave con este enfoque es que los fundamentos de CoT autogenerados tienen un riesgo implícito de incluir cadenas de razonamiento alucinadas o incorrectas.
Mitigamos esta preocupación haciendo que GPT-4 genere tanto una justificación como una estimación de la respuesta más probable a seguir de esa cadena de razonamiento.
Si esta respuesta no coincide con la etiqueta de verdad fundamental, descartamos la muestra por completo, bajo el supuesto de que no podemos confiar en el razonamiento.
Si bien el razonamiento alucinado o incorrecto aún puede producir la respuesta final correcta (es decir, falsos positivos), descubrimos que este simple paso de verificación de etiquetas actúa como un filtro eficaz para los falsos negativos”.
Conjunto de mezcla aleatoria elegido
Un problema con la respuesta a preguntas de opción múltiple es que los modelos básicos (GPT-4 es un modelo fundamental) pueden exhibir un sesgo de posición.
Tradicionalmente, el sesgo de posición es una tendencia que tienen los humanos a seleccionar las mejores opciones en una lista de opciones.
Por ejemplo, las investigaciones han descubierto que si a los usuarios se les presenta una lista de resultados de búsqueda, la mayoría de las personas tienden a seleccionar entre los resultados principales, incluso si los resultados son incorrectos. Sorprendentemente, los modelos de cimentación exhiben el mismo comportamiento.
Los investigadores crearon una técnica para combatir el sesgo de posición cuando el modelo básico se enfrenta a responder una pregunta de opción múltiple.
Este enfoque aumenta la diversidad de respuestas al derrotar lo que se llama “decodificación codiciosa”, que es el comportamiento de modelos básicos como GPT-4 de elegir la palabra o frase más probable en una serie de palabras o frases.
En la decodificación codiciosa, en cada paso de generar una secuencia de palabras (o en el contexto de una imagen, píxeles), el modelo elige la palabra/frase/píxel más probable (también conocido como token) en función de su contexto actual.
El modelo toma una decisión en cada paso sin considerar el impacto en la secuencia general.
Choice Shuffling Ensemble resuelve dos problemas:
- Sesgo de posición
- Decodificación codiciosa
Así se explica:
“Para reducir este sesgo, proponemos barajar las opciones y luego verificar la coherencia de las respuestas para los diferentes órdenes de clasificación de la opción múltiple.
Como resultado, realizamos una selección aleatoria de opciones y sugerencias de autoconsistencia. La autoconsistencia reemplaza la ingenua decodificación de un solo camino o la codiciosa decodificación con un conjunto diverso de caminos de razonamiento cuando se le solicita varias veces a una temperatura > 0, una configuración que introduce un grado de aleatoriedad en generaciones.
Con la mezcla de opciones, mezclamos el orden relativo de las opciones de respuesta antes de generar cada ruta de razonamiento. Luego seleccionamos la respuesta más consistente, es decir, la que es menos sensible a la mezcla de opciones.
La combinación de opciones tiene el beneficio adicional de aumentar la diversidad de cada ruta de razonamiento más allá del muestreo de temperatura, mejorando así también la calidad del conjunto final.
También aplicamos esta técnica para generar pasos CoT intermedios para ejemplos de capacitación. Para cada ejemplo, mezclamos las opciones varias veces y generamos un CoT para cada variante. Sólo conservamos los ejemplos con la respuesta correcta”.
Por lo tanto, al barajar opciones y juzgar la coherencia de las respuestas, este método no sólo reduce el sesgo sino que también contribuye a un rendimiento de última generación en conjuntos de datos de referencia, superando a modelos sofisticados especialmente entrenados como Med-PaLM 2.
Éxito entre dominios mediante ingeniería rápida
Por último, lo que hace que este trabajo de investigación sea increíble es que los resultados son aplicables no sólo al ámbito médico, sino que la técnica se puede utilizar en cualquier tipo de contexto de conocimiento.
Los investigadores escriben:
“Observamos que, si bien Medprompt logra un rendimiento récord en conjuntos de datos de referencia médica, el algoritmo es de propósito general y no se limita al ámbito médico ni a la respuesta a preguntas de opción múltiple.
Creemos que el paradigma general de combinar una selección inteligente de ejemplos de pocos intentos, una cadena de pasos de razonamiento de pensamiento autogenerados y un conjunto de votos mayoritarios se puede aplicar ampliamente a otros dominios de problemas, incluidas las tareas de resolución de problemas menos restringidas”.
Este es un logro importante porque significa que los resultados sobresalientes se pueden utilizar en prácticamente cualquier tema sin tener que pasar por el gasto y el tiempo de entrenar intensamente un modelo en dominios de conocimiento específicos.
Qué significa Medprompt para la IA generativa
Medprompt ha revelado una nueva forma de obtener capacidades mejoradas del modelo, haciendo que la IA generativa sea más adaptable y versátil en una variedad de dominios de conocimiento con mucho menos entrenamiento y esfuerzo de lo que se pensaba anteriormente.
Las implicaciones para el futuro de la IA generativa son profundas, sin mencionar cómo esto puede influir en la habilidad de la ingeniería rápida.
Lea el nuevo artículo de investigación:
¿Pueden los modelos de fundación generalistas superar a la optimización para fines especiales? Estudio de caso en medicina (PDF)
Imagen destacada de Shutterstock/Asier Romero