Muchos conocen el popular método de Cadena de Pensamientos (CoT) para activar la IA generativa con el fin de obtener respuestas mejores y más sofisticadas. Investigadores de Google DeepMind y la Universidad de Princeton desarrollaron una estrategia de indicaciones mejorada llamada Árbol de pensamientos (ToT) que lleva las indicaciones a un nivel más alto de resultados, desbloqueando métodos de razonamiento más sofisticados y mejores resultados.
Los investigadores explican:
“Mostramos cómo la búsqueda deliberada en árboles de pensamientos (ToT) produce mejores resultados y, lo que es más importante, nuevas formas interesantes y prometedoras de utilizar modelos de lenguaje para resolver problemas que requieren búsqueda o planificación”.
Los investigadores comparan tres tipos de indicaciones
El artículo de investigación compara la ToT con otras tres estrategias de estímulo.
1. Solicitud de entrada-salida (IO)
Básicamente, se trata de darle al modelo de lenguaje un problema que resolver y obtener la respuesta.
Un ejemplo basado en el resumen de texto es:
Mensaje de entrada: resuma el siguiente artículo.
Mensaje de salida: resumen basado en el artículo que se ingresó
2. Cadena de pensamientos que incitan
Esta forma de indicación es donde se guía a un modelo de lenguaje para generar respuestas coherentes y conectadas animándolo a seguir una secuencia lógica de pensamientos. Las indicaciones de cadena de pensamiento (CoT) son una forma de guiar un modelo de lenguaje a través de los pasos intermedios de razonamiento para resolver problemas.
Ejemplo de cadena de pensamiento que incita:
Pregunta: Roger tiene 5 pelotas de tenis. Compra 2 latas más de pelotas de tenis. Cada lata tiene 3 pelotas de tenis. ¿Cuántas pelotas de tenis tiene ahora?
Razonamiento: Roger empezó con 5 bolas. 2 latas de 3 pelotas de tenis cada una son 6 pelotas de tenis. 5 + 6 = 11. La respuesta: 11Pregunta: La cafetería tenía 23 manzanas. Si usaron 20 para preparar el almuerzo y compraron 6 más, ¿cuántas manzanas tienen?
3. Autoconsistencia con CoT
En términos simples, esta es una estrategia de incitación que consiste en incitar al modelo de lenguaje varias veces y luego elegir la respuesta a la que se llega con mayor frecuencia.
El artículo de investigación sobre la coherencia de Sel con CoT de marzo de 2023 lo explica:
“Primero toma muestras de un conjunto diverso de caminos de razonamiento en lugar de tomar solo el más codicioso, y luego selecciona la respuesta más consistente marginando los caminos de razonamiento muestreados. La autoconsistencia aprovecha la intuición de que un problema de razonamiento complejo generalmente admite múltiples formas diferentes de pensar que conducen a una única respuesta correcta”.
Modelos de procesos duales en la cognición humana
Los investigadores se inspiran en una teoría sobre cómo el pensamiento de decisión humano llama modelos de proceso dual en la cognición humana o teoría de proceso dual.
Los modelos de proceso dual en la cognición humana proponen que los humanos participan en dos tipos de procesos de toma de decisiones, uno intuitivo y rápido y otro más deliberativo y más lento.
- Rápido, Automático, Inconsciente
Este modo implica un pensamiento rápido, automático e inconsciente que a menudo se dice que se basa en la intuición. - Lento, Deliberado, Consciente
Este modo de toma de decisiones es un proceso de pensamiento lento, deliberado y consciente que implica una cuidadosa consideración, análisis y razonamiento paso a paso antes de tomar una decisión final.
El marco de indicaciones del Árbol de pensamientos (ToT) utiliza una estructura de árbol de cada paso del proceso de razonamiento que permite que el modelo de lenguaje evalúe cada paso del razonamiento y decida si ese paso del razonamiento es viable o no y conduce a una respuesta. Si el modelo de lenguaje decide que el camino del razonamiento no conducirá a una respuesta, la estrategia de incitación requiere que abandone ese camino (o rama) y siga avanzando con otra rama, hasta llegar al resultado final.
Árbol de pensamientos (ToT) versus cadena de pensamientos (CoT)
La diferencia entre ToT y CoT es que ToT tiene un marco de árbol y ramas para el proceso de razonamiento, mientras que CoT toma un camino más lineal.
En términos simples, CoT le dice al modelo de lenguaje que siga una serie de pasos para realizar una tarea, que se asemeja al modelo cognitivo del sistema 1 que es rápido y automático.
ToT se parece al modelo cognitivo del sistema 2 que es más deliberativo y le dice al modelo de lenguaje que siga una serie de pasos pero que también tenga un evaluador que intervenga y revise cada paso y si es un buen paso para continuar y si no, parar y seguir. otro camino.
Ilustraciones de estrategias de estímulo
El artículo de investigación publicó ilustraciones esquemáticas de cada estrategia de motivación, con cuadros rectangulares que representan un “pensamiento” dentro de cada paso para completar la tarea y resolver un problema.
La siguiente es una captura de pantalla de cómo se ve el proceso de razonamiento de ToT:
Ilustración de una cadena de indicaciones de pensamiento
Esta es la ilustración esquemática de CoT, que muestra cómo el proceso de pensamiento es más bien un camino recto (lineal):
El artículo de investigación explica:
“La investigación sobre la resolución de problemas humanos sugiere que las personas buscan a través de un espacio de problemas combinatorios: un árbol donde los nodos representan soluciones parciales y las ramas corresponden a operadores.
que los modifican. La rama a tomar está determinada por heurísticas que ayudan a navegar por el espacio del problema y guían a quien soluciona el problema hacia una solución.Esta perspectiva destaca dos deficiencias clave de los enfoques existentes que utilizan LM para resolver problemas generales:
1) Localmente, no exploran diferentes continuaciones dentro de un proceso de pensamiento: las ramas del árbol.
2) Globalmente, no incorporan ningún tipo de planificación, anticipación o retroceso para ayudar a evaluar estas diferentes opciones: el tipo de búsqueda guiada por heurística que parece característica de la resolución de problemas humanos.
Para abordar estas deficiencias, presentamos el Árbol de los Pensamientos (ToT), un paradigma que permite a los LM explorar múltiples caminos de razonamiento sobre los pensamientos…”
Probado con un juego matemático
Los investigadores probaron el método utilizando un juego de matemáticas del Juego de 24. Game of 24 es un juego de cartas matemático donde los jugadores usan cuatro números (que solo se pueden usar una vez) de un juego de cartas para combinarlos usando aritmética básica (suma, resta, multiplicación y división) para lograr un resultado de 24.
Resultados y conclusiones
Los investigadores probaron la estrategia de estimulación ToT frente a los otros tres enfoques y descubrieron que producía resultados consistentemente mejores.
Sin embargo, también señalan que es posible que ToT no sea necesario para completar tareas en las que GPT-4 ya hace bien.
Concluyen:
“El “Sistema 1” asociativo de los LM puede verse aumentado beneficiosamente por un “Sistema 2” basado en la búsqueda en un árbol de posibles caminos hacia la solución de un problema.
El marco del Árbol de los Pensamientos proporciona una forma de traducir los conocimientos clásicos sobre la resolución de problemas en métodos viables para los LM contemporáneos.
Al mismo tiempo, los LM abordan una debilidad de estos métodos clásicos, proporcionando una manera de resolver problemas complejos que no se formalizan fácilmente, como la creatividad.
escribiendo.Consideramos que esta intersección de los LM con los enfoques clásicos de la IA es una dirección interesante”.
Lea el artículo de investigación original:
Árbol de pensamientos: resolución deliberada de problemas con modelos de lenguaje grandes