Google ha publicado un artículo de investigación sobre una nueva tecnología llamada Infini-attention que le permite procesar grandes cantidades de datos con “contextos infinitamente largos” y al mismo tiempo es capaz de insertarse fácilmente en otros modelos para mejorar enormemente sus capacidades.
Esa última parte debería ser de interés para quienes estén interesados en el algoritmo de Google. Infini-attention es plug-and-play, lo que significa que es relativamente fácil de insertar en otros modelos, incluidos los que utiliza el algoritmo central de Google. La parte sobre “contextos infinitamente largos” puede tener implicaciones sobre cómo se pueden actualizar algunos de los sistemas de búsqueda de Google.
El nombre del trabajo de investigación es: No deje ningún contexto atrás: transformadores de contexto infinitos eficientes con atención infinita
La memoria es computacionalmente costosa para los LLM
Los modelos de lenguajes grandes (LLM) tienen limitaciones en cuanto a la cantidad de datos que pueden procesar a la vez porque la complejidad computacional y el uso de la memoria pueden aumentar significativamente. Infini-Attention le brinda al LLM la capacidad de manejar contextos más largos mientras mantiene la memoria baja y la potencia de procesamiento necesarias.
El artículo de investigación explica:
“La memoria es la piedra angular de la inteligencia, ya que permite realizar cálculos eficientes adaptados a contextos específicos. Sin embargo, los Transformers… y los LLM basados en Transformer… tienen una memoria dependiente del contexto restringida, debido a la naturaleza del mecanismo de atención.
De hecho, escalar los LLM a secuencias más largas (es decir, 1 millón de tokens) es un desafío con las arquitecturas estándar de Transformer y servir modelos de contexto cada vez más largos se vuelve costoso desde el punto de vista financiero”.
Y en otra parte el artículo de investigación explica:
“Los modelos de transformadores actuales tienen una capacidad limitada para procesar secuencias largas debido a los aumentos cuadráticos en los costos computacionales y de memoria. Infini-attention tiene como objetivo abordar este problema de escalabilidad”.
Los investigadores plantearon la hipótesis de que la atención Infini puede escalar para manejar secuencias extremadamente largas con Transformers sin los aumentos habituales en los recursos computacionales y de memoria.
Tres características importantes
Infini-attention de Google resuelve las deficiencias de los modelos de transformadores al incorporar tres características que permiten a los LLM basados en transformadores manejar secuencias más largas sin problemas de memoria y les permiten usar el contexto de datos anteriores en la secuencia y relacionarlos con el contexto más alejado hacia el final de la secuencia.
Las características de Infini-Attention
- Sistema de memoria compresiva
- Atención lineal a largo plazo
- Atención local enmascarada
Sistema de memoria compresiva
Infini-attention utiliza lo que se llama un sistema de memoria compresivo. A medida que se ingresan más datos (como parte de una larga secuencia de datos), el sistema de memoria compresiva comprime parte de la información más antigua para reducir la cantidad de espacio necesario para almacenar los datos.
Atención lineal a largo plazo
Infini-attention también utiliza lo que se llama “mecanismos de atención lineal a largo plazo” que permiten al LLM procesar datos que existen anteriormente en la secuencia.
Esto es importante para tareas donde el contexto existe en un plano más amplio de datos. Es como poder discutir un libro completo dentro del contexto de todos los capítulos y explicar cómo el primer capítulo se relaciona con otro capítulo en el medio del libro.
Atención local enmascarada
Además de la atención a largo plazo, Infini-attention también utiliza la llamada atención local enmascarada. Este tipo de atención procesa partes cercanas (localizadas) de los datos de entrada, lo que resulta útil para respuestas que dependen de partes más cercanas de los datos.
Combinar la atención local y a largo plazo ayuda a resolver el problema de que los transformadores se limiten a la cantidad de datos de entrada que pueden recordar y utilizar para el contexto.
Los investigadores explican:
“La atención Infini incorpora una memoria compresiva en el mecanismo de atención básico y construye tanto mecanismos de atención local enmascarada como de atención lineal a largo plazo en un solo bloque Transformer”.
Resultados de experimentos y pruebas.
Infini-attention se probó con modelos regulares para compararlos en múltiples puntos de referencia que involucran secuencias de entrada largas, como modelado de lenguaje de contexto largo, recuperación de claves de acceso y tareas de resumen de libros. La recuperación de claves de acceso es una prueba en la que el modelo de lenguaje tiene que recuperar datos específicos dentro de una secuencia de texto extremadamente larga.
Lista de las tres pruebas:
- Modelado de lenguaje de contexto largo
- Prueba de clave de acceso
- Resumen del libro
Modelado del lenguaje de contexto largo y puntuación de perplejidad
Los investigadores escriben que los modelos con atención Infini superaron a los modelos de referencia y que aumentar la duración de la secuencia de entrenamiento trajo mejoras aún mayores en el Puntuación de perplejidad. La puntuación de perplejidad es una métrica que mide el rendimiento del modelo de lenguaje; puntuaciones más bajas indican un mejor rendimiento.
Los investigadores compartieron sus hallazgos:
“Infini-Transformer supera las líneas base de Transformer-XL… y Memorizing Transformers mientras mantiene 114 veces menos parámetros de memoria que el modelo Memorizing Transformer con una memoria KV basada en recuperación vectorial con una longitud de 65K en su novena capa. Infini-Transformer supera a los transformadores de memorización con una longitud de memoria de 65K y logra una relación de compresión de 114x.
Aumentamos aún más la longitud de la secuencia de entrenamiento de 32K a 100K y entrenamos los modelos en el conjunto de datos Arxiv-math. El entrenamiento de 100K redujo aún más la puntuación de perplejidad a 2,21 y 2,20 para los modelos Linear y Linear + Delta”.
Prueba de clave de acceso
La prueba de clave de acceso consiste en ocultar un número aleatorio dentro de una secuencia de texto larga y la tarea es que el modelo debe recuperar el texto oculto. La clave de acceso está oculta cerca del principio, en la mitad o al final del texto extenso. El modelo pudo resolver la prueba de clave de acceso hasta una longitud de 1 millón.
“Un 1B LLM escala naturalmente a una longitud de secuencia de 1M y resuelve la tarea de recuperación de la clave de acceso cuando se le inyecta atención Infini. Infini-Transformers resolvió la tarea de la clave de acceso con una longitud de contexto de hasta 1 M cuando se ajustó en entradas de 5 K de longitud. Informamos la precisión de recuperación a nivel de token para claves de acceso ocultas en una parte diferente (inicio/medio/final) de entradas largas con longitudes de 32K a 1M”.
Prueba de resumen del libro
Infini-attention también se destacó en la prueba de resumen del libro al superar los principales puntos de referencia y alcanzar nuevos niveles de rendimiento de última generación (SOTA).
Los resultados se describen:
“Finalmente, mostramos que un modelo 8B con atención Infini alcanza un nuevo resultado SOTA en una tarea de resumen de un libro de 500 000 de extensión después de un entrenamiento previo continuo y un ajuste fino de la tarea.
…Ampliamos aún más nuestro enfoque mediante el entrenamiento previo continuo de un modelo 8B LLM con una longitud de entrada de 8K para pasos de 30K. Luego afinamos una tarea de resumen de libros, BookSum (Kry´sci´nski et al., 2021), donde el objetivo es generar un resumen del texto completo de un libro.
Nuestro modelo supera los mejores resultados anteriores y logra un nuevo SOTA en BookSum al procesar todo el texto del libro. …Existe una tendencia clara que muestra que al proporcionar más texto como entrada de libros, nuestros Infini-Transformers mejoran su métrica de rendimiento de resumen”.
Implicaciones de la atención infinita para el SEO
Infini-attention es un gran avance en el modelado de atención de largo y corto alcance con mayor eficiencia que los modelos anteriores sin Infini-attention. También apoya “Entrenamiento previo continuo plug-and-play y adaptación al contexto a largo plazo mediante diseño.”lo que significa que se puede integrar fácilmente en los modelos existentes.
Por último, el “formación previa continua y adaptación al contexto a largo plazo” lo hace ideal para escenarios donde hay un flujo de datos nuevos que es necesario agregar constantemente para entrenar un modelo. Esa última parte es muy interesante porque puede resultar útil para aplicaciones en la parte posterior de los sistemas de búsqueda de Google, particularmente cuando es necesario poder analizar largas secuencias de información y comprender la relevancia de una parte cerca del comienzo de la secuencia. a otra parte que está más cerca del final.
El hecho de que los investigadores afirmen “entradas infinitamente largas” es sorprendente, pero lo que es realmente importante para el SEO es que este mecanismo es la capacidad de manejar largas secuencias de datos para “no dejar ningún contexto atrás”, así como el aspecto plug and play de él. Da una idea de cómo se podrían mejorar algunos de los sistemas de Google si Google adaptara la atención Infini a los sistemas dentro de su algoritmo central.
Lea el trabajo de investigación:
No deje ningún contexto atrás: transformadores de contexto infinitos eficientes con atención infinita
Imagen destacada de Shutterstock/JHVEPhoto