Noticias

El nuevo algoritmo de Muvera de Google mejora la búsqueda


Google anunció un nuevo algoritmo de recuperación de vectores múltiples llamado MUVERA que acelera la recuperación y el ranking, y mejora la precisión. El algoritmo se puede usar para sistemas de búsqueda, recomendación (como YouTube) y para el procesamiento del lenguaje natural (PNL).

Aunque el anuncio no dijo explícitamente que se está utilizando en la búsqueda, el documento de investigación deja en claro que Muvera permite una recuperación de vectores multivediario eficiente a escala web, particularmente al hacer que sea compatible con la infraestructura existente (a través de MIP) y reducir la latencia y la huella de la memoria.

Incrustación de vectores en la búsqueda

La incrustación vectorial es una representación multidimensional de las relaciones entre palabras, temas y frases. Permite a las máquinas comprender la similitud a través de patrones como palabras que aparecen dentro del mismo contexto o frases que significan las mismas cosas. Palabras y frases relacionadas con espacios de ocupación que están más cerca entre sí.

  • Las palabras “King Lear” estarán cerca de la frase “Tragedia de Shakespeare”.
  • Las palabras “A Midsummer Night’s Dream” ocuparán un espacio cerca de “Shakespeare Comedy”.
  • Tanto “King Lear” como “A Midsummer Night’s Dream” estarán ubicados en un espacio cercano a Shakespeare.

Las distancias entre palabras, frases y conceptos (técnicamente una medida de similitud matemática) definen cuán estrechamente relacionado está cada uno con el otro. Estos patrones permiten que una máquina infiera similitudes entre ellos.

Muvera resuelve un problema inherente de integridades de vectores múltiples

El documento de investigación de Múvera establece que las integridades neuronales han sido una característica de la recuperación de información durante diez años y cita el documento de investigación modelo de Vector de Colbert de 2020 como un avance, pero eso dice que sufre de un cuello de botella que lo hace menos que ideal.

“Recientemente, comenzando con el histórico papel Colbert, los modelos múltiples de vectores, que producen un conjunto de incrustaciones por punto de datos, han logrado un rendimiento notablemente superior para las tareas IR. Desafortunadamente, el uso de estos modelos para IR es computacionalmente costoso debido a la mayor complejidad de la recuperación y la puntuación de múltiples vectores”.

El anuncio de Google de Muvera se hace eco de esas desventajas:

“… Los avances recientes, particularmente la introducción de modelos de vectores múltiples como Colbert, han demostrado un rendimiento significativamente mejorado en las tareas IR. Si bien este enfoque múltiple aumenta la precisión y permite la recuperación de documentos más relevantes, introduce desafíos computacionales sustanciales.

¿Podría ser un sucesor de la tecnología de rango de Google?

La demanda antimonopolio del Departamento de Justicia de los Estados Unidos (DOJ) dio como resultado un testimonio que reveló que una de las señales utilizadas para crear las páginas de resultados del motor de búsqueda (SERPS) se llama Rankembed, que se describió así:

“Rankembed es un modelo de codificador dual que incrusta la consulta y el documento en el espacio de incrustación. La incrustación del espacio considera las propiedades semánticas de la consulta y el documento además de otras señales. La recuperación y la clasificación son entonces un producto de punto (medida de distancia en el espacio de incrustación) … extremadamente rápido; alta calidad en consultas comunes, pero pueden realizar malas consultas para colas …”

Muvera es un avance técnico que aborda el rendimiento y las limitaciones de escala de los sistemas de vectores múltiples, que son un paso más allá de los modelos de doble codificador (como Rankembed), proporcionando una mayor profundidad semántica y manejo del rendimiento de la consulta de cola.

El avance es una técnica llamada codificación dimensional fija (FDE), que divide el espacio de incrustación en secciones y combina los vectores que caen en cada sección para crear un vector único de longitud fija, lo que hace que sea más rápido buscar que comparar múltiples vectores. Esto permite que los modelos de vectores múltiples se usen de manera eficiente a escala, mejorando la velocidad de recuperación sin sacrificar la precisión que proviene de una representación semántica más rica.

Según el anuncio:

“A diferencia de las incrustaciones de un solo vector, los modelos de vectores múltiples representan cada punto de datos con un conjunto de incrustaciones y aprovechan funciones de similitud más sofisticadas que pueden capturar relaciones más ricas entre puntos de datos.

Si bien este enfoque de múltiples vectores aumenta la precisión y permite recuperar documentos más relevantes, introduce desafíos computacionales sustanciales. En particular, el mayor número de integridades y la complejidad de la puntuación de similitud de vectores múltiples hacen que la recuperación sea significativamente más costosa.

En ‘MUVERA: recuperación de vectores múltiples a través de codificaciones dimensionales fijas’, presentamos un nuevo algoritmo de recuperación de vectores múltiples diseñado para cerrar la brecha de eficiencia entre la recuperación de un solo y múltiples vectores.

… Este nuevo enfoque nos permite aprovechar los algoritmos MIPS altamente optimizados para recuperar un conjunto inicial de candidatos que luego se pueden volver a clasificar con la similitud exacta de múltiples vectores, lo que permite una recuperación multivectorial eficiente sin sacrificar la precisión ”.

Los modelos de múltiples vectores pueden proporcionar respuestas más precisas que los modelos de doble codificador, pero esta precisión tiene costo de las demandas de cómputo intensivas. Muvera resuelve los problemas de complejidad de los modelos de vectores múltiples, creando así una forma de lograr una mayor precisión de los enfoques de vectores múltiples sin las altas demandas informáticas.

¿Qué significa esto para SEO?

Muvera muestra cómo la clasificación de búsqueda moderna depende cada vez más de los juicios de similitud en lugar de las señales de palabras clave anticuadas en las que a menudo se centran las herramientas de SEO y los SEO. Los SEOS y los editores pueden desear cambiar su atención de la frase exacta que coincide con la alineación con el contexto general y la intención de la consulta. Por ejemplo, cuando alguien busca “Medio para hombres de las chaquetas de pana”, es más probable que un sistema que utiliza una recuperación similar a Muvera clasifica páginas que realmente ofrecen esos productos, no páginas que simplemente mencionan “chalecos de pana” e incluyan la palabra “medio” en un intento de igualar la consulta.

Lea el anuncio de Google:

MUVERA: Hacer una recuperación de vectores múltiples tan rápido como la búsqueda de un solo vector

Imagen destacada de Shutterstock/Bluestork

hola@juanrecio.com

Author

hola@juanrecio.com

"¡ALERTA! El Error Fatal que Está Saboteando tu Éxito (Y Cómo Solucionarlo) ⚠️"