En un salto significativo en el desarrollo de modelos de lenguaje grande (LLM), Mistral AI anunció el lanzamiento de su modelo más nuevo, Mixtral-8x7B.
imán:?xt=urn:btih:5546272da9065eddeb6fcd7ffddeef5b75be79a7&dn=mixtral-8x7b-32kseqlen&tr=udp%3A%2F%https://t.co/uV4WVdtpwZ%3A6969%2Fannounce&tr=http%3A%2F%https://t.co /g0m9cEUz0T%3A80%2FAnunciar
LANZAMIENTO a6bbd9affe0c2725c1b7410d66833e24
– Mistral AI (@MistralAI) 8 de diciembre de 2023
¿Qué es Mixtral-8x7B?
Mixtral-8x7B de Mistral AI es un modelo de Mezcla de Expertos (MoE) diseñado para mejorar la forma en que las máquinas entienden y generan texto.
Imagínelo como un equipo de expertos especializados, cada uno de ellos con habilidades en un área diferente, que trabajan juntos para manejar diversos tipos de información y tareas.
Según se informa, un informe publicado en junio arrojó luz sobre las complejidades del GPT-4 de OpenAI, destacando que emplea un enfoque similar al MoE, utilizando 16 expertos, cada uno con alrededor de 111 mil millones de parámetros, y enruta dos expertos por paso directo para optimizar costos.
Este enfoque permite que el modelo administre datos diversos y complejos de manera eficiente, lo que lo hace útil para crear contenido, entablar conversaciones o traducir idiomas.
Métricas de rendimiento del Mixtral-8x7B
El nuevo modelo de Mistral AI, Mixtral-8x7B, representa un importante paso adelante con respecto a su modelo anterior, Mistral-7B-v0.1.
Está diseñado para comprender mejor y crear texto, una característica clave para cualquiera que desee utilizar la IA para tareas de escritura o comunicación.
Nuevo LLM de pesos abiertos de @MistralAI
parámetros.json:
– oculto_dim / tenue = 14336/4096 => 3.5X expansión MLP
– n_heads / n_kv_heads = 32/8 => multiconsulta 4X
– “moe” => mezcla de expertos 8X top 2 👀Código probable relacionado: https://t.co/yrqRtYhxKR
Curiosamente ausente: un ensayo excesivo… https://t.co/8PvqdHz1bR pic.twitter.com/xMDRj3WAVh
—Andrej Karpathy (@karpathy) 8 de diciembre de 2023
Esta última incorporación a la familia Mistral promete revolucionar el panorama de la IA con sus métricas de rendimiento mejoradas, según lo compartido por OpenCompass.
Lo que hace que Mixtral-8x7B se destaque no es solo su mejora con respecto a la versión anterior de Mistral AI, sino la forma en que se compara con modelos como Llama2-70B y Qwen-72B.
Es como tener un asistente que puede comprender ideas complejas y expresarlas con claridad.
Una de las fortalezas clave del Mixtral-8x7B es su capacidad para manejar tareas especializadas.
Por ejemplo, tuvo un desempeño excepcionalmente bueno en pruebas específicas diseñadas para evaluar modelos de IA, lo que indica que es bueno en la comprensión y generación de textos generales y sobresale en áreas más específicas.
Esto la convierte en una herramienta valiosa para los profesionales del marketing y los expertos en SEO que necesitan una IA que pueda adaptarse a diferentes contenidos y requisitos técnicos.
La capacidad del Mixtral-8x7B para abordar problemas matemáticos y de codificación complejos también sugiere que puede ser un aliado útil para quienes trabajan en aspectos más técnicos de SEO, donde comprender y resolver desafíos algorítmicos son cruciales.
Este nuevo modelo podría convertirse en un socio versátil e inteligente para una amplia gama de necesidades estratégicas y de contenido digital.
Cómo probar Mixtral-8x7B: 4 demostraciones
Puede experimentar con el nuevo modelo de Mistral AI, Mixtral-8x7B, para ver cómo responde a las consultas y cómo se desempeña en comparación con otros modelos de código abierto y el GPT-4 de OpenAI.
Tenga en cuenta que, como todo el contenido de IA generativa, las plataformas que ejecutan este nuevo modelo pueden producir información inexacta o resultados no deseados.
Los comentarios de los usuarios sobre nuevos modelos como este ayudarán a empresas como Mistral AI a mejorar versiones y modelos futuros.
1. Zona de juegos de Perplexity Labs
En Perplexity Labs, puede probar Mixtral-8x7B junto con Llama 2 de Meta AI, Mistral-7b y los nuevos LLM en línea de Perplexity.
En este ejemplo, pregunto sobre el modelo en sí y observo que se agregan nuevas instrucciones después de la respuesta inicial para ampliar el contenido generado sobre mi consulta.
Si bien la respuesta parece correcta, comienza a repetirse.
El modelo proporcionó una respuesta de más de 600 palabras a la pregunta “¿Qué es SEO?”
Nuevamente, aparecen instrucciones adicionales como “encabezados” para aparentemente garantizar una respuesta completa.
2. Poe
Poe aloja bots para LLM populares, incluidos GPT-4 y DALL·E 3 de OpenAI, Llama 2 y Code Llama de Meta AI, PaLM 2 de Google, Claude-instant y Claude 2 de Anthropic y StableDiffusionXL.
Estos bots cubren un amplio espectro de capacidades, incluida la generación de texto, imágenes y código.
El bot Mixtral-8x7B-Chat es operado por Fireworks AI.
Vale la pena señalar que la página de Fireworks especifica que es una “implementación no oficial” que fue ajustada para el chat.
Cuando se le preguntó cuáles son los mejores vínculos de retroceso para SEO, proporcionó una respuesta válida.
Compare esto con la respuesta ofrecida por Google Bard.
3. Vercel
Vercel ofrece una demostración de Mixtral-8x7B que permite a los usuarios comparar respuestas de modelos populares Anthropic, Cohere, Meta AI y OpenAI.
Ofrece una perspectiva interesante sobre cómo cada modelo interpreta y responde a las preguntas de los usuarios.
Como muchos LLM, ocasionalmente tiene alucinaciones.
4. Replicar
La demostración mixtral-8x7b-32 en Replicate se basa en este código fuente. También se señala en el archivo README que “la inferencia es bastante ineficiente”.
En el ejemplo anterior, Mixtral-8x7B se describe a sí mismo como un juego.
Conclusión
La última versión de Mistral AI establece un nuevo punto de referencia en el campo de la IA, ofreciendo rendimiento y versatilidad mejorados. Pero como muchos LLM, puede proporcionar respuestas imprecisas e inesperadas.
A medida que la IA continúa evolucionando, modelos como el Mixtral-8x7B podrían convertirse en parte integral de la configuración de herramientas avanzadas de IA para marketing y negocios.
Imagen de portada: T. Schneider/Shutterstock