En la conferencia de desarrolladores de Google I/O celebrada en mayo de 2023, el director ejecutivo, Sundar Pichai, anunció el próximo sistema de inteligencia artificial (IA) de la empresa, Gemini.
El modelo de lenguaje grande (LLM) está siendo desarrollado por la división Google DeepMind (Brain Team + DeepMind). Podría competir con sistemas de inteligencia artificial como ChatGPT de OpenAI y posiblemente superarlos.
Si bien los detalles siguen siendo escasos, esto es lo que podemos recopilar a partir de las últimas entrevistas e informes sobre Google Gemini.
Google Gemini será multimodal
Pichai afirmó que Gemini combina las fortalezas del sistema AlphaGo de DeepMind, conocido por dominar el complejo juego Go, con amplias capacidades de modelado de lenguaje.
Dijo que está diseñado desde cero para ser multimodal, integrando texto, imágenes y otros tipos de datos. Esto podría permitir habilidades conversacionales más naturales.
Pichai también insinuó capacidades futuras como la memoria y la planificación que podrían permitir tareas que requieran razonamiento.
Gemini puede utilizar herramientas y API
En una actualización de su biografía profesional durante el verano, el científico jefe de Google, Jeffrey Dean, dijo que Gemini es uno de los “modelos multimodales de próxima generación” que codirige.
Dijo que utilizará Pathways, la nueva infraestructura de inteligencia artificial de Google, para permitir ampliar la capacitación en diversos conjuntos de datos.
Esto sugiere que Gemini es potencialmente el modelo de lenguaje más grande creado hasta la fecha, probablemente superando el tamaño de GPT-3 con más de 175 mil millones de parámetros.
Vendrá con varios tamaños y capacidades
Detalles adicionales vinieron de Demis Hassabis, director ejecutivo de DeepMind.
En junio, le dijo a Wired que las técnicas de AlphaGo, como el aprendizaje por refuerzo y la búsqueda de árboles, pueden darle a Gemini nuevas habilidades como el razonamiento y la resolución de problemas.
Hassabis afirmó que Gemini es una “serie de modelos” que estarán disponibles en diferentes tamaños y capacidades.
También mencionó que Gemini puede utilizar la memoria, la verificación de datos con fuentes como la Búsqueda de Google y un aprendizaje por refuerzo mejorado para mejorar la precisión y reducir el contenido alucinado peligroso.
Los primeros resultados de Géminis son prometedores
En una entrevista de septiembre Time, Hassabis reiteró que Gemini apunta a combinar escala e innovación.
Dijo que la incorporación de la planificación y la memoria se encuentra en las primeras etapas exploratorias.
Hassabis también afirmó que Gemini puede emplear métodos de recuperación para generar bloques completos de información, en lugar de generar palabra por palabra, para mejorar la coherencia de los hechos.
Reveló que Gemini se basa en el trabajo multimodal de DeepMind, como el sistema de subtítulos de imágenes Flamingo.
En general, Hassabis dijo que Gemini está mostrando “resultados iniciales muy prometedores”.
Chatbots avanzados como asistentes personales universales
En una entrevista con Wired, publicada unos días después, Pichai proporcionó la indicación más inequívoca de cómo Gemini encaja en la hoja de ruta de productos de Google.
Afirmó que los sistemas de IA conversacionales como Bard “no son el estado final”, sino puntos de referencia que conducen a chatbots más avanzados.
Pichai dijo que Gemini y las versiones futuras se convertirán en última instancia en “increíbles asistentes personales universales” integrados en la vida diaria de las personas en áreas como viajes, trabajo y entretenimiento.
Reiteró que Gemini combinará los puntos fuertes del texto y las imágenes, afirmando que los chatbots de hoy “parecerán triviales” en comparación dentro de unos años.
Los competidores están interesados en el desempeño de Géminis
El CEO de OpenAI tuiteó lo que parecía ser una respuesta a un artículo de pago que informaba que Google Gemini podría superar a GPT-4.
¿Están mal los números?
– Elon Musk (@elonmusk) 30 de agosto de 2023
No hubo respuesta oficial a la pregunta de seguimiento de Elon Musk sobre si las cifras proporcionadas por SemiAnalysis son correctas.
Empresas seleccionadas tienen acceso anticipado a Gemini
Más pistas sobre el progreso de Gemini esta semana: The Information informó que Google le dio a un pequeño grupo de desarrolladores fuera de Google acceso temprano a Gemini.
Esto sugiere que Gemini pronto estará listo para una versión beta y la integración en servicios como Google Cloud Vertex AI.
Meta trabaja en LLM para competir con OpenAI
Si bien las noticias sobre Gemini son prometedoras hasta ahora, Google no es la única empresa que, según se informa, está lista para lanzar un nuevo LLM para competir con OpenAI.
Según el Wall Street Journal, Meta también está trabajando en un modelo de IA que competiría con el modelo GPT que impulsa ChatGPT.
Meta anunció recientemente el lanzamiento de Llama 2, un modelo de inteligencia artificial de código abierto, en asociación con Microsoft. La empresa parece dedicada a crear de forma responsable una IA que sea más accesible.
La cuenta atrás para Google Géminis
Lo que sabemos hasta ahora indica que Gemini podría representar un avance significativo en el procesamiento del lenguaje natural.
La fusión de las últimas investigaciones sobre IA de DeepMind con los vastos recursos computacionales de Google hace que sea difícil exagerar el impacto potencial.
Si Gemini está a la altura de las expectativas, podría impulsar un cambio en la IA interactiva, alineándose con las ambiciones de Google de “llevar la IA de manera responsable a miles de millones de personas”.
Las últimas noticias de Meta y Google llegan unos días después del primer AI Insight Forum, donde los directores ejecutivos de tecnología se reunieron en privado con una parte del Senado de los Estados Unidos para discutir el futuro de la IA.
Imagen de portada: Fotos VDB/Shutterstock