Google ha presentado Gemini, su modelo de inteligencia artificial (IA) más avanzado y capaz, con capacidades multimodales avanzadas.
Este modelo innovador representa un paso adelante en la tecnología de IA y ofrece un rendimiento de última generación en comparación con los modelos de lenguajes grandes (LLM) existentes.
Sundar Pichai, director ejecutivo de Google y Alphabet, enfatizó que la IA está dando forma a un profundo cambio tecnológico, que potencialmente superará el impacto de las revoluciones móvil y web.
Destacó la importancia de la IA para impulsar la innovación y el progreso económico, mejorando el conocimiento humano, la creatividad y la productividad.
¿Qué es Google Géminis?
Desarrollado por Google DeepMind, dirigido por el director ejecutivo y cofundador Demis Hassabis, Gemini es un testimonio del compromiso continuo de Google de ser una empresa que da prioridad a la IA.
¡Estoy muy emocionado de compartir nuestro trabajo en Gemini hoy! Gemini es una familia de modelos multimodales que demuestran capacidades realmente sólidas en los dominios de imagen, audio, video y texto. Nuestro modelo más capaz, Gemini Ultra, avanza lo último en 30 de 32 puntos de referencia,… pic.twitter.com/sQfxBy9tpT
– Jeff Dean (@🏡) (@JeffDean) 6 de diciembre de 2023
El modelo muestra una impresionante variedad de capacidades, particularmente en su comprensión multimodal, una característica que le permite procesar y combinar sin problemas diferentes tipos de información, incluidos texto, código, audio, imagen y video.
Google Gemini Ultra supera a GPT-4
Gemini 1.0, la primera versión del modelo, viene en tres variantes: Gemini Ultra, Gemini Pro y Gemini Nano.
Cada uno está optimizado para tareas específicas: Gemini Ultra está diseñado para tareas muy complejas, Gemini Pro para una amplia gama de tareas y Gemini Nano para tareas eficientes en el dispositivo.
El rendimiento del modelo es excepcional, superando a los expertos humanos en comprensión masiva del lenguaje multitarea (MMLU) con una puntuación del 90,0 %.
Además, Gemini Ultra supera a los modelos existentes en 30 de los 32 puntos de referencia académicos ampliamente utilizados en la investigación de modelos de lenguajes grandes.
Capacidades y rendimiento multimodal de Gemini
El enfoque innovador de Gemini hacia la multimodalidad lo distingue de los modelos anteriores.
Los modelos multimodales tradicionales suelen estar limitados por su diseño, que implica entrenar componentes separados para diferentes modalidades y luego unirlos.
Por el contrario, Gemini se construyó desde cero para ser multimodal de forma nativa, lo que le permite comprender y razonar a través de diversas entradas de manera mucho más efectiva.
Esta capacidad posiciona a Gemini como una herramienta poderosa en campos que van desde la ciencia hasta las finanzas, donde puede descubrir conocimientos a partir de grandes cantidades de datos y proporcionar razonamiento avanzado en temas complejos como matemáticas y física.
Los ejemplos del informe de Google DeepMind sobre Google Gemin muestran las capacidades multimodales de Gemini, como la generación de imágenes.
También puede manejar texto, imágenes y audio, como se muestra a continuación.
Géminis sobresale en la codificación
Además de sus capacidades multimodales, Gemini destaca en tareas de codificación. Su capacidad para comprender, explicar y generar código de alta calidad en múltiples lenguajes de programación lo posiciona como un modelo líder en codificación.
También constituye la base para sistemas de codificación más avanzados, como AlphaCode 2, lo que mejora significativamente los problemas de programación competitivos.
La eficiencia y escalabilidad del modelo se ven reforzadas por las Unidades de procesamiento tensorial (TPU) v4 y v5e diseñadas internamente por Google, lo que lo convierte en el modelo más confiable y escalable para entrenar y brindar servicio.
Google Bard ahora con tecnología Gemini Pro
Google también ha anunciado una actualización significativa de Bard, integrando Gemini Pro para mejorar las capacidades de la IA.
Esta actualización marca la mayor mejora que Bard ha recibido hasta la fecha.
Gemini Pro ha sido perfeccionado dentro de Bard para mejorar significativamente su rendimiento en la comprensión y resumen de información, razonamiento, codificación y planificación.
Los usuarios ahora pueden experimentar Bard con tecnología Gemini Pro para interacciones basadas en texto, con planes de ampliar el soporte a otras modalidades en breve.
Inicialmente disponible en inglés en más de 170 países y territorios, esta actualización pronto se extenderá a otros idiomas y regiones, incluida Europa.
Google Pixel 8 Pro: el primer teléfono inteligente con IA incorporada con tecnología Gemini Nano
La última actualización de Google presenta Gemini Nano, un modelo avanzado de IA, ahora integrado en el teléfono inteligente Pixel 8 Pro.
Esta actualización marca al Pixel 8 Pro como el primer teléfono diseñado para IA con Gemini Nano, aprovechando la tecnología Google Tensor G3.
Las características clave incluyen ‘Resumir en Grabador’ para resumir grabaciones de audio en el dispositivo y ‘Respuesta inteligente en Gboard’ para respuestas de texto contextuales. Estas funciones mejoran la privacidad y la funcionalidad del usuario sin necesidad de una conexión de red.
Además, Google anunció próximas mejoras para el Asistente con experiencia Bard en la línea Pixel, ampliando aún más las capacidades de IA.
La actualización también incluye mejoras impulsadas por IA en fotografía y video, como estabilización de video mejorada, video Night Sight y Photo Unblur para imágenes de mascotas más claras.
Para la productividad, existen nuevas herramientas como Vista previa de pantalla dual en Pixel Fold, videollamadas mejoradas que utilizan teléfonos Pixel como cámaras web y limpieza de escaneo de documentos.
Google Password Manager ahora admite claves de acceso y los dispositivos Pixel obtienen nuevas funciones de seguridad como el modo de reparación. Pixel Watch presenta cómodas funciones de desbloqueo de teléfonos y filtrado de llamadas, mientras que Pixel Tablet ofrece Clear Calling y soporte de audio espacial.
Google también amplía la compatibilidad con idiomas en su aplicación Grabadora y extiende las funciones Direct My Call y Hold for Me a más regiones y dispositivos.
Desarrollo responsable de la IA
Google ha priorizado el desarrollo responsable de la IA, garantizando evaluaciones integrales de seguridad de Gemini en busca de sesgos y toxicidad.
La empresa colabora con diversos expertos y socios externos para probar rigurosamente el modelo y abordar los riesgos potenciales.
Cómo conseguir Géminis
Gemini 1.0 se está integrando gradualmente en varios productos y plataformas de Google y pronto será accesible para desarrolladores y clientes empresariales a través de Google AI Studio y Google Cloud Vertex AI.
Como parte del compromiso de Google de promover la IA de manera responsable, Gemini Ultra se someterá a exhaustivos controles de confianza y seguridad antes de su lanzamiento generalizado.
La introducción de Gemini por parte de Google marca un hito importante en el desarrollo de la IA.
Sus capacidades avanzadas, que van desde el razonamiento multimodal sofisticado hasta la codificación eficiente, señalan el comienzo de una nueva era en la IA, abriendo posibilidades notables para la innovación en múltiples dominios.
Imagen de portada: Fotos VDB/Shutterstock