OpenAI ha comenzado a implementar nuevas funciones de voz e imagen para su popular chatbot impulsado por IA, ChatGPT.
Estas nuevas capacidades le permiten tener conversaciones más naturales con ChatGPT hablándole y mostrándole imágenes.
Esto permite más formas de utilizar ChatGPT en las rutinas diarias. Por ejemplo, mientras viaja, puede enviar a ChatGPT una foto de un punto de referencia y entablar una conversación en tiempo real sobre él.
Del mismo modo, en casa puedes tomar fotografías del contenido de tu refrigerador y discutir ideas de comidas o solicitar una receta paso a paso.
Durante las próximas semanas, OpenAI implementará estas funciones para los usuarios Plus y Enterprise. La capacidad de voz estará disponible en aplicaciones móviles, mientras que la funcionalidad de imagen será accesible en todas las plataformas.
La entrada de voz permite conversaciones bidireccionales
La nueva función de voz le permite hablar con ChatGPT, que ahora puede responder de forma audible en una de las cinco voces sintetizadas.
Puede registrarse a través de la configuración de las aplicaciones móviles de iOS y Android para habilitar la voz.
Según OpenAI, la capacidad de voz utiliza un modelo avanzado de conversión de texto a voz entrenado con muestras de actores de voz. Para el reconocimiento de voz, aprovecha Whisper, el sistema de voz de código abierto de OpenAI.
Hablar de imágenes proporciona un contexto visual
Ahora puede mostrar a ChatGPT una o más imágenes para proporcionar contexto visual y centrar la conversación.
Por ejemplo, compartir una foto de un dispositivo roto podría ayudar a ChatGPT a diagnosticar problemas y sugerir soluciones. En dispositivos móviles, una herramienta de dibujo permite rodear o señalar partes específicas de una imagen.
Las características de la imagen utilizan una versión multimodal de los modelos GPT-3.5 y GPT-4 ajustada para razonar sobre las entradas visuales. OpenAI probó exhaustivamente las capacidades de la imagen para detectar riesgos de seguridad antes de implementarla.
Implementación gradual centrada en la seguridad
OpenAI señaló que está adoptando un enfoque gradual para implementar estas funciones.
La nueva tecnología de voz abre posibilidades creativas, pero también riesgos como la suplantación de personajes públicos. Para mitigar los riesgos, la voz se limita actualmente al chat conversacional.
Para las imágenes, OpenAI dijo que ha limitado la capacidad de ChatGPT para analizar directamente a las personas en las fotografías y desaconsejar casos de uso de alto riesgo sin verificación.
En resumen
Las nuevas capacidades de voz e imagen de ChatGPT ofrecen a los usuarios una forma más natural de interactuar con el sistema de inteligencia artificial.
Sin embargo, OpenAI está adoptando un enfoque mesurado para implementarlos, limitando el acceso inicial y la funcionalidad debido a riesgos potenciales.
A medida que estas funciones se amplían, tenga en cuenta las limitaciones de ChatGPT y evite aplicaciones de alto riesgo sin verificación.
Imagen de portada: Ahmed_Rizq/Shutterstock