OpenAI presenta GPT-4o: Una nueva era de IA multimodal con capacidades "omni"

Publicado el: 13.05.2024 20:00

El 13 de mayo de 2024, OpenAI presentó su último modelo insignia, ChatGPT, donde la "o" significa "omni", destacando sus revolucionarias capacidades multimodales nativas. Este modelo puede procesar y generar contenido combinando texto, audio e imágenes, lo que marca un paso significativo hacia una interacción humano-computadora más natural e intuitiva.

GPT-4o ofrece inteligencia de nivel GPT-4 pero es significativamente más rápido y rentable. En la API, el modelo es un 50% más barato que GPT-4 Turbo y ofrece límites de velocidad aumentados. Más importante aún, OpenAI ha comenzado a implementar el acceso a GPT-4o, incluidas sus capacidades de texto y visión, para los usuarios del nivel gratuito de ChatGPT, mientras que los suscriptores de ChatGPT Plus reciben límites de mensajes significativamente más altos.

Una característica clave de GPT-4o es su capacidad para procesar sin problemas entradas y salidas de audio. En el nuevo modo de voz, los usuarios pueden conversar con ChatGPT de forma tan natural como con un humano: el modelo responde a las entradas de audio casi instantáneamente (con un promedio de 320 milisegundos, comparable al tiempo de reacción humano), puede percibir matices emocionales en la voz del usuario y generar voz en varios estilos emocionales, e incluso reír o cantar. El modelo también puede traducir idiomas en tiempo real y entender cuándo se le interrumpe.

Las capacidades visuales de GPT-4o también son impresionantes. Los usuarios pueden cargar imágenes, capturas de pantalla, documentos con texto y gráficos, y el modelo puede analizarlos, responder preguntas sobre el contenido o incluso ayudar con tareas representadas en la imagen. Por ejemplo, puede ayudar a resolver un problema matemático de una foto o explicar código en una captura de pantalla.

OpenAI también anunció una nueva aplicación de escritorio ChatGPT para macOS, que permite una fácil integración de la IA en el flujo de trabajo de la computadora, incluida la capacidad de hacer preguntas por voz o mediante capturas de pantalla. También está prevista una versión para Windows.

La seguridad sigue siendo una prioridad para OpenAI. GPT-4o se desarrolló utilizando las últimas técnicas para mitigar riesgos y se ha sometido a pruebas exhaustivas. Las capacidades de audio del nuevo modo de voz se implementarán gradualmente, comenzando con pruebas alfa para un número limitado de usuarios de ChatGPT Plus en las próximas semanas.

El lanzamiento de ChatGPT abre nuevos horizontes para desarrolladores y usuarios, haciendo que las tecnologías avanzadas de IA sean más accesibles e interactivas que nunca.

« Volver a la Lista de Noticias