OpenAI podría estar trabajando en una importante evolución para las conversaciones por voz de ChatGPT. Diversas referencias encontradas en el código de la aplicación apuntan a un posible nuevo modelo denominado GPT-Bidi-1, enfocado en hacer que la interacción verbal resulte más natural y fluida.
La principal diferencia estaría en su arquitectura bidireccional. En lugar de esperar a que el usuario termine de hablar para procesar la información, el sistema podría escuchar, comprender y generar respuestas de manera simultánea. Esto permitiría interrumpir una respuesta, cambiar de tema o corregir instrucciones sobre la marcha sin romper el flujo de la conversación.
Las pruebas detectadas también sugieren comportamientos más cercanos a una conversación humana, como interpretar pausas de forma natural, ofrecer pequeñas confirmaciones mientras escucha y evitar responder prematuramente cuando el usuario aún está formulando una idea.
Otro de los objetivos sería mejorar la gestión del contexto en conversaciones largas. GPT-Bidi-1 aparentemente conservaría mejor la información intercambiada durante una sesión y mantendría una mayor coherencia a medida que la conversación evoluciona.
Por ahora, OpenAI no ha anunciado oficialmente este modelo ni sus características. Sin embargo, la aparición de referencias internas y los reportes de acceso anticipado sugieren que la compañía continúa invirtiendo fuertemente en la experiencia de voz, un área que muchos consideran clave para el futuro de los asistentes de inteligencia artificial.

