ChatGPT ya tiene el modo avanzado de voz con inteligencia artificial: ¿cómo funciona?
Descubre en la siguiente nota cómo activar el modo voz que ofrece conversaciones más naturales en tiempo real.
Descubre en la siguiente nota cómo activar el modo voz que ofrece conversaciones más naturales en tiempo real.
Luego de anunciarse en el 2023, ChatGPT había retrasado el lanzamiento de su esperado modo avanzado de voz para "conversar" con el chatbot de inteligencia artificial. Hoy es una realidad para un pequeño grupo de usuarios de ChatGPT Plus, es decir, los que pagan su membresía.
"El modo de voz avanzado ofrece conversaciones más naturales en tiempo real, le permite interrumpir en cualquier momento y detecta y responde a sus emociones", señala OpenAI en sus redes sociales.
Las otras funciones anunciadas para enviar videos con instrucciones en ChatGPT se implementarán posteriormente.
¿Cómo saber si fueron elegidos para las pruebas con Modo Voz en ChatGPT?
Los usuarios de ChatGPT Plus serán notificados por correo electrónico para activar el Modo Voz. También recibirán un aviso por la aplicación móvil. El modo "alpha" está limitado a un "pequeño" grupo de usuarios.
"Continuaremos agregando más personas continuamente y planearemos que todos en Plus tengan acceso en el otoño (estadounidense)", sostuvo la empresa.
La compañía asegura que está trabajando en reforzar la seguridad y la calidad de las conversaciones de voz.
"Probamos las capacidades de voz de GPT-4o con más de 100 equipos externos en 45 idiomas. Para proteger la privacidad de las personas, hemos entrenado el modelo para que solo hable con las cuatro voces preestablecidas y construimos sistemas para bloquear las salidas que difieran de esas voces. También implementamos medidas de seguridad para bloquear solicitudes de contenido violento o protegido por derechos de autor", agregó OpenAI.
Por otro lado, a inicios de agosto, se compartirán los resultados de las pruebas antes de extenderla a más usuarios.
¿Cómo acceder a su modelo de IA?
OpenAI anunció que GPT-4o (“o” para “omni”) representa "un paso hacia una interacción persona-computadora mucho más natural". Este modelo de lenguaje permite que la instrucción (o aviso) sea una combinación de texto, audio e imagen y genera, de igual manera, texto, audio e imagen.
¿Cuáles son sus mejoras con respecto a GPT-4? Puede responder a entradas de audio en tan solo 232 milisegundos, con un promedio de 320 milisegundos, que es similar al tiempo de respuesta humano en una conversación.
Antes de GPT-4o, los usuarios de ChatGPT podían usar el modo de voz con latencias de 2,8 segundos (GPT-3.5) y 5,4 segundos (GPT-4) en promedio.
Voice Mode integra tres modelos separados: un modelo simple transcribe audio a texto, GPT-3.5 o GPT-4 toma texto y genera texto, y un tercer modelo simple convierte ese texto nuevamente en audio. Este proceso significa que la principal fuente de inteligencia, GPT-4, pierde mucha información: no puede observar directamente el tono, varios parlantes o ruidos de fondo, y no puede emitir risas, cantar ni expresar emociones.
Esto es lo sorprende: con GPT-4 hay un único modelo nuevo en texto, visión y audio, lo que significa que todas las entradas y salidas son procesadas por la misma red neuronal.