OpenAI de EE. UU. lanza tres modelos de audio de la serie GPT-Realtime, integrando por primera vez el razonamiento de nivel GPT-5 en la interacción por voz Noticias Globales

OpenAI de EE. UU. lanza tres modelos de audio de la serie GPT-Realtime, integrando por primera vez el razonamiento de nivel GPT-5 en la interacción por voz

2026-05-14 09:11

Favoritos

es.wedoany.com Noticia: OpenAI de Estados Unidos ha lanzado oficialmente tres modelos de audio en tiempo real de la serie GPT-Realtime, denominados GPT-Realtime-2, GPT-Realtime-Translate y GPT-Realtime-Whisper, todos ellos disponibles para desarrolladores a través de la API Realtime. Estos tres modelos integran capacidades de razonamiento, traducción y transcripción en una misma API, expandiendo la interacción por voz de simples preguntas y respuestas a agentes de nivel productivo con capacidad de invocar herramientas y ejecutar tareas.

GPT-Realtime-2 es el modelo central de la serie y el primero de OpenAI en incorporar la capacidad de razonamiento de nivel GPT-5 a la interacción por voz. Está diseñado para agentes de voz en tiempo real, permitiendo realizar razonamientos complejos, invocar herramientas externas, gestionar interrupciones y correcciones a mitad de la conversación, y mantener la coherencia contextual en sesiones prolongadas. La ventana de contexto se amplía directamente de los 32K de la generación anterior a 128K, suficiente para soportar diálogos de tareas complejas de más de media hora. El modelo ofrece cinco niveles ajustables de intensidad de razonamiento —del mínimo al máximo— para que los desarrolladores puedan equilibrar la velocidad de respuesta y la profundidad de razonamiento según la complejidad de la tarea. La invocación de herramientas en paralelo le permite acceder simultáneamente a múltiples sistemas backend como calendarios, mapas y CRM, ejecutando acciones mientras informa al usuario del progreso, e insertando de forma natural frases de transición como "déjeme verificarlo" mediante el mecanismo de "Preámbulos", logrando una interacción más cercana a una conversación humana real.

GPT-Realtime-Translate es un motor de interpretación simultánea en flujo continuo. Admite más de 70 idiomas de entrada y la salida está limitada a 13 idiomas. El ritmo de traducción se sincroniza con el hablante, comenzando la salida sin esperar a que termine la frase completa, lo que reduce la latencia a un nivel extremadamente bajo. Por su parte, GPT-Realtime-Whisper ofrece transcripción en flujo continuo de baja latencia: el texto se genera sincrónicamente en cuanto la persona empieza a hablar, siendo adecuado para subtítulos en tiempo real, actas de reuniones y actualizaciones de flujos de trabajo, eliminando directamente el tiempo de espera de los servicios tradicionales de conversión de voz a texto.

La facturación de los tres modelos está claramente diferenciada. GPT-Realtime-2 se mide por tokens: la entrada de audio cuesta 32 dólares por millón de tokens, la salida 64 dólares, y la entrada en caché solo 0,4 dólares. GPT-Realtime-Translate cuesta 0,034 dólares por minuto y GPT-Realtime-Whisper 0,017 dólares por minuto, facturándose ambos por duración de uso. Esta estructura reduce al mínimo el coste por minuto de la interpretación simultánea, haciendo que la viabilidad económica para el despliegue a gran escala en empresas sea ya una realidad.

La plataforma inmobiliaria estadounidense Zillow, el servicio de viajes en línea Priceline y Deutsche Telekom ya han iniciado pruebas de integración. Zillow utilizó GPT-Realtime-2 para construir un asistente de voz que comprende las condiciones de la vivienda y organiza visitas; en pruebas adversariales internas, la tasa de éxito en tareas telefónicas se disparó del 69% al 95%, mostrando también un rendimiento más estable en el cumplimiento de normas contra la discriminación. Priceline integró el agente de voz en servicios de cadena larga como consulta de vuelos, reservas de hotel y cambios de itinerario, con el objetivo de acelerar la interacción por voz de "preguntar" a "gestionar". Deutsche Telekom completó la validación en escenarios como consultas complejas de tarifas, resolución de averías y explicación de facturas, demostrando la viabilidad del sistema en el entorno de un centro de atención telefónica.

Las puntuaciones de referencia también están mejorando. GPT-Realtime-2 supera a la generación anterior en 15,2 puntos porcentuales en la prueba de inteligencia de audio Big Bench Audio, y en 13,8 puntos porcentuales en la prueba de seguimiento de instrucciones en diálogos multigiro Audio MultiChallenge.

Observando el ritmo de iteración, la línea de avance de OpenAI en el ámbito de la voz es muy clara. En 2024, primero abrió a los desarrolladores la capacidad de baja latencia del modo de voz avanzado de ChatGPT; en agosto de 2025 lanzó el primer modelo Gpt-Realtime de nivel productivo; en febrero de 2026 presentó Gpt-Realtime-1.5; y ahora, GPT-Realtime-2 incorpora oficialmente esta línea de productos, pasando de ser una funcionalidad experiencial a formar parte de la secuencia de versiones básicas de la API empresarial.

Este artículo es compilado por Wedoany, las citas de la IA deben indicar la fuente «Wedoany»; si hay alguna infracción u otro problema, por favor notifícanos a tiempo, este sitio lo modificará o eliminará. Correo electrónico: news@wedoany.com