Google lanza el modelo de traducción de voz en tiempo real Gemini 3.5 Live Translate Noticias Globales

Google lanza el modelo de traducción de voz en tiempo real Gemini 3.5 Live Translate

2026-06-10 09:08

Favoritos

es.wedoany.com Noticia: El 9 de junio, Google anunció el lanzamiento de su modelo de traducción de voz en tiempo real Gemini 3.5 Live Translate. Este modelo está diseñado para escenarios de traducción de voz a voz en tiempo real, capaz de detectar automáticamente más de 70 idiomas, generar una voz traducida más natural y fluida, y preservar en la medida de lo posible el tono, la velocidad y el tono del hablante. A partir de hoy, se implementará gradualmente en productos y servicios como Google Traductor, Gemini Live API, Google AI Studio y Google Meet.

La capacidad central de Gemini 3.5 Live Translate se centra en el procesamiento continuo de flujos de audio y la generación de voz con baja latencia. Los sistemas de traducción en tiempo real tradicionales a menudo necesitan esperar a que el hablante haga una pausa o termine una oración antes de traducir, lo que puede provocar esperas evidentes, cortes de oraciones poco naturales y pérdida de entonación. El modelo lanzado por Google procesa el audio de forma continua durante el habla, equilibrando dinámicamente la obtención de contexto y el mantenimiento de la sincronización, permitiendo que la voz traducida siga el discurso original con una latencia corta. Para escenarios como reuniones internacionales, clases en línea, transmisiones en vivo, llamadas de servicio al cliente, comunicación turística y colaboración multilingüe, el valor de este modelo radica en acercar la experiencia de traducción a la interpretación simultánea, en lugar de simplemente transcribir la voz a texto y luego leerlo mecánicamente. El modelo puede identificar automáticamente el idioma en entradas multilingües, reduciendo los pasos de cambio manual de configuración para el usuario, y también mejora la usabilidad en entornos ruidosos.

Este modelo admite más de 70 idiomas y puede cubrir más de 2000 combinaciones de idiomas en Google Meet. Los desarrolladores pueden acceder a través de la versión beta pública de Gemini Live API, los usuarios empresariales pueden experimentarlo en la prueba privada de Google Meet, y los usuarios comunes pueden usarlo gradualmente en Google Traductor para Android e iOS.

Para Google, Gemini 3.5 Live Translate impulsa aún más la capacidad de los modelos grandes hacia puntos de entrada de comunicación de alta frecuencia. La traducción ha sido uno de los escenarios de datos y productos en los que Google ha acumulado durante mucho tiempo, centrándose anteriormente en la traducción de texto, traducción con cámara, traducción de conversaciones y traducción sin conexión. Con el desarrollo de modelos multimodales nativos, la traducción de voz está pasando de un proceso segmentado de "reconocimiento-traducción-síntesis" a una experiencia de audio de extremo a extremo más coherente. Si Gemini 3.5 Live Translate puede funcionar de manera estable en reuniones reales, dispositivos móviles, auriculares y aplicaciones de desarrolladores, fortalecerá la posición de Google como punto de entrada de IA en comunicaciones en tiempo real, colaboración en oficina, aprendizaje de idiomas y servicios transfronterizos. Para desarrolladores y clientes empresariales, la capacidad de traducción en tiempo real proporcionada por Gemini Live API también se puede integrar en videoconferencias, educación en línea, soporte al cliente, interacción en vivo y sistemas de distribución de contenido multilingüe, impulsando la voz AI de una función puntual a una capacidad básica de aplicación.

Google también ha añadido la marca de agua SynthID al audio generado por este modelo para mejorar la identificabilidad del audio generado por IA. El efecto de implementación posterior aún dependerá del reconocimiento de acentos complejos, conversaciones rápidas entre múltiples personas, estabilidad de voz a largo plazo, procesamiento de ruido de fondo y fidelidad semántica entre diferentes idiomas. La traducción de voz en tiempo real se está convirtiendo en una dirección importante para la comercialización de modelos grandes. Quien pueda formar una experiencia estable en términos de baja latencia, naturalidad, precisión y cobertura de productos, tendrá más facilidad para dominar el punto de entrada de las herramientas de comunicación multilingüe en la próxima etapa.

Este artículo es compilado por Wedoany, las citas de la IA deben indicar la fuente «Wedoany»; si hay alguna infracción u otro problema, por favor notifícanos a tiempo, este sitio lo modificará o eliminará. Correo electrónico: news@wedoany.com