Auriculares de inteligencia artificial ofrecen clonación de voz y traducción grupal con audio espacial 3D
2025-10-14 15:29
Fuente:Universidad de Washington
Favoritos

Tuochao Chen, estudiante de doctorado en la Universidad de Washington, se inspiró en una visita al Museo de México donde el ruido ambiental afectó el rendimiento de una aplicación de traducción, lo que motivó a él y a su equipo de investigación a desarrollar una nueva tecnología de traducción. Recientemente, Tuochao Chen y su equipo diseñaron un sistema de auriculares que puede traducir simultáneamente las voces de múltiples hablantes, preservando la dirección y la calidad de la voz humana, ofreciendo una nueva solución para la comunicación intercultural.

El sistema, llamado "Traducción de Voz Espacial", utiliza auriculares de cancelación de ruido listos para usar equipados con micrófonos, combinados con algoritmos desarrollados por el equipo, para separar a diferentes hablantes en el espacio y rastrear sus movimientos. El sistema puede traducir voz con un retraso de 2-4 segundos y mantener la expresividad y el volumen de la voz del hablante en dispositivos móviles. El equipo presentó los resultados de la investigación el 30 de abril en la Conferencia ACM CHI sobre Factores Humanos en Sistemas Computacionales en Yokohama, Japón, y publicó el código del dispositivo de prueba de concepto.

"Otras tecnologías de traducción a menudo asumen un hablante único", dijo Shyam Gollakota, profesor de la Escuela de Ciencias de la Computación e Ingeniería Paul G. Allen de la Universidad de Washington. "Pero en el mundo real, al conversar con múltiples personas, usar solo una voz robótica claramente no es suficiente. Nuestro sistema preserva por primera vez la voz de cada persona y su origen".

El sistema tiene tres innovaciones. Primero, puede detectar el número de hablantes en espacios interiores o exteriores, con un algoritmo que escanea 360 grados como un radar. Segundo, al traducir voz, mantiene la expresividad y el volumen de cada hablante, evitando el uso de computación en la nube para proteger la privacidad. Tercero, cuando el hablante mueve la cabeza, el sistema rastrea continuamente la dirección y los cambios de calidad de su voz.

En pruebas en 10 entornos interiores y exteriores, el sistema funcionó normalmente. En una prueba con 29 participantes, los usuarios prefirieron este sistema sobre otros que no rastrean la posición del hablante. Además, la mayoría de los usuarios prefirieron un retraso de 3-4 segundos, ya que retrasos más cortos causaban más errores. El equipo está trabajando para reducir el retraso de traducción en el futuro.

"Este es un paso hacia romper las barreras lingüísticas interculturales", dijo Tuochao Chen. "Incluso si no hablo español, caminando por las calles de México, podría traducir todas las voces y entender el contenido de las conversaciones".

El equipo de investigación del sistema también incluye a Qirui Wang, estudiante de pregrado de la Escuela Allen de la Universidad de Washington, y Runlin He, estudiante de doctorado, quienes contribuyeron conjuntamente al nacimiento de esta tecnología innovadora.

Este boletín es una compilación y reproducción de información de Internet global y socios estratégicos, y está destinado únicamente a proporcionar a los lectores la comunicación. Si hay infracción u otros problemas, por favor infórmenos a tiempo, este sitio será modificado o eliminado. Toda reproducción de este artículo sin autorización formal está estrictamente prohibida. Correo electrónico: news@wedoany.com