Universidad de Nagoya lanza el primer sistema de IA conversacional en japonés de acceso público: J-Moshi
2025-11-13 10:51
Fuente:Universidad de Nagoya
Favoritos

Los investigadores de la Universidad de Nagoya han logrado un importante avance en el desarrollo de sistemas de inteligencia artificial que imitan el modo de hablar humano, lanzando el primer sistema de IA de acceso público diseñado específicamente para patrones conversacionales en japonés: J-Moshi.

J-Moshi captura con éxito la fluidez natural de las conversaciones en japonés, especialmente las breves respuestas orales comunes en japonés conocidas como "aizuchi", como "Sou desu ne" (eso es correcto) y "Naruhodo" (lo entiendo), que son más frecuentes en las conversaciones japonesas que sus equivalentes en inglés. Las IAs tradicionales no podían usar "aizuchi" porque no podían hablar y escuchar al mismo tiempo, pero la aparición de J-Moshi resuelve este problema y ha sido recibida con gran entusiasmo por los usuarios de japonés.

El sistema fue desarrollado por investigadores del Laboratorio Higashinaka del Instituto de Posgrado en Informática de la Universidad de Nagoya, inspirado en el modelo de inglés Moshi creado por el laboratorio sin fines de lucro Kyutai. Tomó aproximadamente cuatro meses y se entrenó utilizando múltiples conjuntos de datos de voz en japonés, incluyendo el conjunto de datos J-CHAT creado por la Universidad de Tokio (aproximadamente 67.000 horas de audio) y conjuntos de datos de conversaciones de alta calidad recopilados por el laboratorio. Para aumentar los datos de entrenamiento, los investigadores también desarrollaron un programa de texto a voz que convierte conversaciones de chat escritas en voz humana. Los resultados de la investigación se han publicado en el servidor de preimpresión arXiv.

En enero de 2024, un video de demostración de J-Moshi generó una amplia atención en las redes sociales. Además de la innovación técnica, el sistema tiene un valor potencial en el aprendizaje de idiomas, ayudando a los no nativos a practicar y entender patrones conversacionales naturales en japonés. El equipo de investigación también explora sus aplicaciones comerciales en centros de llamadas, atención médica y servicio al cliente, pero señala que los recursos de datos de voz en japonés son limitados, lo que presenta desafíos para su aplicación en dominios profesionales o industriales.

El profesor Ryosuke Higashinaka, líder del equipo de investigación, trabajó como investigador corporativo en NTT durante 19 años antes de unirse a la Universidad de Nagoya hace cinco años, donde se dedica al desarrollo de sistemas de diálogo para consumidores y agentes de voz. Su laboratorio cuenta con 20 miembros y actualmente enfrenta el desafío de conectar la investigación teórica con aplicaciones prácticas, desde comprender los tiempos en conversaciones japonesas hasta desplegar guías de IA en lugares públicos como acuarios.

El profesor Higashinaka indica que tecnologías como J-Moshi pueden aplicarse a sistemas que requieren operación humana, como el robot guía en el acuario NIFREL de Osaka, que puede manejar interacciones diarias de manera independiente y contactar a un operador humano cuando los visitantes enfrentan problemas complejos. También señala que la investigación de IA en Japón enfrenta desafíos únicos como la escasez de recursos de voz y problemas de privacidad, lo que obliga a los investigadores a adoptar soluciones creativas.

Aunque J-Moshi ha logrado un gran avance en la captura de patrones conversacionales naturales en japonés, los sistemas de diálogo aún tienen dificultades para manejar contextos sociales complejos, como considerar relaciones interpersonales y entornos físicos, o reconocer pistas visuales como expresiones faciales. Actualmente, J-Moshi requiere sistemas de soporte humano en la mayoría de las aplicaciones prácticas, y los investigadores están trabajando para fortalecer estos sistemas, incluyendo el desarrollo de resúmenes de conversaciones y sistemas de detección de fallos en diálogos.

Además, el alcance de investigación del laboratorio es amplio y no se limita a J-Moshi; incluye varios métodos de interacción humano-máquina. Colaboran con colegas que investigan robots humanoides realistas para desarrollar sistemas robóticos que coordinen voz, gestos y movimientos para lograr una comunicación natural. Estos robots representan los últimos avances en el campo de la IA, requiriendo que los sistemas de diálogo no solo comprendan los matices de la conversación, sino que también posean presencia física y capacidad de percepción espacial.

Actualmente, el artículo del equipo sobre J-Moshi ha sido aceptado para su publicación en la conferencia internacional Interspeech, y el profesor Higashinaka y su equipo esperan presentar los resultados de la investigación en Rotterdam, Países Bajos, en agosto de 2025. El profesor Higashinaka afirma: "En el futuro cercano, veremos el surgimiento de sistemas capaces de colaborar sin problemas con humanos a través de voz y gestos naturales. Estoy ansioso por crear tecnologías fundamentales que sean cruciales para una sociedad transformadora como esta".

Este boletín es una compilación y reproducción de información de Internet global y socios estratégicos, y está destinado únicamente a proporcionar a los lectores la comunicación. Si hay infracción u otros problemas, por favor infórmenos a tiempo, este sitio será modificado o eliminado. Toda reproducción de este artículo sin autorización formal está estrictamente prohibida. Correo electrónico: news@wedoany.com