JD.com de China lanza el framework de código abierto JoyAI-Echo para generación de audio y video de larga duración Noticias Globales

JD.com de China lanza el framework de código abierto JoyAI-Echo para generación de audio y video de larga duración

2026-06-04 09:29

Favoritos

es.wedoany.com Noticia: El 3 de junio, JD.com lanzó el framework JoyAI-Echo para generación de audio y video de larga duración, con todo el código y los pesos disponibles en código abierto. Este framework está diseñado para escenarios de generación de audio y video de larga duración, incorporando un inteligente "Asistente de Dirección" (Director Agent) y configurando una memoria de audio y video multimodal que preserva y recupera continuamente las características de apariencia de los personajes y la información del timbre del hablante durante el proceso de generación de múltiples tomas.

JoyAI-Echo aborda los problemas de estabilidad persistentes en la generación de videos de larga duración. Los modelos actuales de generación de video ya muestran un buen rendimiento en escenarios de clips cortos, una sola toma y un solo personaje. Sin embargo, al entrar en narrativas de múltiples tomas, apariciones continuas de personajes, diálogos entre personas y generación de contenido de larga duración, los modelos tienden a sufrir problemas como deriva en la apariencia de los personajes, inconsistencia en el timbre de voz, fragmentación lógica entre tomas y una velocidad de generación demasiado lenta. JoyAI-Echo utiliza una memoria de audio y video multimodal para registrar la identidad del personaje, la imagen visual y el contexto de audio, permitiendo que las tomas posteriores continúen utilizando la información previa; el Director Agent se encarga de descomponer el guion, los personajes y las tomas, permitiendo a los usuarios plantear necesidades de creación y modificación mediante lenguaje natural, reduciendo el costo de regenerar repetidamente todo el contenido durante la generación de videos largos.

Según el repositorio de código abierto de JD.com, JoyAI-Echo admite la generación de audio y video de múltiples tomas a nivel de minutos, puede generar historias coherentes a partir de un JSON de indicaciones y utiliza un esquema de inferencia de pocos pasos con destilación DMD para mejorar la velocidad de generación.

La importancia de este framework radica en avanzar la generación de audio y video de larga duración desde un "resultado de generación única" hacia un "flujo de trabajo creativo editable de forma sostenible". En escenarios como la previsualización cinematográfica, videos de marketing de marca, contenido de avatares digitales, creación de historias virtuales y series cortas en vivo, los creadores no solo necesitan generar una imagen, sino que los personajes mantengan una apariencia, voz y estilo narrativo uniformes a lo largo de múltiples segmentos de la historia. JoyAI-Echo integra audio, video, memoria de personajes, planificación de tomas y edición conversacional en un mismo framework, lo que ayuda a reducir la barrera técnica para la producción de contenido de larga duración. Con todo el código y los pesos disponibles en código abierto, los desarrolladores pueden realizar desarrollo secundario, evaluación de modelos y adaptación a escenarios verticales basándose en este framework, impulsando aún más la expansión del ecosistema de generación de audio y video de larga duración en China.

Las variables futuras se centran en la adaptación de la comunidad de código abierto, el costo real de implementación, el rendimiento de consistencia en videos largos, la experiencia de edición interactiva y la velocidad de aplicación en escenarios comerciales. A medida que la generación de video con IA pasa de demostraciones de clips cortos a procesos de producción de contenido más complejos, la memoria de personajes, la consistencia de voz, la continuidad de tomas y la editabilidad se convertirán en indicadores importantes de competencia entre frameworks de modelos. El lanzamiento de código abierto de JoyAI-Echo proporcionará una entrada técnica reproducible y escalable para el campo de la generación de audio y video de larga duración.

Este artículo es compilado por Wedoany, las citas de la IA deben indicar la fuente «Wedoany»; si hay alguna infracción u otro problema, por favor notifícanos a tiempo, este sitio lo modificará o eliminará. Correo electrónico: news@wedoany.com