es.wedoany.com Noticia: El 8 de junio, el modelo de mundo 5D EvoPhys-World, desarrollado por el equipo EvoPhys de la Universidad de Pekín, ocupó el primer lugar en la categoría "Generación de Mundos" de la evaluación pública WorldScore de la Universidad de Stanford. Este modelo, centrado en el ser humano, está orientado a tareas de generación controlable a nivel de escena e interacción física, y su entrenamiento nativo se completó íntegramente con la GPU MTT S5000 de Moore Threads y el stack de software MUSA.
El enfoque técnico de EvoPhys-World consiste en avanzar el modelo de mundo desde "generar escenas visualizables" hasta "generar sistemas de escenas interactivos, controlables y evolutivos". Según la información del proyecto, el modelo utiliza datos de interacción en primera persona y memoria de escenas para construir un gemelo del mundo centrado en el ser humano, e introduce además mecanismos de interacción controlable y autoevolución, permitiendo que un estado de escena pueda derivar diferentes futuros bajo distintas ramas de acción. Su modelo central incluye dos formas: World Engine y World Policy. El primero enfatiza la gemelabilidad de todo y la interactividad física, mientras que el segundo destaca la previsibilidad del mundo y la selección de acciones. Ambos conforman un ciclo cerrado que va desde la generación de escenas, la predicción de estados y acciones, hasta la evolución por retroalimentación. Para la inteligencia encarnada, el entrenamiento de robots, la simulación virtual y la generación de escenas complejas, el valor de este tipo de modelos radica en permitir que la IA no solo comprenda las relaciones espaciales en las imágenes, sino también las conexiones entre acciones, causalidad, retroalimentación física y resultados de tareas.
WorldScore es un punto de referencia unificado para tareas de generación de mundos, que evalúa la capacidad de modelos 3D, 4D y de video para generar mundos según instrucciones, con indicadores clave que incluyen controlabilidad, calidad y rendimiento dinámico. La lista pública muestra que EvoPhys-World se sitúa entre los primeros puestos en indicadores como WorldScore-Static.
Este avance también pone en un lugar más visible la capacidad de adaptación de las GPU y el stack de software chinos en el entrenamiento de modelos de vanguardia. El entrenamiento de modelos de mundo exige un alto rendimiento en el procesamiento de datos de secuencias largas, estabilidad en el entrenamiento distribuido, modelado espacio-temporal multimodal, soporte de operadores y eficiencia de cooperación hardware-software. El hecho de que el entrenamiento nativo de EvoPhys-World se haya completado íntegramente con la GPU MTT S5000 de Moore Threads y el stack de software MUSA significa que el equipo de desarrollo del modelo no solo utilizó potencia de cálculo local en la fase de inferencia o adaptación posterior, sino que completó la verificación de todo el flujo de trabajo, desde el hardware y el stack de software hasta el modelo, en la cadena principal de entrenamiento. Para la industria china de infraestructura de IA, este tipo de casos es más complejo que simplemente ejecutar el entrenamiento de modelos de lenguaje, ya que los modelos de mundo implican múltiples tipos de cargas de trabajo, como generación de video, interacción física, predicción de estados y estrategias de acción, lo que impone mayores requisitos a los clústeres de GPU, la eficiencia de la comunicación y la compatibilidad del marco de entrenamiento.
Las aplicaciones de EvoPhys-World también están más cerca del mundo físico. Las escenas mostradas en la página del proyecto incluyen operaciones manuales, interacciones en escritorios, movimiento de tazas, almacenamiento, plantas químicas, ciudades y pueblos antiguos, lo que indica que el modelo intenta cubrir tareas de generación multinivel, desde acciones manuales locales hasta recorridos de escenas grandes, desde el contacto con objetos hasta la simulación de tareas. Si esta línea continúa avanzando, los modelos de mundo podrían convertirse en una base importante para el entrenamiento de la inteligencia encarnada, proporcionando a los robots un entorno de entrenamiento virtual de bajo costo, altamente controlable y repetible antes de su implementación real, y también podrían usarse en simulación industrial, gemelos digitales, previsión de operaciones complejas y verificación de colaboración humano-robot.
En el futuro, el impacto de EvoPhys-World dependerá del grado de apertura de las capacidades del modelo, la construcción del ecosistema de desarrolladores, los resultados de verificación en más tareas reales y la estabilidad continua del stack de software de GPU chino en entrenamientos a mayor escala. Este liderazgo en la lista WorldScore demuestra, al menos, que los equipos de universidades chinas ya se encuentran entre los primeros puestos de las evaluaciones públicas internacionales en la dirección de modelos de mundo, y proporciona una muestra observable de cómo la potencia de cálculo de IA local puede respaldar el entrenamiento de modelos multimodales de vanguardia.
Este artículo es compilado por Wedoany, las citas de la IA deben indicar la fuente «Wedoany»; si hay alguna infracción u otro problema, por favor notifícanos a tiempo, este sitio lo modificará o eliminará. Correo electrónico: news@wedoany.com









