es.wedoany.com Noticia: La empresa china de robótica X Square Robot está impulsando a los robots humanoides hacia escenarios de aplicación más complejos, con el objetivo central de lograr que los robots operen de forma autónoma en entornos humanos reales, caóticos e impredecibles, tanto en la vida cotidiana como en el trabajo.

El fundador y director ejecutivo de la empresa, Wang Qian, afirmó que la base de hardware de la industria robótica ya está prácticamente establecida, con avances rápidos en locomoción humanoide, manos diestras y sistemas de control de fuerza, y que el verdadero cuello de botella reside en la inteligencia. Para cerrar esta brecha, X Square Robot ha publicado como código abierto tres tecnologías en las últimas semanas: el modelo visión-lenguaje-acción Wall-OSS-0.5, el modelo de acción mundial WALL-WM, diseñado para comprender eventos físicos, y el marco de recopilación de datos y entrenamiento sin robot XRZero-G0.
Wall-OSS-0.5 responde directamente a la pregunta de si el preentrenamiento puede enseñar habilidades útiles a los robots. A diferencia de los enfoques que evalúan modelos ajustados, la empresa implementó el modelo preentrenado directamente en robots físicos y lo probó en 17 tareas del mundo real. El sistema demostró un rendimiento de cero disparos en clasificación de objetos, apilamiento de anillos y manipulación de objetos deformables. El modelo utiliza un marco de entrenamiento de "puente de gradiente", que convierte las acciones del robot en tokens de acción, aprendiéndolos junto con las representaciones de lenguaje y visión durante el preentrenamiento, lo que permite que la percepción, la comprensión del lenguaje y la generación de acciones evolucionen conjuntamente en un modelo unificado. La empresa descubrió que el entrenamiento en acciones no solo mejoró las capacidades de manipulación, sino que también potenció el rendimiento de anclaje visual, lo que indica que la interacción física puede mejorar la comprensión del mundo por parte del modelo.
WALL-WM está diseñado para abordar el problema de que la mayoría de los sistemas VLA solo aprenden trayectorias de acción sin comprender realmente las relaciones causales físicas. Este modelo desplaza el aprendizaje de secuencias de acciones fijas hacia eventos físicos significativos, como alcanzar, agarrar, levantar y colocar. A diferencia de las arquitecturas tradicionales, WALL-WM alinea las observaciones visuales, las descripciones lingüísticas y las acciones en torno a eventos del mundo real, con el objetivo de que el robot no solo pueda actuar, sino también predecir resultados, razonar sobre cambios físicos y ajustarse cuando un plan falla.
Para abordar el cuello de botella de datos en la inteligencia encarnada, X Square Robot ha lanzado el marco de hardware y software XRZero-G0. Este sistema combina interfaces portátiles, sensores multivista, control de calidad automatizado y verificación con robots reales para la recopilación de datos y el entrenamiento sin necesidad de robots. Mediante experimentos controlados, la empresa descubrió que combinar diez demostraciones sin robot con una demostración con robot real puede alcanzar un rendimiento comparable al de un conjunto de datos construido completamente con datos de robots reales. La empresa también ha publicado más de 2000 horas de datos multimodales, que abarcan aproximadamente 3000 tareas, para apoyar la investigación en inteligencia encarnada.
Estas tres tecnologías de código abierto conforman conjuntamente un marco integral que abarca datos, modelos mundiales y modelos base de robótica. Wang Qian cree que el "momento eureka" de la inteligencia encarnada podría estar más cerca de lo que la gente imagina.
Este artículo es compilado por Wedoany, las citas de la IA deben indicar la fuente «Wedoany»; si hay alguna infracción u otro problema, por favor notifícanos a tiempo, este sitio lo modificará o eliminará. Correo electrónico: news@wedoany.com









