es.wedoany.com Noticia: El 16 de junio, Alibaba lanzó la serie de modelos de inteligencia encarnada de gran escala Qwen-Robot, que incluye tres modelos principales: el modelo de operación VLA Qwen-RobotManip, el modelo de navegación VLN Qwen-RobotNav y el modelo del mundo Qwen-RobotWorld. Esta es la primera serie completa de modelos de inteligencia encarnada de la familia de modelos de gran escala Qwen, diseñada para capacidades de operación robótica, navegación móvil y comprensión del entorno. Se pueden implementar de forma independiente o trabajar en conjunto, proporcionando una base de modelo universal para que robots de diferentes formas ingresen a escenarios reales.
La clave de la inteligencia encarnada es permitir que la IA no solo comprenda y genere en texto, imágenes y videos, sino que también interactúe con el mundo físico. Para que un robot funcione en un entorno real, debe completar múltiples capacidades simultáneamente, como "ver objetos, comprender tareas, planificar rutas, controlar acciones y evaluar resultados". La serie Qwen-Robot divide la operación, la navegación y el modelado del mundo en tres direcciones de modelo, lo que indica que Alibaba busca extender las capacidades de los modelos de gran escala generales a la cadena de acciones robóticas, en lugar de limitarse al diálogo o al reconocimiento visual.
Qwen-RobotManip es un modelo de operación VLA, donde VLA significa modelo de visión-lenguaje-acción, centrado en resolver el problema de la "mano" del robot. Cuando un robot se enfrenta a objetos sobre una mesa, herramientas, piezas o artículos cotidianos, necesita identificar el objetivo, comprender las instrucciones y luego generar acciones ejecutables como agarrar, mover, colocar, abrir, cerrar y organizar. El control robótico tradicional depende de programas fijos y entornos estructurados; una vez que la posición del objeto, el fondo, la iluminación o la expresión de la tarea cambian, la capacidad de generalización tiende a disminuir. El valor del modelo VLA radica en colocar la percepción visual, las instrucciones de lenguaje y el control de acciones en un mismo marco, permitiendo que el robot genere estrategias de acción basadas en lenguaje natural y escenas visuales en tiempo real.
Qwen-RobotNav es un modelo de navegación VLN, donde VLN significa modelo de navegación visual-lenguaje, centrado en resolver el problema del "pie" del robot. Cuando robots de servicio, robots de inspección, robots cuadrúpedos y plataformas móviles ingresan a entornos como oficinas, fábricas, almacenes, parques industriales o hogares, deben comprender "a dónde ir, cómo llegar, qué evitar y qué hacer al llegar". La navegación móvil no es solo planificación de rutas, sino que también implica comprensión semántica del espacio, evitación de obstáculos, seguimiento de instrucciones múltiples y confirmación de la ubicación de la tarea. El modelo VLN permite que el robot correlacione objetivos de lenguaje con entornos visuales, completando así tareas de movimiento en entornos abiertos más complejos.
Qwen-RobotWorld asume el papel de modelo del mundo, centrado en resolver el problema del "cerebro" del robot. El modelo del mundo se utiliza para comprender relaciones entre objetos, estructuras espaciales, consecuencias de acciones y cambios ambientales, ayudando al robot a predecir y planificar antes de ejecutar. Si un robot solo puede ejecutar acciones paso a paso según instrucciones, le resultará difícil manejar situaciones inesperadas en el mundo real; el modelo del mundo permite que el sistema estime "qué sucederá después de hacer esto" y ajuste la estrategia durante la tarea. Para escenarios industriales, logísticos, de servicios comerciales y domésticos, esta capacidad es crucial para que el robot pase de tareas demostrativas a operaciones continuas.
Anteriormente, Alibaba ya había investigado en la dirección de Qwen-VLA. Los documentos técnicos oficiales de Qwen-VLA muestran que este modelo integra operación, navegación y predicción de trayectorias en un marco unificado de predicción de acciones y trayectorias, y se adapta a diferentes plataformas robóticas mediante indicaciones de percepción encarnada. La investigación relacionada enfatiza que un modelo unificado puede servir a múltiples plataformas encarnadas, sin necesidad de diseñar cabezales de salida separados para cada plataforma. Tras el lanzamiento de la serie Qwen-Robot, la ruta de inteligencia encarnada de Qwen ha pasado de un marco de investigación a un sistema de modelos más orientado al producto.
Desde una perspectiva industrial, el lanzamiento de la serie Qwen-Robot ocurre en un contexto de aceleración en la implementación de robots humanoides, robots móviles y agentes inteligentes industriales. Las empresas de robótica enfrentan un problema común: el hardware avanza rápidamente, pero las capacidades de tareas generales, la generalización de escenarios y el ciclo cerrado de datos siguen siendo cuellos de botella. Los sensores, articulaciones, actuadores y métodos de control de diferentes formas robóticas varían considerablemente; si cada producto entrena modelos desde cero, los costos son altos, los ciclos largos y es difícil acumular capacidades multiplataforma. El objetivo de los modelos de gran escala de inteligencia encarnada es proporcionar capacidades reutilizables de percepción, comprensión, planificación y generación de acciones para diferentes robots.
Para Alibaba, la serie Qwen-Robot también completa un eslabón en el modelo de gran escala Qwen, desde lenguaje, multimodalidad, agentes hasta la interacción con el mundo físico. Los modelos de gran escala generales están pasando de la ejecución de tareas en línea a la ejecución en escenarios reales, y los robots necesitan que los modelos de gran escala proporcionen capacidades más sólidas de comprensión de tareas y planificación de acciones. En el futuro, si los modelos encarnados pueden implementarse realmente dependerá de las interfaces de hardware robótico, la escala de datos de entrenamiento, la transferencia entre simulación y entorno real, los límites de seguridad de las acciones y la adaptación a escenarios industriales. El lanzamiento del modelo es solo el punto de partida; los resultados de verificación posteriores en almacenamiento, inspección, fabricación, servicios comerciales y domésticos determinarán su valor industrial.
La importancia de la serie Qwen-Robot radica en que Alibaba comienza a ingresar al núcleo de la inteligencia encarnada con una combinación completa de modelos. VLA resuelve la operación, VLN resuelve la navegación, y el modelo del mundo resuelve la comprensión del entorno y la planificación. Con la sinergia de los tres, los robots tienen la oportunidad de pasar de la ejecución de habilidades únicas al procesamiento de tareas de múltiples pasos. A medida que la inteligencia encarnada pasa del laboratorio a entornos de trabajo reales, la base de modelos universales, la capacidad de adaptación de hardware y el ciclo cerrado de datos de escenarios se convertirán en variables clave en la competencia de la industria robótica.
Este artículo es compilado por Wedoany, las citas de la IA deben indicar la fuente «Wedoany»; si hay alguna infracción u otro problema, por favor notifícanos a tiempo, este sitio lo modificará o eliminará. Correo electrónico: news@wedoany.com









