Alibaba de China lanza tres modelos de IA robótica de la suite Qwen-Robot
2026-06-19 11:42
Favoritos

es.wedoany.com Noticia: Los ingenieros de Alibaba han lanzado la suite Qwen-Robot, compuesta por tres modelos básicos de IA diseñados para robots y agentes inteligentes, que no solo comprenden texto e imágenes, sino que también pueden ejecutar acciones en el mundo físico.

La suite incluye tres modelos, cada uno orientado a diferentes necesidades de tareas robóticas.

Qwen-RobotNav es un modelo que integra múltiples escenarios de navegación, abarcando funciones como seguimiento de instrucciones, desplazamiento a puntos designados, búsqueda de objetos, seguimiento de objetivos y conducción autónoma. Este modelo se posiciona como un modelo base para la navegación de sistemas de agentes inteligentes, permitiendo que un planificador externo lo combine con subtareas derivadas de una tarea mayor, y cambie dinámicamente el modo del modelo durante la ejecución.

El modelo admite la configuración de protocolos de observación, lo que permite al sistema realizar ajustes dinámicos al procesar el contexto visual, como modificar la cantidad de tokens o los pesos de diferentes cámaras. Los ingenieros lo entrenaron con 15,6 millones de muestras, y el número de parámetros se amplió de 2 mil millones a 8 mil millones para mejorar el rendimiento.

Qwen-RobotManip es un modelo de visión-lenguaje-acción basado en Qwen-VL, especializado en la interacción física con objetos. Este modelo está diseñado para abordar el problema de la heterogeneidad de datos robóticos, es decir, las diferencias entre robots debido a variaciones en estructura, sensores y métodos de control.

Para resolver este problema, Qwen-RobotManip emplea un mecanismo de alineación de representaciones, acciones y comportamientos, lo que facilita a los desarrolladores la transferencia de habilidades entre diferentes robots. El modelo se entrenó en un conjunto de datos que incluye 38,000 videos, datos robóticos y datos sintéticos.

Qwen-RobotWorld es un modelo del mundo que puede "predecir" la evolución del entorno físico basándose en observaciones en tiempo real e instrucciones de texto. Este modelo puede generar trayectorias visuales futuras para diferentes escenarios.

Actualmente, todos los modelos de la suite se han publicado como código abierto y se pueden ver videos de demostración en la página oficial.

Este artículo es compilado por Wedoany, las citas de la IA deben indicar la fuente «Wedoany»; si hay alguna infracción u otro problema, por favor notifícanos a tiempo, este sitio lo modificará o eliminará. Correo electrónico: news@wedoany.com