es.wedoany.com Noticia: El 24 de junio, Qianwen de China lanzó oficialmente Qwen-AgentWorld, un modelo de mundo lingüístico nativo, junto con AgentWorldBench, un punto de referencia de evaluación de modelos de mundo lingüístico que abarca siete áreas. El modelo y el punto de referencia ya están disponibles de forma abierta en Hugging Face y ModelScope, orientados a escenarios como simulación de entornos de agentes de IA, entrenamiento de tareas y evaluación de capacidades.
El núcleo de Qwen-AgentWorld es ser un "modelo de mundo lingüístico", no un modelo de diálogo general. Simula los cambios de estado del entorno del agente mediante el lenguaje, prediciendo la retroalimentación del entorno en el siguiente paso según las acciones del agente y el historial de interacciones. Para los agentes de IA, este tipo de modelo proporciona un espacio de interacción virtual donde se puede probar y errar repetidamente, utilizado para entrenar y evaluar la capacidad de planificación, ejecución y corrección de errores del agente en tareas complejas.
El Qwen-AgentWorld lanzado cubre siete áreas de interacción de agentes, incluyendo llamadas a herramientas MCP, búsqueda, terminal, ingeniería de software, Android, web y sistemas operativos. Estas áreas incluyen tanto entornos textuales como interfaces gráficas y entornos de operación de software, cubriendo las entradas de tareas comunes de los agentes de IA actuales. El modelo se puede utilizar para simular resultados de ejecución de comandos en terminal, retroalimentación de operaciones web, cambios de interfaz en aplicaciones móviles, progreso de tareas de ingeniería de software y respuestas del entorno tras llamadas a herramientas.
Según información oficial, Qwen-AgentWorld-35B-A3B se entrena basándose en Qwen3.5-35B-A3B-Base, con un total de 35 mil millones de parámetros, aproximadamente 3 mil millones de parámetros activados y soporte para una longitud de contexto de 262K. Su proceso de entrenamiento incluye tres etapas: preentrenamiento continuo, ajuste fino supervisado y aprendizaje por refuerzo, centrándose en el modelado del entorno desde las primeras etapas de entrenamiento, en lugar de añadir capacidades de simulación temporalmente sobre un modelo de lenguaje general.
El AgentWorldBench lanzado simultáneamente se utiliza para evaluar la calidad de simulación del modelo de mundo lingüístico en diferentes entornos de interacción. Este punto de referencia puntúa las observaciones del entorno predichas por el modelo desde cinco dimensiones: formato, factualidad, consistencia, realismo y calidad, ayudando a los investigadores a comparar el rendimiento de diferentes modelos en tareas de simulación de entornos. La página de Hugging Face muestra que el conjunto de datos AgentWorldBench está disponible en forma de conjunto de prueba, que contiene aproximadamente 2170 muestras.
Este tipo de modelo tiene un significado directo para el desarrollo de agentes de IA. Actualmente, el entrenamiento de agentes enfrenta un problema real: el alto costo de llamar a entornos reales, la complejidad de los estados de las tareas y la dificultad de reproducir de manera estable a gran escala entornos de API, web, terminal y aplicaciones móviles. Si el modelo de mundo lingüístico puede simular con precisión la retroalimentación del entorno, los investigadores pueden permitir que el agente pruebe y erre múltiples veces en un entorno virtual, y luego transferir las estrategias obtenidas a tareas reales.
El lanzamiento de Qwen-AgentWorld también indica que la competencia de los grandes modelos está pasando de "responder preguntas" a "comprender el entorno y predecir cambios en el entorno". En el pasado, los grandes modelos competían principalmente en conocimiento, razonamiento y capacidad de generación; en la era de los agentes, se enfatiza más la capacidad de juzgar las consecuencias de las acciones en interacciones múltiples. El valor del modelo de mundo radica precisamente en establecer un puente de simulación entrenable, evaluable y escalable entre acciones y resultados.
Sin embargo, el modelo de mundo lingüístico aún no puede reemplazar el entorno real. Las páginas web, los sistemas operativos, las aplicaciones móviles y las llamadas a herramientas se ven afectados por cambios en versiones, permisos, estado de la red y servicios externos; los resultados de simulación deben ser verificados en escenarios reales. Qwen-AgentWorld es más adecuado como infraestructura para el entrenamiento y evaluación de agentes, para reducir el costo de prueba y error, ampliar la cobertura del entorno y descubrir debilidades del agente, en lugar de ser directamente equivalente a la operación de un sistema real.
Con la apertura simultánea del modelo y el punto de referencia, los desarrolladores pueden realizar evaluaciones secundarias y ajustes finos en escenarios como terminal, ingeniería de software, aplicaciones móviles, búsqueda y llamadas a herramientas. Para que los agentes de IA pasen de la demostración a ser utilizables, se necesita una simulación de entorno más estable, estándares de evaluación reproducibles y un ciclo de entrenamiento orientado a tareas reales; Qwen-AgentWorld precisamente complementa una nueva base de herramientas en este eslabón.
Este artículo es compilado por Wedoany, las citas de la IA deben indicar la fuente «Wedoany»; si hay alguna infracción u otro problema, por favor notifícanos a tiempo, este sitio lo modificará o eliminará. Correo electrónico: news@wedoany.com









