Xiaomi de China lanza HarnessX, el rendimiento de los agentes de IA mejora en promedio un 14.5%
2026-06-25 10:16
Favoritos

es.wedoany.com Noticia: Investigadores de Xiaomi presentan el marco HarnessX, diseñado para resolver el cuello de botella de ingeniería que limita el rendimiento de los agentes de IA empresariales debido al "arnés" (harness). Este marco trata los arneses de IA como objetos componibles y mejora automáticamente su código, potenciando el rendimiento de los sistemas de IA en áreas como la ingeniería de software y la interacción web.

Actualmente, los arneses de las aplicaciones de IA son en su mayoría estáticos y creados manualmente, careciendo de la capacidad de mejorar automáticamente basándose en datos de ejecución, lo que se convierte en un factor clave que limita a los agentes de IA para completar tareas complejas y de largo plazo. El desarrollo tradicional de arneses enfrenta tres desafíos principales: primero, son estáticos y requieren reescritura manual; segundo, el acoplamiento arquitectónico hace que los ajustes en un componente puedan dañar otros; y tercero, el arnés y el modelo base se optimizan de forma aislada, y las trayectorias de ejecución a menudo se descartan.

HarnessX resuelve estos cuellos de botella mediante una "fundición unificada de arneses". Su innovación central es tratar el arnés como un "objeto de primera clase", es decir, una entidad independiente, serializable, modular y reemplazable, separando así la configuración del modelo de la del arnés. Este método descompone el comportamiento del agente en componentes como ensamblaje de contexto, gestión de memoria, ecosistema de herramientas, flujo de control y observabilidad, insertando cada comportamiento como un "procesador" en los ganchos del ciclo de vida del arnés.

Estructura de HarnessX

Para optimizar automáticamente la estructura modular, HarnessX introduce AEGIS, un motor evolutivo impulsado por trayectorias. Este motor trata la adaptación del arnés como un problema de aprendizaje por refuerzo y, para abordar patologías como el hackeo de recompensas, el olvido catastrófico y la exploración insuficiente, diseña un proceso de cuatro etapas que incluye un digestor, un planificador, un evolucionador y un crítico con compuerta. El digestor comprime las trayectorias de ejecución en resúmenes estructurados, el planificador analiza los resúmenes para explorar cambios estructurales, el evolucionador genera ediciones y pruebas a nivel de código, y el crítico con compuerta previene el hackeo de recompensas y el olvido catastrófico.

AEGIS

HarnessX también logra la coevolución del arnés y el modelo. A través del algoritmo GRPO (Optimización de Política Relativa de Grupo) entre arneses, reúne las trayectorias de ejecución generadas en diferentes versiones del arnés como señales de aprendizaje por refuerzo para el modelo, permitiendo que este internalice estrategias avanzadas como el uso de nuevas herramientas.

Coevolución arnés-modelo

Las pruebas prácticas se realizaron en cinco puntos de referencia, que abarcan ingeniería de software, diálogos de atención al cliente de múltiples rondas, navegación web, razonamiento abierto de múltiples pasos y planificación encarnada. En las pruebas, un metaagente impulsado por Claude Opus 4.6 se encargó de analizar registros y escribir código, mientras que los agentes de tareas fueron Claude Sonnet 4.6, GPT-5.4 y el modelo de pesos abiertos Qwen3.5-9B. Los resultados muestran que los arneses evolutivos dinámicos mejoraron el rendimiento en 14 de las 15 combinaciones modelo-punto de referencia, con una mejora absoluta promedio del +14.5%. El modelo de código abierto más débil, Qwen3.5-9B, obtuvo el mayor beneficio, con un salto de rendimiento del +44.0% en el punto de referencia de planificación encarnada ALFWorld y un +18.2% en el punto de referencia de ingeniería de software SWE-bench Verified. Cuando se utilizaron datos generados por arneses evolutivos para entrenar el modelo base, se logró una mejora adicional promedio del +4.7%.

Rendimiento de HarnessX

Actualmente, HarnessX depende de potentes modelos frontera cerrados (como Claude Opus) como metaagentes para reescribir el código del arnés; la capacidad de los modelos de pesos abiertos como metaagentes aún está por probarse. Además, si el modelo subyacente no puede ejecutar flujos de trabajo complejos, el marco no podrá mejorar la capacidad general. No obstante, los investigadores planean publicar el código en futuras actualizaciones, y HarnessX ofrece a los profesionales una nueva perspectiva centrada en la optimización de la ingeniería de arneses, en lugar de la mera ampliación de modelos.

Este artículo es compilado por Wedoany, las citas de la IA deben indicar la fuente «Wedoany»; si hay alguna infracción u otro problema, por favor notifícanos a tiempo, este sitio lo modificará o eliminará. Correo electrónico: news@wedoany.com