Microsoft lanza ASSERT, un marco de código abierto para simplificar las pruebas y evaluación del comportamiento de la IA
2026-06-03 09:48
Favoritos

es.wedoany.com Noticia: Microsoft lanzó el martes el marco de código abierto ASSERT (Adaptive Spec-driven Scoring for Evaluation and Regression Testing, Puntuación Adaptativa Basada en Especificaciones para Evaluación y Pruebas de Regresión), diseñado para simplificar el proceso de prueba y evaluación del comportamiento de las aplicaciones de IA.

Este marco utiliza tecnología de inteligencia artificial para convertir descripciones de alto nivel en lenguaje natural sobre objetivos, estrategias o comportamientos esperados en casos de prueba ejecutables y calificables. ASSERT recibe descripciones en lenguaje común sobre el comportamiento esperado y las estrategias del modelo de IA, las transforma en un conjunto estructurado de comportamientos aceptables e inaceptables, genera escenarios problemáticos y casos de prueba, ejecuta estos casos en el sistema objetivo y califica los resultados. El marco también registra las rutas seguidas por el sistema de IA, incluyendo acciones intermedias y llamadas a herramientas, facilitando a los desarrolladores la identificación de dónde ocurren las fallas.

Los desarrolladores pueden proporcionar contexto adicional del sistema, herramientas y restricciones para personalizar el alcance de la evaluación. Por ejemplo, un desarrollador puede especificar que un agente de IA de investigación documental no debe enviar correos electrónicos a personas externas a la empresa, debe limitar la información confidencial a los ejecutivos de nivel C y proporcionar resúmenes concisos considerando el contexto previo. ASSERT utilizará estas reglas para generar casos de prueba y verificar continuamente si el sistema cumple con ellas.

Microsoft afirma que ASSERT llena un vacío que las evaluaciones más amplias y generales no pueden cubrir cuando el comportamiento del modelo de IA debe moldearse según el contexto, las políticas y las herramientas de la aplicación o producto. "Una cosa que aprendimos es que la evaluación es absolutamente crucial para tomar decisiones correctas", dijo Sarah Bird, directora de producto principal de IA responsable de Microsoft. "Porque sin comprender el comportamiento del sistema de IA, es difícil saber si cumple con los estándares de la organización... Descubrimos que, si realmente queremos tener un sistema confiable, debemos evaluar dimensiones más específicas de la aplicación". Bird indicó que ASSERT se puede utilizar durante la construcción del sistema, después de la implementación e incluso en monitoreo continuo para realizar evaluaciones.

Este lanzamiento se produce en un momento en que las capacidades de evaluación en la industria de la IA están mejorando gradualmente. A medida que aumentan las capacidades de los modelos, los investigadores comienzan a centrarse en pruebas repetibles y verificaciones de regresión. Iniciativas como HELM de la Universidad de Stanford, AILuminate de MLCommons y el equipo de evaluación METR han lanzado puntos de referencia para medir el comportamiento de los modelos en diferentes condiciones.

Este artículo es compilado por Wedoany, las citas de la IA deben indicar la fuente «Wedoany»; si hay alguna infracción u otro problema, por favor notifícanos a tiempo, este sitio lo modificará o eliminará. Correo electrónico: news@wedoany.com