es.wedoany.com Noticia: Microsoft ha lanzado recientemente un marco de evaluación de IA de código abierto diseñado para convertir requisitos en lenguaje natural en pruebas ejecutables, con el objetivo de fortalecer las capacidades de las empresas en la gobernanza de la inteligencia artificial. Este marco, denominado ASSERT (Adaptive Specification-Driven Scoring for Evaluation and Regression Testing), genera automáticamente escenarios de evaluación, conjuntos de datos, métricas y cuadros de mando a partir de especificaciones escritas, requisitos de producto y documentos de gobernanza. En una publicación de blog anunciando el lanzamiento, Microsoft señaló que muchas organizaciones tienen dificultades para verificar sistemáticamente el comportamiento de los agentes antes de ponerlos en producción.

Los agentes pueden fallar de maneras difíciles de detectar, como desviarse de las políticas establecidas, generar resultados inseguros en casos límite, o mostrar un rendimiento diferente en producción en comparación con las pruebas. Los puntos de referencia genéricos no pueden capturar estos fallos, ya que no se construyen en torno a políticas, agentes o casos de uso específicos. ASSERT elimina la necesidad de que los desarrolladores creen manualmente conjuntos de evaluación, transformando intenciones escritas en pruebas reutilizables que pueden integrarse en el flujo de desarrollo de IA.
Con ASSERT, Microsoft ingresa al cada vez más competitivo mercado de evaluación de IA, donde ya existen plataformas como LangSmith de LangChain, Braintrust, Patronus AI, Galileo, Phoenix de Arize AI y Promptfoo, que ayudan a las empresas a realizar pruebas comparativas, monitorear y verificar aplicaciones de modelos de lenguaje grandes. Este lanzamiento se produce en un momento en que las empresas aceleran el despliegue de agentes de IA, pero las prácticas formales de evaluación siguen siendo la excepción y no la regla. Anushree Verma, analista directora senior de Gartner, señaló que actualmente el 99% de las organizaciones no evalúa ningún agente de IA antes de la producción. La próxima ventaja competitiva de la industria dependerá más de la efectividad con que las organizaciones simulen y sometan a pruebas de estrés a los agentes de IA antes del despliegue, que de los avances en modelos de razonamiento. Gartner estima que, para 2029, en industrias reguladas, más del 75% de los agentes especializados en dominios que no hayan sido diseñados mediante simulación de agentes no lograrán ofrecer valor.
Forrester considera que las empresas están avanzando hacia la evaluación del comportamiento, pero la mayoría de las organizaciones aún no la han establecido como un requisito formal de producción. Biswajeet Mahapatra, analista principal de Forrester, indicó que la evaluación del comportamiento se aplica de manera inconsistente, en lugar de ser considerada un control formal de producción. Según datos de Forrester, más del 45% de las organizaciones ya están utilizando agentes de IA, y otro 25% se encuentra en fase piloto, pero muchas aún enfrentan dificultades para escalar debido a la inmadurez de la gobernanza y la limitada rigurosidad operativa.
Microsoft afirmó que ASSERT utiliza modelos de lenguaje grandes como evaluadores, y en las validaciones internas de la empresa, las evaluaciones generadas por el modelo mostraron una tasa de concordancia del 80% al 90% con los revisores humanos. Biswajeet Mahapatra, analista principal de Forrester, señaló que esta tasa de concordancia ayuda a automatizar gran parte de las pruebas de IA, pero no es suficiente como medida de control independiente para la gobernanza o el cumplimiento normativo. Las empresas deberían adoptar una supervisión en capas, permitiendo que la IA evalúe a la IA a gran escala, mientras que los humanos mantienen la responsabilidad de supervisión en escenarios de alto riesgo, regulados o ambiguos. Los compradores también deben tener en cuenta problemas de sesgo, consistencia y la dependencia excesiva de un solo modelo que actúa tanto como generador como evaluador.
Microsoft ha lanzado ASSERT bajo la licencia de código abierto MIT, permitiendo a las organizaciones inspeccionar, modificar e integrar el marco en sus flujos de desarrollo de IA existentes. Biswajeet Mahapatra, analista principal de Forrester, indicó que el código abierto reduce el riesgo de dependencia de un proveedor y permite una amplia interoperabilidad entre ecosistemas de modelos, pero no elimina por completo los problemas de confianza o conflicto de intereses, ya que el proveedor original aún influye en cómo se codifican los estándares de evaluación, la lógica de puntuación y la definición de comportamiento aceptable. Las empresas no deben depender de un único marco de evaluación, sino validar los sistemas de IA con múltiples métodos de evaluación y mantener la propiedad de sus estrategias internas de evaluación.
Este artículo es compilado por Wedoany, las citas de la IA deben indicar la fuente «Wedoany»; si hay alguna infracción u otro problema, por favor notifícanos a tiempo, este sitio lo modificará o eliminará. Correo electrónico: news@wedoany.com









