Microsoft identifica siete nuevos modos de fallo en sistemas de IA agente Noticias Globales

Microsoft identifica siete nuevos modos de fallo en sistemas de IA agente

2026-06-06 11:15

Favoritos

es.wedoany.com Noticia: Basándose en su «Taxonomía de modos de fallo en sistemas de IA agente (Taxonomy of Failure Modes in Agentic AI Systems)» publicada el año pasado, Microsoft ha identificado siete nuevos modos de fallo en los sistemas de IA agente.

Principio de funcionamiento de la IA agente

Existen cuatro razones principales que provocan más fallos en la IA agente: la aceleración de la adopción generalizada de esta tecnología, la creciente madurez del ecosistema del Protocolo de Contexto de Modelo (Model Context Protocol, MCP), el auge de los agentes de uso informático (computer-use agents) y la acumulación de evidencia empírica a medida que los investigadores obtienen más hallazgos prácticos.

Los siete nuevos modos de fallo identificados incluyen: Compromiso de la cadena de suministro de agentes (Agentic Supply Chain Compromise), donde el comportamiento del agente puede verse afectado por lenguaje natural en lugar de código malicioso; Secuestro de objetivos (Goal Hijacking), donde instrucciones adversarias parecen alineadas con tareas legítimas mientras redirigen encubiertamente el objetivo final del agente; Escalada de confianza entre agentes (Inter-Agent Trust Escalation), donde un agente comprometido afirma una identidad falsa o exagera permisos ante el orquestador (orchestrator); Ataque visual a agentes de uso informático (CUA) (Computer Use Agent (CUA) Visual Attack), donde los agentes que operan a través de interfaces gráficas pueden ser manipulados por contenido que contiene instrucciones adversarias; Contaminación del contexto de sesión (Session Context Contamination), donde un adversario introduce datos que sesgan el razonamiento del agente en pasos posteriores sin activar controles de seguridad en ningún paso individual; Abuso de MCP/plugins (MCP / Plugin Abuse), una actualización de la cobertura de funciones comprometidas en la clasificación original relacionada con los protocolos MCP y de plugins, especialmente las superficies de ataque específicas de estos protocolos; y Fuga de capacidades/arquitectura (Capability / Architecture Disclosure), donde el agente revela detalles de implementación interna, como nombres y patrones de herramientas, estructura de indicaciones del sistema, interfaces de memoria o lógica de activación de consentimiento/humano en el circuito.

Microsoft recomienda que los equipos de seguridad utilicen estas definiciones de modos de fallo para guiar la planificación, inventariar las cadenas de suministro, generar una lista de materiales de software (SBOM) para cada agente implementado, verificar criptográficamente la identidad del agente (en lugar de la ubicación) mediante credenciales demostrables emitidas al otorgar credenciales, agregar los siete nuevos modos de fallo a la matriz de cobertura del equipo rojo y auditar la experiencia de usuario de humano en el circuito como control de seguridad.

Este artículo es compilado por Wedoany, las citas de la IA deben indicar la fuente «Wedoany»; si hay alguna infracción u otro problema, por favor notifícanos a tiempo, este sitio lo modificará o eliminará. Correo electrónico: news@wedoany.com