NTT de Japón propone un marco de razonamiento XAI multimodal, y la colaboración de agentes de IA complementa la debilidad de la "credibilidad explicativa" Noticias Globales

NTT de Japón propone un marco de razonamiento XAI multimodal, y la colaboración de agentes de IA complementa la debilidad de la "credibilidad explicativa"

2026-06-03 13:59

Favoritos

es.wedoany.com Noticia: Recientemente, NTT de Japón anunció el desarrollo de una nueva tecnología de razonamiento de IA explicable para modelos base multimodales, denominada "Rationale-Enhanced Decoding". Esta tecnología está diseñada para mejorar la fiabilidad de las salidas de los grandes modelos de lenguaje visual al procesar imágenes y texto. La investigación relacionada se presentará en la CVPR 2026, que se celebrará del 3 al 7 de junio en Denver, Estados Unidos.

Esta tecnología aborda un problema clave en las aplicaciones actuales de IA multimodal: la respuesta final generada por el modelo no necesariamente utiliza realmente el razonamiento que produjo en el paso anterior. NTT descubrió en experimentos que, aunque los grandes modelos de lenguaje visual existentes pueden generar primero un proceso de razonamiento intermedio y luego dar una respuesta final basada en imágenes, texto y el contenido del razonamiento, a veces el modelo ignora este contenido de razonamiento y produce el resultado basándose directamente en la información de la imagen. Incluso cuando los investigadores reemplazaron el razonamiento con contenido irrelevante para la pregunta, el modelo seguía dando la misma respuesta que antes. Esto significa que la llamada "cadena de pensamiento" no equivale naturalmente a una explicación real en algunos escenarios, y difícilmente puede respaldar aplicaciones de alta fiabilidad como imágenes médicas, toma de decisiones empresariales o auditorías de procesos críticos.

El Rationale-Enhanced Decoding propuesto por NTT no requiere reentrenar el modelo ni depende de conjuntos de datos adicionales. Su enfoque consiste en desglosar la distribución de probabilidad bajo condiciones de entrada visual y la distribución de probabilidad bajo condiciones de razonamiento durante la fase de inferencia, y luego combinarlas mediante decodificación para generar la respuesta final, de modo que la salida esté restringida tanto por la información de la imagen como por el razonamiento.

Esta característica de "no requerir reentrenamiento" lo hace más adecuado para integrarse en grandes modelos de lenguaje visual existentes y sistemas de IA empresariales. A medida que los agentes de IA comienzan a asumir tareas como comprensión de documentos, análisis de video, inspección industrial, colaboración en atención al cliente, revisión de riesgos y apoyo a decisiones empresariales, las empresas no solo necesitan que el modelo proporcione respuestas, sino también determinar si esas respuestas se basan en una cadena de evidencia rastreable y verificable. Si los modelos multimodales tradicionales solo pueden ofrecer un proceso de razonamiento superficial, sin una restricción de coherencia entre la respuesta final y el razonamiento, esto afectará la asignación de responsabilidades y el control de riesgos de la IA en escenarios críticos. La investigación de NTT lleva la capacidad explicativa de "mostrar razones después del hecho" a "forzar el uso de razones durante el proceso de razonamiento", lo cual es igualmente importante para la colaboración entre agentes de IA, ya que cuando múltiples sistemas de IA trabajan juntos, el agente posterior necesita entender por qué el agente anterior tomó una decisión y continuar la tarea basándose en el mismo razonamiento.

Las variables posteriores de esta investigación se centran en la integración de ingeniería y la validación de aplicaciones. Si Rationale-Enhanced Decoding puede mantener un rendimiento estable en más modelos multimodales, más tareas de comprensión de imágenes y sistemas de agentes empresariales, la IA explicable dejará de ser solo una capacidad adicional a nivel de cumplimiento o auditoría, y se convertirá en una de las capacidades fundamentales para que la IA multimodal entre en los procesos de producción. Para la industria de la información y las comunicaciones, este tipo de tecnología también demuestra que la competencia en IA empresarial se está extendiendo desde la escala del modelo y la capacidad de respuesta, hacia la coherencia del razonamiento, la credibilidad explicativa y la fiabilidad de la colaboración entre sistemas.

Este artículo es compilado por Wedoany, las citas de la IA deben indicar la fuente «Wedoany»; si hay alguna infracción u otro problema, por favor notifícanos a tiempo, este sitio lo modificará o eliminará. Correo electrónico: news@wedoany.com