NTT de Japón lanza un marco de razonamiento de IA explicable multimodal, los modelos de lenguaje visual entran en la fase de calibración de salida confiable Noticias Globales

NTT de Japón lanza un marco de razonamiento de IA explicable multimodal, los modelos de lenguaje visual entran en la fase de calibración de salida confiable

2026-06-02 16:45

Favoritos

es.wedoany.com Noticia: NTT de Japón anunció recientemente el establecimiento del marco de razonamiento de IA explicable multimodal "Rationale-Enhanced Decoding", orientado al problema de la confiabilidad de la salida en el razonamiento conjunto de imágenes y texto de los grandes modelos de lenguaje visual, mejorando la consistencia entre la respuesta final del modelo y la base del razonamiento. Este resultado se presentará en la CVPR 2026, que se celebrará del 3 al 7 de junio en Denver, EE. UU., y sus aplicaciones se dirigen a escenarios como la toma de decisiones empresariales, la colaboración de agentes de IA, la comprensión de documentos, la respuesta visual a preguntas y la interacción humano-computadora de alta confiabilidad.

Los grandes modelos de lenguaje visual están pasando de "responder mirando imágenes" a un razonamiento multimodal más complejo, capaces de procesar simultáneamente imágenes, texto, tablas, capturas de pantalla, fragmentos de video y documentos comerciales, entrando gradualmente en la fase de prueba e implementación en inspección industrial, imágenes médicas, revisión de contratos, operación y mantenimiento remotos, servicio al cliente inteligente y gestión del conocimiento empresarial. Sin embargo, el problema clave de este tipo de modelos es que el proceso de razonamiento intermedio generado no necesariamente afecta realmente la respuesta final. NTT señaló en su investigación que los métodos tradicionales de cadena de pensamiento multimodal primero generan explicaciones o bases de razonamiento, y luego ingresan estos contenidos junto con la imagen original al modelo para generar la respuesta final; superficialmente, el modelo proporciona una "razón", pero la salida real puede seguir dependiendo principalmente de las características de la imagen, e incluso cuando la base del razonamiento se reemplaza por contenido irrelevante, el modelo aún da la respuesta original. Esto significa que la supuesta explicación podría ser solo texto adicional, sin poder demostrar que el modelo realmente realizó el juicio según esa explicación. Para los sistemas de IA empresarial que requieren auditoría, rendición de cuentas y revisión, esto debilita la confiabilidad de la IA multimodal en negocios clave y también limita la entrada de los modelos de lenguaje visual en escenarios de alta confiabilidad como el diagnóstico médico, el control de riesgos financieros, la inspección de calidad en fabricación y los procesos de oficina complejos.

La solución propuesta por NTT no requiere reentrenar el modelo ni depende de conjuntos de datos adicionales, sino que reorganiza la forma de generación de salida en la fase de inferencia.

Este marco forma distribuciones condicionales separadas para la entrada visual y la base del razonamiento, y luego completa la predicción de la siguiente palabra mediante una combinación, de modo que el modelo, al generar la respuesta, esté restringido simultáneamente por la información de la imagen y la información de la razón. En otras palabras, la respuesta final debe ser coherente tanto con el contenido visual como con la base del razonamiento, en lugar de tratar el texto explicativo como un contenido accesorio prescindible. NTT describe este método como una técnica de decodificación plug-and-play que se puede integrar en los grandes modelos de lenguaje visual existentes, reduciendo los costos de cómputo, datos e implementación que conlleva el entrenamiento adicional. Los resultados de la investigación muestran que este método puede mejorar la precisión de las respuestas y la fidelidad de la base del razonamiento en varios modelos de lenguaje visual; cuando se ingresan bases de razonamiento de mayor calidad, el efecto del marco se fortalece aún más. Para la implementación empresarial de la IA, el valor de este tipo de ruta técnica radica en avanzar de "el modelo puede responder" a "la respuesta del modelo puede ser explicada, verificada y revisada", proporcionando una base de razonamiento más estable para la colaboración multiagente, el procesamiento de documentos complejos, el análisis de escenas visuales y la asistencia en la toma de decisiones.

La importancia industrial de la IA explicable multimodal está en aumento. A medida que los agentes de IA pasan de preguntas y respuestas únicas a la ejecución continua de tareas, el sistema transmite repetidamente resultados de juicio entre el reconocimiento de imágenes, la comprensión de documentos, la recuperación, la planificación y las llamadas a herramientas. Una vez que la razón dada por el modelo de lenguaje visual frontal se desvincula de la respuesta, la cadena de agentes posterior podría expandirse sobre una base errónea. El resultado de NTT esta vez se centra en el vínculo fundamental de "si la base del razonamiento realmente participa en la generación de la respuesta", lo que ayuda a mejorar la confiabilidad de la información en la colaboración entre sistemas de IA. Si en el futuro este marco verifica su estabilidad en más modelos, más tareas y datos comerciales reales, se espera que ingrese en la capa de razonamiento de plataformas de IA empresarial, sistemas de oficina inteligente, grandes modelos de la industria y herramientas de análisis visual de alta confiabilidad, convirtiéndose en un componente técnico importante para que la IA multimodal pase de la demostración a la producción e implementación.

Este artículo es compilado por Wedoany, las citas de la IA deben indicar la fuente «Wedoany»; si hay alguna infracción u otro problema, por favor notifícanos a tiempo, este sitio lo modificará o eliminará. Correo electrónico: news@wedoany.com