Microsoft Research publica Memora, reduciendo el consumo de tokens en un 98% Noticias Globales

Microsoft Research publica Memora, reduciendo el consumo de tokens en un 98%

2026-07-01 15:01

Favoritos

es.wedoany.com Noticia: Microsoft Research ha desarrollado un sistema de memoria a largo plazo llamado Memora, diseñado para proporcionar a los agentes de IA capacidades de memoria más escalables y fiables al desacoplar el contenido de la memoria del método de recuperación.

Cerebro de IA en una pantalla de computadora

A medida que los agentes de IA necesitan mantener memoria contextual durante semanas o meses, en lugar de manejar solo sesiones individuales, los métodos de memoria tradicionales tienden a fragmentar la información y ralentizar la recuperación. Microsoft Research afirma que Memora, al desacoplar el contenido de la memoria del método de recuperación, puede reducir el uso de tokens contextuales hasta en un 98%, manteniendo o superando la precisión del contexto completo.

Actualmente, el despliegue a largo plazo de la IA enfrenta cuellos de botella en los sistemas de memoria. Los modelos de lenguaje grandes modernos comienzan desde cero en cada sesión; las conversaciones largas requieren leer repetidamente todo el historial, la nueva información se almacena como texto original o resúmenes, y los detalles clave pueden perderse.

Las soluciones existentes tienen limitaciones. El sistema Mem0 extrae hechos atómicos de las conversaciones, el método de Generación Aumentada por Recuperación (RAG) indexa fragmentos de texto, y los sistemas de memoria basados en grafos (como Zep, GraphRAG) construyen estructuras mediante relaciones entre entidades. Sin embargo, estos métodos caen en dos extremos: los sistemas de fragmentación de contenido (como RAG, Mem0) retienen detalles pero pierden coherencia narrativa; los sistemas de abstracción de grano grueso comprimen la experiencia pero pierden restricciones y detalles numéricos; los sistemas basados en grafos requieren ontologías estrictas y la recuperación depende del contenido en sí.

La arquitectura de Memora resuelve estos problemas al desacoplar el contenido almacenado del método de recuperación. Cada entrada de memoria contiene dos partes: la abstracción principal es una frase de 6 a 8 palabras que captura el contenido básico de la memoria; el valor de la memoria contiene el contenido rico en sí. La nueva información sobre el mismo tema se fusiona en las entradas de memoria existentes, evitando la fragmentación. Además, el sistema introduce anclajes de pistas, que son etiquetas cortas y sensibles al contexto extraídas de cada valor de memoria, proporcionando rutas de acceso alternativas para la misma memoria.

Memora también incluye un recuperador guiado por estrategias que, en lugar de devolver los k elementos más similares de una sola vez, optimiza iterativamente la consulta a través de anclajes de pistas, presentando memorias relevantes pero no similares, y decide cuándo detenerse. Sanchit Vir Gogia, analista principal de Greyhound Research, afirma que Memora rechaza el atajo de equiparar la recuperación con la memoria, separando los detalles ricos de la memoria del identificador de búsqueda, convirtiendo la recuperación en un acto de navegación.

Microsoft evaluó Memora en dos puntos de referencia: LoCoMo (promedio de 600 rondas de diálogo) y LongMemEval (uso de 115,000 tokens de contexto). Los resultados muestran que Memora alcanza una precisión de evaluación LLM del 86.3% en LoCoMo y del 87.4% en LongMemEval, superando a RAG, Mem0, Nemori, Zep, LangMem y el razonamiento de contexto completo. El número de entradas de memoria almacenadas por Memora por diálogo (344) es aproximadamente la mitad que el de Mem0 (651), mientras que el consumo de tokens se reduce hasta en un 98% en comparación con el razonamiento de contexto completo.

Gogia señala que un menor consumo de tokens no equivale directamente a menores costos de infraestructura. La reducción de contexto en los puntos de referencia no significa que las facturas empresariales disminuyan en un 98%; los costos reales también incluyen la construcción de memoria, indexación, almacenamiento y registros de auditoría. El modo de recuperación estratégica más potente de Memora tarda entre cinco y seis segundos por consulta, mientras que el modo semántico más simple tarda menos de un segundo; el ahorro de tokens de aviso se compensa parcialmente con la latencia de recuperación y el razonamiento adicional.

Memora es actualmente un proyecto activo de Microsoft Research, y el código de investigación relacionado se ha publicado en GitHub. Gogia recomienda que los líderes de TI consideren Memora como una investigación arquitectónica, no como un software listo para producción, y deben ser cautelosos hasta que su código sea completamente verificable, mantenible y compatible. Además, las empresas deben establecer políticas de gobernanza y cumplimiento para garantizar la gestión segura y la auditabilidad de la memoria de IA, incluyendo quién puede escribir o leer la memoria, cuánto tiempo persiste la memoria y cómo los auditores pueden reconstruirla, para cumplir con la Ley de Inteligencia Artificial de la UE y la Ley de Protección de Datos Personales Digitales de la India.

Estados Unidos

Información y comunicación Ingeniería de Inteligencia Artificial

Este boletín es una compilación y reproducción de información de Internet global y socios estratégicos, y está destinado únicamente a proporcionar a los lectores la comunicación. Si hay infracción u otros problemas, por favor infórmenos a tiempo, este sitio será modificado o eliminado. Toda reproducción de este artículo sin autorización formal está estrictamente prohibida. Correo electrónico: news@wedoany.com

Anterior：La NASA y AWS logran la transmisión en vivo de video 4K de la misión Artemis 2 alrededor de la Luna

Posterior：Vodafone España prueba comunicaciones prioritarias 5G SA para la policía durante el Tour de Francia