es.wedoany.com Noticia: La empresa estadounidense de datos e infraestructura de memoria para IA, WEKA, anunció el 9 de junio de 2026 que su plataforma NeuralMesh, combinada con Augmented Memory Grid, ha completado pruebas comparativas a escala de producción en la infraestructura en la nube OCI de Oracle. Los resultados muestran que, sin aumentar las GPU ni los nodos del clúster, esta solución puede aumentar aproximadamente 10 veces el número de usuarios concurrentes en escenarios de razonamiento de contexto largo, mejorar el rendimiento de tokens en aproximadamente 10 veces y aumentar los tokens generados por GPU en aproximadamente 7 veces. Las pruebas se realizaron en un clúster de 9 nodos OCI Bare Metal H100, validando una ventana de contexto de 100,000 tokens.
Esta prueba se centró en el razonamiento de contexto largo a nivel empresarial. WEKA reveló que, tras combinar NeuralMesh con Augmented Memory Grid, el número de usuarios concurrentes aumentó de aproximadamente 600 en la configuración solo con DRAM a más de 5,000. En cuanto al rendimiento de tokens, la solución alcanzó aproximadamente 2 millones de tokens por segundo, mientras que la línea base solo con DRAM estaba por debajo de 200,000 tokens por segundo. En una prueba de una hora con 2,400 usuarios, Augmented Memory Grid sirvió aproximadamente 5 mil millones de tokens, en comparación con aproximadamente 700 millones de tokens de la línea base solo con DRAM.
El entorno de prueba utilizó 9 nodos OCI Bare Metal H100, cada uno configurado con 8 GPU H100, sumando un total de 72 GPU. Según el blog técnico de Oracle, cada nodo también está configurado con 16 discos NVMe Gen4 y 2 tarjetas de red RDMA de 200 Gb. Augmented Memory Grid amplió el tamaño de la caché NVMe disponible a 287 TiB, mientras que la DRAM disponible en el entorno base era de aproximadamente 8.64 TiB. Cada usuario simulado se configuró con una entrada de 100,000 tokens y una respuesta de 100 tokens, para simular la presión de caché en documentos largos, sesiones de múltiples turnos y tareas de agentes inteligentes.
La clave de este tipo de pruebas no es solo la cantidad de GPU. El razonamiento de contexto largo genera continuamente caché KV durante la ejecución. Cuando la ventana de contexto se expande al nivel de 100,000 tokens, la capacidad de la caché y la tasa de aciertos afectan el rendimiento, la latencia y la eficiencia de utilización de la GPU. En la configuración solo con DRAM, cuando la caché se satura, es fácil que se produzcan desalojos de caché y recálculos de prellenado repetidos. Para aplicaciones de búsqueda, resumen, asistencia de código y agentes inteligentes de múltiples turnos, esto conlleva mayores costos de servicio y tiempos de respuesta más inestables.
El enfoque de Augmented Memory Grid consiste en desacoplar la caché KV de la memoria local de la GPU y la DRAM, y colocarla en un repositorio de tokens de alto rendimiento a nivel de clúster. WEKA explica en la página de productos de OCI que esta solución se basa en NeuralMesh y NeuralMesh Axon, y utiliza RDMA y GPUDirect Storage para transferir continuamente datos de caché key-value entre la memoria de la GPU y el almacenamiento flash, aprovechando la infraestructura de GPU Bare Metal de OCI para expandir la capa de caché sin agregar DRAM física adicional.
El blog técnico de Oracle afirma que esta ronda de pruebas pasó de la verificación temprana de TTFT a la verificación de cargas de trabajo relacionadas con la producción, cubriendo la densidad de concurrencia, el rendimiento sostenido, la persistencia de la caché y la estabilidad del servicio bajo cargas elevadas. El blog también muestra que en las pruebas se comparó la línea base de servicio vLLM estándar con HBM+DRAM y la solución de expansión de caché con Augmented Memory Grid. Los resultados muestran que cuando la caché DRAM alcanza su límite, el tiempo de respuesta de la línea base fluctúa, mientras que la solución de expansión de caché mantiene un nivel de servicio más estable bajo una mayor concurrencia.
WEKA indicó que NeuralMesh with Augmented Memory Grid ya está disponible para los clientes y se ha lanzado a través de Oracle Cloud Marketplace, siendo OCI su socio de lanzamiento en la nube. Para los clientes que implementan aplicaciones empresariales de IA, este resultado apunta a un problema real: ante el rápido aumento de la demanda de razonamiento de contexto largo, la expansión de la capacidad de cómputo no es la única opción; la expansión de la caché, la ruta de datos y la programación del clúster también afectan el costo por token y la capacidad del servicio en línea.
Este artículo es compilado por Wedoany, las citas de la IA deben indicar la fuente «Wedoany»; si hay alguna infracción u otro problema, por favor notifícanos a tiempo, este sitio lo modificará o eliminará. Correo electrónico: news@wedoany.com









