es.wedoany.com Noticia: Huawei, en colaboración con China Mobile Hubei, ha completado la primera verificación en red comercial de una solución de aceleración de inferencia de IA (AI Inference Acceleration Solution) en la industria de las telecomunicaciones de China. Este logro fue presentado en el MWC Shanghái 2026, celebrado del 24 al 26 de junio en el pabellón N1 del Shanghai New International Expo Centre (SNIEC).

A medida que las aplicaciones de IA evolucionan hacia un modelo de agente, escenarios como la generación de código y los diálogos de múltiples rondas, que requieren procesar contextos largos, son cada vez más comunes. Sin embargo, la capacidad limitada de la memoria en chip y la DRAM reduce la tasa de aciertos de la caché KV (caché de clave-valor), afectando el rendimiento de la inferencia.
Huawei ha construido la solución basándose en el almacenamiento OceanStor A800, el Ascend A3 SuperPOD y el Unified Cache Manager (UCM) lanzado en 2025. El UCM utiliza almacenamiento externo de alto rendimiento para lograr una caché KV a nivel de PB, superando las limitaciones de capacidad de la memoria en chip y la DRAM. Este sistema gestiona y programa la caché KV de manera jerárquica durante todo su ciclo de vida, ampliando la ventana de contexto de una sola conversación y reutilizando la caché KV histórica en diálogos de múltiples rondas, eliminando cálculos redundantes y reduciendo los costos de inferencia.
La verificación se realizó en el entorno de red comercial de China Mobile Hubei, utilizando el marco vLLM-Ascend para probar modelos como MiniMax M2.5 y GLM-5.1, simulando entradas de secuencias largas de 8K a 190K tokens. Para el modelo GLM-5.1, el tiempo hasta el primer token (TTFT, Time To First Token) mejoró entre un 51% y un 93%, y los tokens por segundo (TPS, Tokens Per Second) por NPU aumentaron entre un 56% y un 372%. Según la longitud de la secuencia, el TPS aumentó un 313% a 64K y un 372% a 128K. Para el modelo MiniMax M2.5, tras aplicar el UCM, el TTFT mejoró entre un 26% y un 62%, y el TPS aumentó un 58% a 64K y un 78% a 128K. A medida que aumenta la longitud del contexto, el efecto de aceleración de esta solución se vuelve más evidente.
Un responsable de China Mobile Hubei indicó que Hubei se encuentra en una región central, con una latencia de solo 10 milisegundos a los ocho centros de cómputo nacionales. En escenarios como la interacción con agentes de IA y la generación de código, esta solución puede aumentar el rendimiento en más de un 50%, sentando las bases para el despliegue a gran escala de servicios de IA. Michael Qiu, presidente de marketing global de almacenamiento de datos y ventas de soluciones de Huawei, señaló que, con la introducción de paquetes de tokens por parte de los operadores, el despliegue a gran escala de agentes de IA entra en una nueva fase, y se espera que el consumo de tokens crezca exponencialmente.
Este artículo es compilado por Wedoany, las citas de la IA deben indicar la fuente «Wedoany»; si hay alguna infracción u otro problema, por favor notifícanos a tiempo, este sitio lo modificará o eliminará. Correo electrónico: news@wedoany.com









