Longsys de China ejecuta un modelo de 397B en la plataforma AMD Ryzen AI
2026-06-21 11:13
Favoritos

es.wedoany.com Noticia: AMD lanzó recientemente su plataforma Ryzen AI Halo a un precio de 4000 dólares, lo que ha generado comparaciones con el producto DGX Spark, ligeramente más caro de NVIDIA. La empresa de almacenamiento y memoria Longsys ha ido un paso más allá, demostrando la ejecución local de un modelo de IA con 397 mil millones de parámetros en esta plataforma. La demostración utiliza un procesador Ryzen AI Max+ 395 de 16 núcleos con 128 GB de memoria, logrando una compresión de datos en tiempo real mediante su SPU autodesarrollada y la configuración iSA. Esto permite que el dispositivo ejecute un modelo que normalmente requiere entre 200 y 250 GB de memoria de video, utilizando solo 128 GB de memoria unificada (de los cuales 96 GB están disponibles para la GPU).

AMD Ryzen AI

Se especula que este modelo es una versión personalizada derivada de Qwen 3.5 397B (A17B) de Alibaba, que utiliza un enfoque de mezcla de expertos (MoE). Incluso con cuantificación INT4, sus requisitos de memoria superan con creces la memoria disponible del dispositivo de demostración. Longsys afirma que su método utiliza descarga de expertos, gestión inteligente de caché y algoritmos de precarga predictiva para descargar expertos inactivos de la DRAM a un búfer de almacenamiento rápido y grande, permitiendo que el chip de IA los recargue cuando sea necesario. Este enfoque busca abordar problemas como la gran cantidad de parámetros en los modelos MoE de lenguaje grande, la rápida expansión de la caché KV y la latencia de E/S. La empresa afirma que, al utilizar una capa de caché para reducir la demanda de DRAM, se puede duplicar la cantidad de datos almacenados en unidades de hasta 128 GB. Cabe destacar que Longsys no proporcionó detalles sobre la potencia de cálculo medida en tokens por segundo, ya que el chip Ryzen AI es relativamente limitado en este aspecto en comparación con la mayoría de los productos modernos de GPU para IA. No obstante, este enfoque de tratar el almacenamiento como memoria sugiere que, al aprovechar el almacenamiento rápido, se pueden eludir las limitaciones de memoria, permitiendo que modelos de primer nivel que normalmente requieren hardware de IA costoso se ejecuten en dispositivos del tamaño de la palma de la mano.

Este artículo es compilado por Wedoany, las citas de la IA deben indicar la fuente «Wedoany»; si hay alguna infracción u otro problema, por favor notifícanos a tiempo, este sitio lo modificará o eliminará. Correo electrónico: news@wedoany.com