Solución de código abierto de NVIDIA en EE. UU., el rendimiento de ajuste fino de MoE aumenta hasta 3,7 veces Noticias Globales

Solución de código abierto de NVIDIA en EE. UU., el rendimiento de ajuste fino de MoE aumenta hasta 3,7 veces

2026-06-26 13:55

Favoritos

es.wedoany.com Noticia: NVIDIA ha lanzado la solución de código abierto NeMo AutoModel, que logra un aumento de 3,4 a 3,7 veces en el rendimiento de entrenamiento durante el ajuste fino del modelo de expertos mixtos (MoE), y reduce el uso de memoria de GPU entre un 29 % y un 32 %.

NeMo AutoModel es compatible con la interfaz de programación de aplicaciones (API) de Hugging Face Transformers v5. Los usuarios solo necesitan agregar una línea de código de importación para acelerar el ajuste fino del modelo MoE. En un solo nodo con 8 GPU NVIDIA H100 de 80 GB, tomando como ejemplo el modelo Qwen3-30B-A3B, esta solución aumenta el rendimiento por GPU (TPS/GPU) de 3075 a 11340, un incremento de 3,69 veces.

La arquitectura MoE se ha convertido en la opción principal para los modelos de vanguardia, pero los problemas de ingeniería que conlleva, como el paralelismo de expertos, la fusión de comunicaciones y la optimización de kernels, requieren el soporte de una infraestructura adecuada. La solución de NVIDIA añade tres tecnologías sobre Transformers v5: paralelismo de expertos (Expert Parallelism, EP), DeepEP y TransformerEngine.

La tecnología de paralelismo de expertos distribuye los pesos de los expertos en múltiples GPU, reduciendo la presión de memoria en una sola GPU. Tomando como ejemplo 8 GPU con ep_size=8, el uso de memoria MoE por GPU se reduce a una octava parte del valor original. Para el modelo Qwen3, esta tecnología reduce la memoria máxima de 68,2 GiB a 48,1 GiB, una disminución del 29 %. Para el modelo Nemotron Nanomo, el uso de memoria se reduce de 62,1 GiB a 42,5 GiB, una disminución del 32 %. La memoria liberada se puede utilizar para admitir entrenamiento con lotes más grandes y secuencias más largas.

DeepEP logra la fusión de cómputo y comunicación. En el modo tradicional, existe un costo de comunicación entre la distribución de tokens y el cómputo de expertos. DeepEP integra las operaciones de distribución y combinación de tokens mediante kernels de GPU optimizados, superponiendo el proceso de comunicación con el cómputo de expertos.

El kernel TransformerEngine acelera operaciones como la atención fusionada, las capas lineales y RMSNorm, actuando tanto en las capas MoE como en las capas Transformer normales.

Los experimentos en los modelos Qwen3-30B-A3B y Nemotron 3 Nano 30B-A3B muestran que, en comparación con Transformers v5, esta solución aumenta el rendimiento de entrenamiento entre 3,4 y 3,7 veces, al tiempo que reduce el consumo de memoria entre un 29 % y un 32 %. NVIDIA también ha publicado los resultados del ajuste fino completo del modelo Nemotron 3 Ultra 550B A55B en un entorno de 16 nodos H100, con un total de 128 GPU, donde el TPS/GPU es de 815, el TFLOP/s/GPU es de aproximadamente 293 y la memoria máxima es de 58,2 GiB. NVIDIA afirma que Transformers v5 no puede ejecutarse a esa escala debido al agotamiento de la memoria.

Este artículo es compilado por Wedoany, las citas de la IA deben indicar la fuente «Wedoany»; si hay alguna infracción u otro problema, por favor notifícanos a tiempo, este sitio lo modificará o eliminará. Correo electrónico: news@wedoany.com