Un equipo chino completa el post-entrenamiento de parámetros completos de un modelo de billones de parámetros basado en potencia de cálculo nacional
2026-06-09 13:54
Favoritos

es.wedoany.com Noticia: El equipo del proyecto de la plataforma de entrenamiento de IA del Colegio Hetao de Shenzhen, en colaboración con la Universidad de Harbin (Shenzhen), el Instituto de Investigación de Big Data de Shenzhen y Huawei GTS (Servicios Tecnológicos Globales), ha llevado a cabo una investigación conjunta sobre el entrenamiento de modelos de gran escala basados en potencia de cálculo nacional. Utilizando el clúster de potencia de cálculo nacional Ascend 910C, lograron con éxito el entrenamiento continuo de parámetros completos y la operación estable de SFT (Ajuste Fino Supervisado) de DeepSeek-V4-Pro en un mes. El entrenamiento acumuló más de 1500 pasos, la MFU (Utilización de Potencia de Cálculo del Modelo) superó el 30% y la eficiencia de los operadores clave de entrenamiento mejoró aproximadamente un 14%.

Esta es la primera vez en la industria que una organización externa completa la práctica de ingeniería de post-entrenamiento de parámetros completos de DeepSeek-V4-Pro basada en un clúster de potencia de cálculo nacional, lo que marca que la infraestructura de IA nacional comienza a avanzar desde la implementación de inferencia y el ajuste fino ligero hacia la etapa de post-entrenamiento de parámetros completos de modelos de gran tamaño.

DeepSeek-V4-Pro es un modelo insignia de código abierto MoE (Mezcla de Expertos) con 1,6 billones de parámetros, que adopta mecanismos innovadores como la atención dispersa mixta CSA+HCA y la conexión mHC. En comparación con la generación anterior DeepSeek-V3/R1, impone requisitos más altos al marco de entrenamiento nacional.

La investigación conjunta ha logrado la operación estable del post-entrenamiento de parámetros completos de DeepSeek-V4-Pro en el clúster de potencia de cálculo nacional Ascend 910C de nivel de miles de tarjetas. El modelo ha iterado más de 1500 pasos sin saltos de iteración ni anomalías NaN. La eficiencia de los operadores clave de entrenamiento ha mejorado aproximadamente un 14% en comparación con la versión inicial, la MFU final se ha estabilizado en un 34,9% y el tiempo de entrenamiento por paso se ha estabilizado en 27 segundos. El equipo también ha completado el enlace completo de entrenamiento continuo de parámetros completos y SFT de DeepSeek-V4-Flash.

Los resultados de este proyecto poseen una capacidad de entrenamiento estable reproducible y entregable a nivel de ingeniería para modelos MoE de billones de parámetros basados en potencia de cálculo nacional, y han completado la verificación cerrada en escenarios de modelado de operaciones automatizadas a nivel industrial, lo que demuestra que la potencia de cálculo nacional puede completar el entrenamiento especializado mejorado de modelos de gran escala de la industria en un ciclo corto y a bajo costo.

A nivel técnico, el proyecto ha logrado tres avances importantes: primero, ha construido con éxito un esquema de carga distribuida que cubre pesos, gradientes, activaciones y estados del optimizador, logrando la colaboración de paralelismo de datos, paralelismo de tensores, paralelismo de tuberías y paralelismo de expertos; segundo, ha optimizado los operadores de enrutamiento MoE y atención dispersa, estableciendo un mecanismo de equilibrio de carga de expertos que alivia eficazmente la congestión de comunicación y el desequilibrio de carga; tercero, ha construido un sistema de monitoreo de estabilidad a largo plazo con visualización completa de indicadores, sin que se hayan producido pérdidas de control o valores NaN durante varios días de entrenamiento continuo.

En la fase de verificación de capacidades, el proyecto diseñó un experimento para mejorar la capacidad de modelado matemático de modelos de gran escala. El equipo construyó un flujo de trabajo de producción de datos de modelado SFT, generando 3000 muestras SFT de alta calidad para tareas de modelado matemático, que cubren 4 tipos de tareas objetivo y 3 formas de problemas. Los resultados del entrenamiento muestran: la pérdida LM del modelo convergió a 0,2056, la pérdida MTP 1 convergió a 0,2538 y la curva de gradiente se mantuvo estable. La evaluación de referencia muestra que los cuatro indicadores principales del modelo mejoraron de manera integral, con un aumento de más de 5 puntos porcentuales en ORGEval WL, y una mejora significativa en la capacidad de razonamiento complejo y modelado.

Este artículo es compilado por Wedoany, las citas de la IA deben indicar la fuente «Wedoany»; si hay alguna infracción u otro problema, por favor notifícanos a tiempo, este sitio lo modificará o eliminará. Correo electrónico: news@wedoany.com