ModelBest presenta en código abierto el primer modelo grande eficiente para dispositivos entrenado en una plataforma de computación nacional Presentación de Tecnología_Aplicaciones Tecnológicas

ModelBest presenta en código abierto el primer modelo grande eficiente para dispositivos entrenado en una plataforma de computación nacional

2026-05-27 09:28

Favoritos

Recientemente, ModelBest, en colaboración con la Universidad de Tsinghua y la comunidad de código abierto OpenBMB, publicó y liberó oficialmente su último logro en el entrenamiento de modelos grandes de bajo bit: BitCPM-CANN. Este es el primer modelo grande ternario (1.58-bit) entrenado completamente de extremo a extremo en una plataforma de computación nacional (Huawei Ascend) y publicado como código abierto. Presentación del modelo BitCPM-CANN

Durante mucho tiempo, el cuello de botella físico de la memoria ha sido un desafío para la aplicación a gran escala de los modelos grandes, y la memoria se está convirtiendo en uno de los recursos más escasos en la cadena de suministro global de IA. En este contexto, BitCPM-CANN adopta una ruta de entrenamiento consciente de la cuantización, obligando a cada bit a ejercer la máxima densidad de información y eficiencia en la transmisión de conocimiento. Al mismo tiempo, la optimización de memoria de video de 6 veces que ofrece BitCPM-CANN permite a las empresas mejorar la capacidad del modelo o la densidad del servicio sin aumentar la memoria física.

Cabe destacar que, desde los operadores de cuantización de nivel más bajo y los algoritmos de entrenamiento conscientes de la cuantización, hasta la estrategia de paralelización completa y el marco de entrenamiento, toda la cadena de entrenamiento de BitCPM-CANN se completó de forma nativa en Huawei Ascend. Incluye cuatro tamaños de modelo: 0.5B, 1B, 3B y 8B. Comparado detalladamente con la familia de precisión completa MiniCPM-4 del mismo tamaño, el rendimiento es excelente. Este es el primer resultado público en la plataforma Ascend que completa el entrenamiento de 1.58-bit de extremo a extremo y realiza una evaluación comparativa de precisión completa, y la escala del modelo se ha llevado hasta el nivel de 8B de una sola vez.

Expertos de la industria consideran que la publicación y el código abierto de BitCPM-CANN logran un ciclo completo y cerrado de NPU nacional, modelo nacional y marco de entrenamiento nacional, proporcionando una solución de modelo de bajo bit directamente utilizable para la industria de la IA en dispositivos.

China

Información y comunicación

Este boletín es una compilación y reproducción de información de Internet global y socios estratégicos, y está destinado únicamente a proporcionar a los lectores la comunicación. Si hay infracción u otros problemas, por favor infórmenos a tiempo, este sitio será modificado o eliminado. Toda reproducción de este artículo sin autorización formal está estrictamente prohibida. Correo electrónico: news@wedoany.com

Anterior：Primera prueba en caliente exitosa del primer molde de colada continua ESP para desbastes gruesos del mundo: Zhongshou Special Steel alcanza la cima de la tecnología metalúrgica de ciclo corto

Posterior：Potencia total + conducción autónoma con colaboración terminal-nube: Equipos mineros completos de SANY, China, se exportan en masa, remodelando el panorama competitivo global de equipos para minería