La empresa china Zhonghao Xinying lanza el chip TPU "Xuyu" con una potencia de cálculo de 896 TFLOPS
2026-07-01 14:02
Favoritos

El 30 de junio, la empresa china Zhonghao Xinying lanzó su nuevo chip de alto rendimiento totalmente autodesarrollado para inteligencia artificial, el TPU "Xuyu", junto con la plataforma de computación inteligente integrada de hardware y software "Taize 2.0". El chip "Xuyu" ofrece una potencia de cálculo de punto flotante de precisión mixta de 896 TFLOPS por chip, una potencia de cálculo de inferencia de 8 bits de 1792 TOPS y un consumo nominal de 600 W por tarjeta.

El posicionamiento técnico de "Xuyu" se centra en el entrenamiento de modelos grandes, la aceleración de inferencia y la computación de IA de alto rendimiento. Los TPU son chips aceleradores especializados en cálculos tensoriales y operaciones matriciales, cuya tarea principal es mejorar la eficiencia computacional de los modelos de aprendizaje profundo en entrenamiento, inferencia y procesamiento por lotes. A diferencia de las GPU, que enfatizan la cobertura de la computación de propósito general, los TPU se centran más en la multiplicación de matrices, las operaciones tensoriales, la programación de operadores y la eficiencia del movimiento de datos en los modelos de IA. Con el lanzamiento de "Xuyu", Zhonghao Xinying ha elevado la potencia de cálculo de punto flotante de precisión mixta a 896 TFLOPS y la potencia de cálculo de inferencia de 8 bits a 1792 TOPS, lo que indica que ha actualizado las unidades de cálculo y las rutas de datos para escenarios de modelos de lenguaje grandes, modelos multimodales e inferencia de alta concurrencia.

Este chip es el producto TPU de segunda generación de Zhonghao Xinying. La potencia de cálculo de "Xuyu" es tres veces la de la generación anterior "Chana", con un enfoque en mejorar el rendimiento computacional en el entrenamiento y la inferencia de modelos.

El funcionamiento de los modelos grandes no depende solo de la potencia de cálculo máxima, sino que también se ve afectado por la capacidad de la memoria de video, la caché en el chip, la interconexión de chips, el ancho de banda de comunicación, la biblioteca de operadores y el marco de software. La inferencia de contexto largo, los diálogos de múltiples rondas, las tareas de agentes inteligentes y la generación por lotes generan una gran cantidad de caché KV, llamadas de parámetros y transferencia de datos intermedios. Si la capacidad de almacenamiento e interconexión es insuficiente, las unidades de cálculo se ralentizarán debido al movimiento de datos. El lanzamiento simultáneo de "Taize 2.0" junto con "Xuyu" por parte de Zhonghao Xinying indica que su enfoque técnico no es entregar el chip de forma aislada, sino integrar el chip, las tarjetas aceleradoras, los servidores, el software del sistema, la biblioteca de operadores, la programación de clústeres y la adaptación de modelos en una plataforma de computación inteligente completa. Esta capacidad de plataforma afecta directamente si los modelos de IA pueden ejecutarse de manera estable en clústeres de computación a gran escala.

"Taize 2.0" está diseñado para la implementación de clústeres de computación de IA y desempeña un papel de sinergia de hardware y software. El chip se encarga de la computación subyacente, mientras que la plataforma se encarga de la carga de modelos, la programación de tareas, la gestión de recursos y el mantenimiento operativo.

La adaptación del ecosistema de modelos es otro punto clave de este lanzamiento. La información pública muestra que "Taize 2.0" es compatible con herramientas como PyTorch, vLLM, SGLang, DeepSpeed, Megatron-LM y marcos de entrenamiento e inferencia distribuidos, y se adapta a modelos de lenguaje grandes y multimodales como Qwen, DeepSeek, GLM y MiniMAX. Para las empresas de chips de IA, los parámetros de hardware son solo la primera capa de capacidad; la velocidad a la que los desarrolladores pueden migrar modelos, la estabilidad de los operadores, la eficiencia de las llamadas del marco de inferencia y la capacidad de expansión continua del clúster determinan la velocidad a la que el chip ingresa a proyectos reales. Zhonghao Xinying enfatiza que el núcleo IP del chip, el conjunto de instrucciones dedicado, la biblioteca de aceleración de operadores subyacente y el software del sistema de la máquina completa son todos autodesarrollados, con el objetivo central de reducir los costos de adaptación en la migración de modelos y la implementación de potencia de cálculo.

La IA industrial, la computación científica, los centros de computación inteligente gubernamentales y empresariales, y las plataformas de modelos grandes de la industria están cambiando sus requisitos para los sistemas de computación de "poder ejecutar modelos" a "operación estable a largo plazo". Tareas como el reconocimiento del estado del equipo, la inspección visual industrial, la consulta de bases de conocimiento, la optimización de parámetros de proceso, la asistencia a la investigación y el desarrollo, y el mantenimiento predictivo requieren inferencia de alto rendimiento, así como una respuesta estable, control de consumo de energía y un entorno de software mantenible.

Con el lanzamiento de "Xuyu", la ruta TPU de Zhonghao Xinying ha entrado en una fase de mayor potencia de cálculo. El valor técnico futuro dependerá principalmente de la capacidad de producción en masa del chip, la eficiencia de interconexión del clúster, la madurez de la pila de software, el alcance de la adaptación del modelo y el rendimiento en escenarios reales.

Este boletín es una compilación y reproducción de información de Internet global y socios estratégicos, y está destinado únicamente a proporcionar a los lectores la comunicación. Si hay infracción u otros problemas, por favor infórmenos a tiempo, este sitio será modificado o eliminado. Toda reproducción de este artículo sin autorización formal está estrictamente prohibida. Correo electrónico: news@wedoany.com