es.wedoany.com Noticia: Intel y AMD han publicado recientemente la especificación completa de la extensión ACE CPU, diseñada para mejorar la eficiencia y el rendimiento energético de los procesadores x86 al ejecutar tareas específicas de IA. Esta extensión ofrece una solución técnica más óptima para ejecutar dichas tareas en la CPU.

Actualmente, la mayoría de los modelos de IA dependen de GPU para su funcionamiento, pero no todas las tareas de IA son adecuadas para este hardware. Para modelos más pequeños u operaciones de un solo usuario sensibles a la latencia, ejecutarlas en la CPU evita la sobrecarga de transferencia de datos entre la CPU y la GPU. Además, en muchos escenarios no hay GPU disponible o solo se cuenta con una gráfica integrada de rendimiento limitado. El estándar ACE logra esto proporcionando una especificación técnica que utiliza los registros AVX10 existentes y añade circuitos de silicio dedicados a la multiplicación de matrices. Su ventaja clave radica en una mayor eficiencia energética, un proceso de desarrollo y optimización más simplificado, y soporte para entradas de 512 bits, lo que facilita la integración de ACE con diseños existentes.
La multiplicación de matrices es una operación fundamental en las cargas de trabajo de IA, que implica realizar bucles de multiplicación-suma en tablas de datos. Aunque se puede ejecutar en la mayoría de las CPU, su velocidad es limitada y el consumo energético es alto. En comparación con AVX10, ACE puede realizar 16 veces más operaciones con la misma cantidad de vectores de entrada. Esto no equivale a una aceleración de 16 veces, ya que depende de la implementación, pero se espera que Intel y AMD dediquen más circuitos de silicio a esta tarea en futuros diseños para mejorar el rendimiento. Dado que cada instrucción ACE realiza más trabajo que un bucle AVX10 equivalente, se reduce la sobrecarga de instrucciones y es posible obtener una mejor utilización del ancho de banda de la memoria de inmediato.
Los beneficios de ACE no se limitan a realizar el mismo trabajo con menos instrucciones. El estándar es independiente de la implementación, lo que significa que los frameworks de aprendizaje automático y sus bibliotecas subyacentes (como PyTorch, TensorFlow) solo necesitan escribir una ruta de código, sin tener que crear múltiples variantes según el nivel de soporte AVX del hardware subyacente. ACE admite de forma nativa la mayoría de los tipos de datos utilizados en operaciones de aprendizaje automático, incluidos INT8, INT32, FP8, FP16, FP32 y BF16, y puede utilizar de forma nativa el formato de bloque escalado MX del Open Compute Project, una capacidad que AVX10 no posee. Los desarrolladores también pueden trasladar algunas cargas de trabajo específicas de NPU a la CPU, y en este proceso, el objetivo unificado que ACE proporciona en todo el hardware x86 evita la complejidad derivada de las diferencias de hardware.
Este artículo es compilado por Wedoany, las citas de la IA deben indicar la fuente «Wedoany»; si hay alguna infracción u otro problema, por favor notifícanos a tiempo, este sitio lo modificará o eliminará. Correo electrónico: news@wedoany.com









