es.wedoany.com Noticia: Los grandes modelos de IA están iterando a un ritmo asombroso. El crecimiento de la memoria y el ancho de banda no puede seguir el ritmo de la expansión de los modelos. Este es el problema del "muro de memoria" que ha afectado a la industria durante mucho tiempo. Más problemático aún, la tecnología de empaquetado 2.5D actualmente dominante (como CoWoS de TSMC) es una expansión en un solo plano, con recursos de enrutamiento y diseño limitados y baja densidad de integración. En escenarios de alta potencia computacional de IA, el área del chip no se puede reducir aún más.
Cuando la expansión horizontal se vuelve insostenible, la tecnología de apilamiento 3D de "crecimiento vertical" se convierte en una opción inevitable. Para los chips de IA domésticos de China, la tecnología de apilamiento 3D ofrece un camino factible para "intercambiar espacio por rendimiento" y sortear parte del bloqueo de procesos, dada la realidad industrial de la capacidad limitada de procesos avanzados y el suministro restringido de HBM de alta gama.
01 Tecnología de empaquetado: de "colocar ladrillos en un plano" a "construir edificios en 3D"
En el campo del empaquetado avanzado, el empaquetado 2.5D logra interconexiones de alta velocidad y comunicación de corta distancia entre chips mediante la integración de múltiples matrices en un interpositor de silicio. El interpositor de silicio generalmente utiliza tecnología de vías a través de silicio (TSV) para lograr interconexiones verticales, con características de interconexión de alta densidad y alto rendimiento, lo que puede mejorar significativamente el rendimiento general del sistema.
La tecnología de apilamiento 3D, mediante el apilamiento de chips o paquetes, por ejemplo, utilizando TSV o tecnología de unión híbrida, aumenta las funciones, mejora la densidad de integración, reduce los costos de empaquetado y, al acortar la longitud de las interconexiones, ayuda a mejorar la velocidad de operación. A través del apilamiento 3D, las unidades funcionales que originalmente estaban dispuestas horizontalmente en diferentes chips en el empaquetado 2.5D, como la lógica de cálculo, las matrices de memoria y las interfaces de E/S, se apilan físicamente y se interconectan eléctricamente en la dimensión vertical, superando así los límites físicos de la integración planar.
El empaquetado 3D y el empaquetado 3.5D adoptan la tecnología de apilamiento 3D. La tecnología de empaquetado 3D apila verticalmente múltiples matrices desnudas (Bare Die) y utiliza tecnologías de interconexión avanzadas como TSV y microbumps para la comunicación entre capas, superando así las limitaciones físicas de la integración planar tradicional. Esta arquitectura acorta enormemente las rutas de transmisión de electrones, reduciendo significativamente la latencia y el consumo de energía, al tiempo que logra un ancho de banda de interconexión y una densidad de empaquetado extremadamente altos. El empaquetado 3.5D, basado en el apilamiento vertical 3D, introduce un interpositor de silicio 2.5D para la expansión horizontal, formando una arquitectura compuesta "3D + planar".
Actualmente, los principales chips de IA domésticos de China, como los de Cambricon, Kunlunxin, Biren Technology y Iluvatar CoreX, básicamente utilizan la tecnología de empaquetado 2.5D para interconectar en paralelo los chiplets de computación GPU/IA con la memoria HBM, utilizando un interpositor de silicio y RDL (capa de redistribución) para construir una red de interconexión de alta densidad. Sin embargo, el ancho de banda de esta solución de memoria externa es generalmente de solo 1 a 4 TB/s, y, limitado por el área planar, la densidad de integración y el ancho de banda de interconexión se acercan a sus límites físicos.
02 Gigantes internacionales: el apilamiento 3D y 3.5D ya están en fase de producción en masa
Los gigantes internacionales de semiconductores ya han incursionado en el apilamiento 3D/3.5D, y algunos productos ya han entrado en la etapa de producción y entrega.
En 2023, AMD lanzó la serie de aceleradores de IA Instinct MI300, un producto de chip que utiliza tecnología de empaquetado 3.5D y se produce en masa. AMD describe su tecnología como la fusión de chips GPU y de E/S apilados en 3D mediante unión híbrida, combinada con el empaquetado 2.5D estándar. La solución de empaquetado 3.5D de AMD integra las tecnologías CoWoS (interpositor de silicio 2.5D) y SoIC (unión híbrida 3D) de TSMC, apilando verticalmente los chips GPU/CPU sobre el chip de E/S mediante unión híbrida Cu-Cu, y luego interconectándolos en paralelo con la memoria HBM3 a través del interpositor de silicio CoWoS.
En diciembre de 2024, Broadcom publicó por primera vez la plataforma de empaquetado 3.5D XDSiP (eXtreme Dimension System in Package) de la industria. Combina la tecnología 2.5D con la integración 3D-IC que utiliza la tecnología Face-to-Face (F2F). El núcleo de esta plataforma es la tecnología de apilamiento Face-to-Face (F2F), que utiliza unión híbrida de cobre sin protuberancias (HCB) para conectar directamente el metal superior de los chips superior e inferior, logrando una conexión directa entre las capas metálicas superiores de los dos chips. En comparación con la tecnología tradicional Face-to-Back (F2B), F2F no depende de TSV, lo que permite aumentar la cantidad de conexiones de señal en 7 veces, reducir el consumo de energía de la interfaz entre chips en un 90% y disminuir la latencia entre los componentes de computación, memoria y E/S dentro del apilamiento 3D. En 2026, se entregó el primer SoC de computación personalizado de 2nm basado en XDSiP a Fujitsu para su uso en clústeres de supercomputación de IA.
Intel combina la tecnología de empaquetado EMIB 3.5D con EMIB 2.5D (interconexión horizontal de puente de silicio incrustado) y Foveros Direct 3D (apilamiento vertical de unión híbrida), lo que permite una integración heterogénea y flexible de múltiples chips, compatible con el estándar de la industria UCIe. La serie de SoC Intel Data Center GPU Max se basa en EMIB 3.5D y es el chip heterogéneo producido en masa más complejo jamás creado, que contiene más de cien mil millones de transistores, 47 módulos activos y 5 nodos de proceso.
Recientemente, la tecnología HBC de Qualcomm adopta una arquitectura innovadora de computación cercana a la memoria dedicada, fusionando la computación con memoria de ancho de banda ultraalto a través de una solución basada en silicio apilado en 3D, abordando el cuello de botella en la transferencia de datos en la computación de IA. El AI250, equipado con la primera generación de tecnología HBC, puede lograr una tasa de ancho de banda líder en la industria de 133 TB/s por tarjeta, lo que representa un aumento de 18 veces en el ancho de banda de memoria efectivo en comparación con el AI200 que utiliza LPDDR5X; el AI300, equipado con la segunda generación de tecnología HBC, logra un salto de rendimiento escalonado, con un ancho de banda de memoria efectivo 54 veces mayor que el del AI200.
03 Los fabricantes de chips de IA de China eligen colectivamente el apilamiento 3D
Frente a la ventaja de los gigantes internacionales en el apilamiento 3D y el empaquetado 3.5D, y las limitaciones en la capacidad de procesos avanzados y el suministro de HBM de alta gama en China, los fabricantes de chips de IA de China están explorando activamente la integración vertical de unidades de memoria y computación a través de la tecnología de apilamiento 3D.
La arquitectura Zixuan del Grupo Unisplendour, centrada en DRAM 3D, es pionera en una solución de integración heterogénea 3.5D, con un ancho de banda de memoria de hasta 30 TB/s. En su modo de computación cercana a la memoria PNM, la latencia de acceso a la memoria se reduce hasta 1/18, y las simulaciones muestran que, con la misma potencia computacional, la tasa de tokens es de 1.5 a 2 veces mayor que la de la serie B200 de Nvidia, y puede producirse en masa basándose en la cadena de suministro doméstica de China.
El próximo chip de IA de TsingMicro adopta un apilamiento heterogéneo 3.5D, logrando un apilamiento vertical tridimensional de chiplets de computación reconfigurables y chiplets de memoria DRAM. A través de la integración vertical de "chiplet de computación + chiplet de memoria", y bajo condiciones de procesos avanzados limitados, se logra un salto de rendimiento mediante la innovación arquitectónica. Su chip reconfigurable 3D de segunda generación adopta de manera innovadora la tecnología de integración de memoria y computación en 3D + cuatro chiplets, actualizando el modo de transmisión de un solo carril planar 2D de los chips tradicionales a una arquitectura tridimensional de "4 carriles de potencia computacional + 4 capas de almacenamiento elevado", mejorando significativamente la eficiencia del rendimiento de datos y la densidad de potencia computacional, formando una ventaja significativa en rendimiento, eficiencia energética y flexibilidad.
El chip A4E TokenPU 3D de Suanmiao Technology, diseñado para la inferencia de grandes modelos, completó su tape-out el 15 de junio, logrando la implementación de un procesador dedicado para grandes modelos basado en la cadena de suministro doméstica de China y utilizando una arquitectura de apilamiento híbrido 3D. El producto de primera generación, A4E, apila verticalmente 8 obleas de memoria sobre una oblea de lógica de computación, utilizando tecnología de vías a través de silicio (TSV) y protuberancias (bump) para lograr interconexiones a nivel de micras, comprimiendo la distancia de transmisión de "milímetros" entre chips tradicionales en dos órdenes de magnitud, proporcionando un ancho de banda de acceso a memoria ultra grande de 16 TB/s, aliviando efectivamente el problema de la inanición de datos.
Intellifusion anunció que su chip de inferencia en desarrollo introduce una arquitectura de memoria apilada en 3D: adopta una arquitectura de memoria apilada en 3D para obtener un mayor ancho de banda y una menor latencia de acceso, superando el "muro de memoria" y mejorando la eficiencia de la inferencia.
El próximo chip de Lingchuan Technology, anteriormente la División de Computación Heterogénea y Chips de Kuaishou Group, completó su tape-out en abril de este año. Utiliza la tecnología de apilamiento 3D doméstica de China, siendo pionero en una arquitectura de memoria cercana 3D, con optimizaciones especiales para puntos críticos de la industria como la disipación de calor, la consistencia y la confiabilidad. Su primer chip, SL200, ha vendido casi cien mil unidades, desplegándose en empresas de Internet como Kuaishou, Alibaba Cloud, Baidu Cloud y Bilibili, cubriendo el 99.7% del negocio de transcodificación de transmisiones en vivo de Kuaishou, sirviendo de manera estable a 700 millones de usuarios.
04 El apilamiento 3D necesita superar la brecha entre el laboratorio y la producción en masa a nivel nacional
Aunque el apilamiento 3D tiene un gran potencial, su dificultad de ingeniería supera con creces la del empaquetado tradicional.
En primer lugar, está la gestión térmica y la disipación de calor. En la arquitectura planar 2D tradicional, el calor generado por la matriz puede conducirse directamente al disipador de calor y al difusor térmico en la parte superior. Sin embargo, en una arquitectura 3D, el calor debe superar múltiples obstáculos, penetrando verticalmente a través de múltiples capas de silicio, matrices TSV, relleno de polímero inferior y las interfaces de microbumps. Para las estructuras de integración 2.5D, los sistemas de refrigeración por aire tradicionales aún pueden funcionar con una potencia total de alrededor de 300 vatios; pero cuando el sistema pasa a un apilamiento vertical 3D real, una vez que la potencia total del paquete supera los 350 vatios, la disipación de calor basada en aire falla por completo, siendo obligatorio introducir sistemas de refrigeración líquida y materiales de interfaz térmica de alto rendimiento.
En segundo lugar, está el proceso de unión híbrida y el rendimiento. La unión híbrida de cobre sin protuberancias (HCB) requiere un espaciado de interconexión de <10 μm o incluso 1 μm, lo que impone requisitos extremadamente altos en cuanto a planitud de la superficie (CMP), precisión de la unión y coincidencia de expansión térmica. Las diferencias en los materiales del puente de silicio y el sustrato pueden provocar un desajuste en la expansión térmica, generando tensiones mecánicas y grietas; el proceso de apilamiento 3D es complejo, y la mejora del rendimiento depende de la mejora continua de la precisión de la unión.
En tercer lugar, están las herramientas EDA y la colaboración en el diseño. El volumen de datos de diseño 3D crece explosivamente, lo que requiere una colaboración profunda entre los diseñadores de circuitos integrados y los ingenieros de empaquetado; las herramientas EDA existentes tienen dificultades para manejar simultáneamente la optimización multidimensional de la integridad térmica, de la señal y de la alimentación, por lo que es urgente desarrollar plataformas de diseño colaborativo térmico-eléctrico-mecánico. Actualmente, las tres principales empresas de EDA internacionales cuentan con cierto soporte de herramientas para el diseño de chips de apilamiento 3D, mientras que en China, las empresas locales de EDA que se especializan en herramientas de flujo de diseño completo para chips de apilamiento 3D son todavía escasas. Algunas empresas pueden ofrecer herramientas puntuales para la simulación de chips de apilamiento 3D, pero en lo que respecta a herramientas como el enrutamiento y diseño, la verificación de múltiples chips y las pruebas DFT Multi-Die, todavía existe un gran vacío en China.
En cuarto lugar, están las pruebas y la confiabilidad. La complejidad y la alta densidad de la tecnología de empaquetado de apilamiento 3D de chips hacen que las pruebas y la confiabilidad sean un desafío importante. Es necesario desarrollar nuevos métodos y equipos de prueba para garantizar la calidad y confiabilidad del paquete. Al mismo tiempo, se requiere una evaluación de confiabilidad a largo plazo del paquete para garantizar su funcionamiento estable en diversos entornos.
Finalmente, está la complejidad del ensamblaje y la cadena de suministro. El ensamblaje físico implica la alineación precisa de matrices desnudas con diferentes espesores y diferentes coeficientes de expansión térmica, lo que requiere un trabajo intensivo de certificación termomecánica; el volumen de datos de diseño y análisis supera con creces al del empaquetado estándar. Esto también conduce a un costo de fabricación relativamente alto para la tecnología de empaquetado de apilamiento 3D de chips, lo que requiere una optimización continua de los procesos de fabricación y una reducción de los costos de fabricación para que la tecnología de empaquetado de apilamiento 3D de chips pueda aplicarse más ampliamente en productos reales.
En la era post-Moore, los beneficios marginales de la miniaturización de transistores están disminuyendo, y el empaquetado avanzado se ha convertido en la clave para "ir más allá de Moore". Para los chips de IA de China, dada la realidad industrial de las restricciones en la importación de procesos avanzados y HBM de alta gama, simplemente seguir la ruta 2.5D+HBM de los gigantes internacionales ya no es suficiente para generar una ventaja competitiva diferenciada. Desde la arquitectura Zixuan de Unisplendour hasta el apilamiento heterogéneo 3.5D de TsingMicro, los fabricantes chinos están demostrando que, cuando la expansión planar alcanza sus límites físicos, crecer hacia arriba y redefinir la forma de integración de los chips en tres dimensiones podría ser precisamente la clave para romper el "muro de memoria" y el "muro de área", y lograr un adelantamiento en la curva en la competencia global de potencia computacional de IA.









