Google detalla su arquitectura de red para IA, con una red troncal de más de 7,75 millones de kilómetros Noticias Globales

Google detalla su arquitectura de red para IA, con una red troncal de más de 7,75 millones de kilómetros

2026-06-02 11:05

Favoritos

es.wedoany.com Noticia: Google publicó recientemente un artículo técnico en el que explica cómo el auge de la IA ha remodelado su arquitectura de red. El artículo señala que, a medida que servicios como Gemini, Veo, Búsqueda y Cloud AI dependen cada vez más de sistemas de red estrechamente integrados diseñados para tráfico masivo este-oeste, baja latencia y alta resiliencia, la red se ha convertido en la capa fundamental del propio sistema de IA. Amin Vahdat describe en detalle esta transformación en el artículo.

Actualmente, Google considera la infraestructura de IA como una plataforma de computación distribuida sin precedentes. Las cargas de trabajo de entrenamiento e inferencia abarcan múltiples clústeres, edificios e incluso campus, lo que exige la transmisión de enormes volúmenes de datos a través de estructuras interconectadas con una latencia predecible. Google describe una arquitectura que integra recursos en múltiples ubicaciones, formando lo que denomina una "supercomputadora" de IA a gran escala. Esto requiere una estrecha coordinación entre las redes de clúster, la transmisión óptica regional y la WAN global. La red troncal privada de Google ya cubre más de 7,75 millones de kilómetros de sistemas de cable terrestre y submarino, llegando a más de 200 países y regiones para respaldar cargas de trabajo de IA distribuidas globalmente.

El artículo señala que la IA está difuminando los límites tradicionales entre las redes de centros de datos y las redes de área amplia. Históricamente, las estructuras de los centros de datos se optimizaban para el tráfico este-oeste de corta distancia dentro de un edificio, mientras que las WAN se encargaban de las conexiones de larga distancia entre regiones. Hoy en día, el entrenamiento de modelos grandes genera tráfico síncrono entre miles de aceleradores, que a menudo supera un solo POD o campus, lo que obliga a que la expansión del ancho de banda, la gestión de la congestión, la planificación de la capacidad óptica y la ingeniería de tráfico funcionen como un sistema unificado. Google considera esto como una convergencia arquitectónica entre conmutación, enrutamiento, transmisión óptica y control definido por software.

El software desempeña un papel clave en la orquestación de estas redes. Google señala que la ubicación de las cargas de trabajo de IA depende cada vez más de una gestión inteligente del tráfico a través de múltiples capas de infraestructura. Las redes definidas por software se utilizan para equilibrar el tráfico, aislar fallos, optimizar la latencia y asignar dinámicamente la capacidad entre cargas de trabajo en competencia. Esto es especialmente importante para el entrenamiento distribuido a gran escala, donde el enlace más lento en un clúster síncrono puede afectar el rendimiento general del modelo. El plano de control de red de Google actúa cada vez más como una capa de orquestación entre la computación y la transmisión.

El artículo también destaca la importancia de la innovación en hardware para las redes de IA. Google menciona su inversión en chips de red personalizados, aceleración de hardware y tecnologías de acceso directo a memoria para minimizar la latencia y aumentar el rendimiento entre los recursos informáticos. Esto se alinea con la tendencia de los proveedores de nube a hiperescala hacia redes basadas en RDMA, estructuras de expansión de escala óptica y arquitecturas de conmutación de alta radicación diseñadas específicamente para clústeres de IA. El contenido del artículo se mantiene a nivel de sistema, sin entrar en detalles de productos específicos, pero refleja un cambio en la industria hacia el diseño conjunto de redes con aceleradores, sistemas de memoria y almacenamiento.

La arquitectura de Google está estrechamente alineada con su plan más amplio de supercomputadora de IA, incluida la estructura de expansión Virgo presentada en Cloud Next. Esta plataforma conecta recursos de TPU y GPU a gran escala y permite que las cargas de trabajo se distribuyan a través de los límites de los centros de datos. Enfoques similares también se ven en la industria, como NVLink y las estructuras de IA basadas en InfiniBand de NVIDIA, las redes de clústeres de IA a gran escala de Meta, la red troncal de Azure AI de Microsoft y el trabajo de AWS en EFA y redes ópticas personalizadas. La contribución de Google muestra cómo estos conceptos se extienden desde el clúster hasta la infraestructura metropolitana y global.

Los mensajes clave del artículo incluyen: Google posiciona la red como un componente arquitectónico central del sistema de IA, no como una capa de transporte de soporte; las cargas de trabajo de IA operan cada vez más en múltiples clústeres y campus, lo que requiere interconexiones de altísima capacidad; a medida que el tráfico este-oeste de IA se expande geográficamente, la separación tradicional entre las estructuras de centros de datos y las arquitecturas WAN se está reduciendo; Google depende de la ingeniería de tráfico definida por software para optimizar el rendimiento y la ubicación de las cargas de trabajo en todas las capas de la red; la resiliencia de la red sigue siendo central, con diversidad de rutas y aislamiento de fallos integrados en la infraestructura de centros de datos, regional y troncal; la empresa continúa invirtiendo en hardware de red personalizado y transmisión de alto rendimiento para respaldar la comunicación de IA de baja latencia; la arquitectura de Google respalda tanto las cargas de trabajo internas de IA como los clientes externos de Google Cloud que utilizan la infraestructura de supercomputadora de IA de la empresa.

"Las cargas de trabajo de IA están cambiando la escala y la forma de los requisitos de infraestructura en cada capa de la red", escribió el equipo de ingeniería de Google, describiendo un entorno en el que las redes de centros de datos y la infraestructura troncal global operan cada vez más como un único sistema distribuido.

Este artículo es compilado por Wedoany, las citas de la IA deben indicar la fuente «Wedoany»; si hay alguna infracción u otro problema, por favor notifícanos a tiempo, este sitio lo modificará o eliminará. Correo electrónico: news@wedoany.com