Vista desde lejos, la superficie de la Gran Pirámide parece lisa, pero al acercarse se pueden ver los enormes bloques de piedra caliza superpuestos, formando una estructura escalonada en lugar de una pendiente suave. Esta metáfora puede compararse con el crecimiento exponencial en el desarrollo tecnológico, que a menudo se manifiesta como avances por etapas en lugar de una curva continua y suave.
Gordon Moore, cofundador de Intel, propuso en 1965 que el número de transistores en un microchip se duplicaría cada año, corrección posteriormente a que la capacidad de cálculo se duplicaría cada 18 meses. El crecimiento inicial del rendimiento de la CPU siguió esta tendencia, pero luego el ritmo se ralentizó. El crecimiento de la computación se trasladó al campo de las GPU, y Jensen Huang, CEO de NVIDIA, construyó gradualmente una base tecnológica a través de aplicaciones como juegos, visión por computadora e IA generativa.
La evolución tecnológica a menudo pasa por períodos de avance y mesetas, y la IA generativa no es una excepción. La ola actual está impulsada por la arquitectura Transformer. Dario Amodei, cofundador de Anthropic, declaró: "El crecimiento exponencial continuará hasta que se detenga. Cada año pensamos, 'las cosas no pueden seguir creciendo exponencialmente, ¿verdad?' — y cada año lo hace". El crecimiento de los modelos de lenguaje grandes está mostrando nuevos paradigmas, como en 2024 cuando DeepSeek utilizó tecnología MoE para entrenar modelos eficientes con un presupuesto relativamente pequeño. NVIDIA integra la tecnología NVLink en su plataforma Rubin para acelerar la inferencia de modelos MoE y reducir costos.
La mejora de la capacidad de inferencia de IA enfrenta el desafío de la latencia, donde Groq desempeña un papel con su alto rendimiento en inferencia. Combinar la eficiencia de la arquitectura del modelo con el alto rendimiento de Groq puede elevar el nivel de inteligencia del sistema y reducir el tiempo de espera del usuario. En el pasado, las GPU servían como herramientas de propósito general para tareas de IA, pero a medida que los modelos se orientan hacia un razonamiento complejo, los requisitos de cálculo cambian. El entrenamiento requiere procesamiento paralelo a gran escala, mientras que la inferencia exige una generación secuencial rápida de tokens. La arquitectura LPU de Groq optimiza el ancho de banda de memoria, admitiendo inferencia en tiempo real.
La alta dirección está centrada en resolver el problema de la latencia en el "tiempo de pensamiento" de la IA. Por ejemplo, un agente de IA puede necesitar generar una gran cantidad de tokens internos para verificar una tarea, lo que podría tomar 20-40 segundos en una GPU estándar, pero en Groq podría reducirse a menos de 2 segundos. Si NVIDIA integrara la tecnología de Groq, podría mejorar sus capacidades de inferencia en tiempo real y aprovechar el ecosistema CUDA para construir una ventaja de software, ofreciendo una plataforma eficiente para entrenar y ejecutar modelos. Combinado con modelos de código abierto como DeepSeek 4, NVIDIA tiene la oportunidad de expandir su negocio de inferencia y servir a una base de clientes en crecimiento.
El desarrollo de la IA se asemeja a avances escalonados: las GPU resuelven el problema de la velocidad de cálculo, la arquitectura Transformer profundiza el entrenamiento, y la LPU de Groq acelera el razonamiento y el "pensamiento". A través de una disposición estratégica, Jensen Huang está impulsando a NVIDIA hacia la próxima generación de tecnología inteligente.









