es.wedoany.com Noticia: Google DeepMind ha lanzado un modelo experimental de código abierto llamado DiffusionGemma, diseñado para la generación de texto ultrarrápida. NVIDIA ha optimizado este modelo para que funcione más rápido en las GPU NVIDIA GeForce RTX, la plataforma NVIDIA RTX PRO y los sistemas NVIDIA DGX Spark, abarcando desde PC locales hasta la nube.

A diferencia de los modelos tradicionales que generan texto palabra por palabra, DiffusionGemma puede generar múltiples palabras en paralelo para producir bloques completos de texto. El modelo se basa en Gemma 4, un modelo experto mixto con 26 mil millones de parámetros que activa solo 3.8 mil millones de parámetros por paso, combinando una cabeza de difusión con la arquitectura Gemma 4 de Google. En términos de rendimiento, DiffusionGemma puede generar texto hasta 4 veces más rápido en hardware local en comparación con modelos autorregresivos equivalentes. Como modelo de código abierto, DiffusionGemma ofrece pesos abiertos bajo la licencia permisiva Apache 2.0 y se ejecuta completamente de forma local en RTX y DGX Spark, sin necesidad de depender de la nube, con soporte inmediato en Hugging Face Transformers, vLLM y Unsloth. Además, los usuarios pueden probar DiffusionGemma de forma gratuita a través de la interfaz de aplicación alojada por NVIDIA en build.nvidia.com.
La mayoría de los modelos de lenguaje grandes (LLM) ampliamente utilizados actualmente emplean un método de generación autorregresivo, generando un token a la vez, donde cada nueva palabra depende de la anterior. DiffusionGemma, basado en la arquitectura de experto mixto Gemma 4 26B, genera texto de la misma manera que los modelos de difusión generan imágenes: comenzando con ruido y refinando un bloque completo de texto en un solo paso. En cada paso, el modelo elimina el ruido de hasta 256 tokens en paralelo. Para tareas de un solo usuario sensibles a la latencia, como chats interactivos, bucles de agentes o asistentes en el dispositivo, esta capacidad de paralelismo permite que la velocidad de respuesta satisfaga las necesidades de desarrollo e iteración.
Los LLM tradicionales, al generar un token a la vez, suelen estar limitados por el ancho de banda de la memoria, dejando gran parte de la capacidad de cómputo sin utilizar. En cambio, DiffusionGemma procesa bloques completos de tokens en paralelo mediante Transformers, y su carga de trabajo intensiva en cómputo aprovecha al máximo las ventajas de las GPU NVIDIA. Los datos muestran que DiffusionGemma alcanza 1000 tokens/segundo en una sola GPU NVIDIA H100 Tensor Core, 150 tokens/segundo en NVIDIA DGX Spark, y logra la inferencia local más rápida en NVIDIA DGX Station, siendo aproximadamente 4 veces más rápido que los modelos autorregresivos equivalentes en el mismo escenario de un solo usuario.
Esta ventaja de rendimiento se extiende a toda la línea de productos de NVIDIA, incluyendo la supercomputadora de IA personal de escritorio local DGX Spark, impulsada por el superchip NVIDIA GB10 Grace Blackwell con 128 GB de memoria unificada; la estación de trabajo RTX PRO 6000, que ofrece suficiente espacio local para desarrolladores; la DGX Station, que proporciona una velocidad de inferencia rápida de hasta 800 tokens/segundo y 748 GB de memoria coherente; y las GPU GeForce RTX, que pronto serán compatibles con llama.cpp.
Usar Hugging Face Transformers es la forma más rápida de iniciar DiffusionGemma en una GeForce RTX 5090 o DGX Spark. Para inferencia de mayor rendimiento, vLLM ofrece soporte de servicio inmediato. Los usuarios pueden ajustar el modelo para tareas o dominios específicos utilizando los marcos Unsloth y NVIDIA NeMo. Para más detalles técnicos, consulte el blog técnico de NVIDIA y el anuncio oficial de Google DeepMind.
Este artículo es compilado por Wedoany, las citas de la IA deben indicar la fuente «Wedoany»; si hay alguna infracción u otro problema, por favor notifícanos a tiempo, este sitio lo modificará o eliminará. Correo electrónico: news@wedoany.com









