Google lanza DiffusionGemma, un modelo de difusión de texto de código abierto Noticias Globales

Google lanza DiffusionGemma, un modelo de difusión de texto de código abierto

2026-06-11 08:51

Favoritos

es.wedoany.com Noticia: El 10 de junio, Google lanzó DiffusionGemma, un modelo experimental de código abierto. Este modelo utiliza una arquitectura de difusión de texto y se publica bajo la licencia Apache 2.0, dirigido a investigadores y desarrolladores para explorar la inferencia local rápida, la generación de texto interactiva y escenarios de baja concurrencia. En GPU dedicadas, la velocidad de generación de texto es hasta 4 veces superior a la de los modelos autorregresivos de lenguaje grande tradicionales.

La ruta técnica de DiffusionGemma difiere de la de los modelos de lenguaje grandes comunes. Los modelos autorregresivos tradicionales suelen generar tokens uno por uno en orden de izquierda a derecha; cuanto más largo es el texto, más evidente es la espera por la siguiente salida. DiffusionGemma, en cambio, intenta generar un marco de texto de una sola vez y luego corrige el contenido mediante múltiples iteraciones. Google lo ha diseñado como un modelo de expertos mixtos con un total de 26 mil millones de parámetros, activando aproximadamente 3.8 mil millones de parámetros durante la inferencia, y puede adaptarse, tras la cuantización, a GPU de consumo de gama alta con 18 GB de VRAM. Para los desarrolladores locales, esto significa que el modelo no solo está destinado a implementaciones a gran escala en la nube, sino que también puede ejecutar tareas de edición rápida, autocompletado de código, reordenamiento de texto y generación experimental en una sola tarjeta gráfica de alto rendimiento.

La ventaja de velocidad de este modelo proviene principalmente de su mecanismo de generación paralela. Cada cálculo hacia adelante de DiffusionGemma puede generar 256 tokens en paralelo, lo que permite que los tokens dentro del bloque de salida se atiendan mutuamente y se corrijan continuamente en iteraciones posteriores. Esta estructura es adecuada para edición en línea, relleno de código, estructuras de texto no lineales, gráficos matemáticos y algunas tareas que requieren restricciones contextuales. Google reveló que, en una sola NVIDIA H100, DiffusionGemma puede alcanzar una salida de más de 1000 tokens por segundo; en una NVIDIA GeForce RTX 5090, puede alcanzar más de 700 tokens por segundo.

Sin embargo, no es un reemplazo de Gemma 4.

Google ha definido claramente el posicionamiento de DiffusionGemma: es un modelo experimental que prioriza flujos de trabajo locales interactivos y sensibles a la velocidad, con una calidad de salida general inferior a la de Gemma 4 estándar. Para aplicaciones que buscan la máxima calidad de generación, estabilidad y entrega a nivel de producción, Google aún recomienda usar Gemma 4 estándar. Las ventajas de DiffusionGemma tampoco son aplicables en todos los entornos de implementación; en servicios en la nube de alta concurrencia, los modelos autorregresivos pueden aprovechar al máximo la potencia computacional mediante el procesamiento por lotes, y los beneficios de la decodificación paralela de difusión de texto pueden disminuir, incluso aumentando los costos del servicio. En otras palabras, es más adecuado para lotes bajos a medios, entornos de un solo usuario local o experimentación de desarrollo, en lugar de reemplazar directamente las arquitecturas de modelos en la nube convencionales.

Este lanzamiento sigue siendo significativo para el ecosistema de desarrollo de TI y IA. En el pasado, los modelos de difusión eran más conocidos por los usuarios en la generación de imágenes y videos, mientras que la generación de texto ha estado dominada durante mucho tiempo por arquitecturas autorregresivas. DiffusionGemma combina la ruta de difusión de texto con el ecosistema de modelos abiertos de Gemma, ofreciendo a los desarrolladores una plataforma experimental prioritaria en velocidad. Con el crecimiento de la demanda de IA local, estaciones de trabajo personales, PC con IA y dispositivos periféricos, los desarrolladores necesitan cada vez más realizar generación rápida, modificaciones instantáneas y tareas sensibles a la privacidad sin depender de la nube remota. La licencia de código abierto también facilita que instituciones de investigación, fabricantes de herramientas y desarrolladores continúen experimentando con la estructura del modelo, motores de inferencia, esquemas de cuantización y métodos de ajuste fino.

El impacto en la cadena industrial se concentrará en la inferencia de IA local, GPU de consumo, herramientas para desarrolladores y plataformas de servicios de modelos. DiffusionGemma ya admite la obtención de pesos a través de Hugging Face y se puede utilizar con herramientas como MLX, vLLM y Hugging Face Transformers; Google también ha optimizado el rendimiento con NVIDIA en torno a la pila de hardware, cubriendo tarjetas gráficas de consumo RTX, RTX PRO, Hopper y plataformas empresariales como Blackwell. Los próximos hitos incluyen los efectos del ajuste fino por parte de los desarrolladores, el progreso de soporte en ecosistemas como llama.cpp, la experiencia real del modelo en autocompletado de código y edición en tiempo real, y si la arquitectura de difusión de texto puede seguir reduciendo la brecha de salida con los modelos autorregresivos de alta calidad. Si esta ruta continúa madurando, las aplicaciones de IA local podrían obtener respuestas de generación más rápidas, y también traería nuevas ramas técnicas al ecosistema de modelos abiertos.

Este artículo es compilado por Wedoany, las citas de la IA deben indicar la fuente «Wedoany»; si hay alguna infracción u otro problema, por favor notifícanos a tiempo, este sitio lo modificará o eliminará. Correo electrónico: news@wedoany.com