Google de EE. UU. lanza tres modelos de imagen AI Nano Banana
2026-06-11 14:11
Favoritos

es.wedoany.com Noticia: Google ha lanzado una serie de modelos de generación y edición de imágenes AI llamados Nano Banana, construidos sobre la arquitectura Gemini 3. Nano Banana no es una herramienta independiente de texto a imagen, sino un sistema de ejecución visual que trabaja en conjunto con el cerebro cognitivo subyacente de Gemini, capaz de convertir conjuntos de datos densos, kits de marca y diseños complejos en resultados a nivel de píxel.

Actualmente, la línea de productos incluye tres modelos:

Modelo

Nombre oficial

Velocidad

Mejor uso

Nano BananaGemini 2.5 Flash ImageRápidaEdición diaria, generación básica
Nano Banana ProGemini 3 Pro ImageMás lentaTrabajo de marca, impresión, resultados precisos
Nano Banana 2Gemini 3.1 Flash ImageLa más rápida (3× Pro)Iteración rápida, contenido social, modelos

Nano Banana 2 no es una versión degradada de Pro, sino una herramienta diferente para trabajos distintos: velocidad y cantidad frente a refinamiento y precisión.

Los usuarios pueden acceder a estos modelos a través de las siguientes plataformas:

Plataforma

Contenido disponible

Gemini App (iOS/Android/Web)Acceso completo, incluye nivel gratuito: el punto de partida más sencillo
Google Search (Modo AI)Generación rápida en resultados de búsqueda
Google LensCreación de imágenes a través de la función Lens Create
Google AI StudioPruebas para desarrolladores y experimentación con indicaciones
Gemini API / Vertex AIImplementación en producción, flujos de trabajo por lotes, control de gobernanza
Google Slides ("Help me visualize")Generación visual en línea dentro de diapositivas

Tanto Nano Banana 2 como Nano Banana Pro se pueden usar de forma gratuita a través de la aplicación Gemini, pero Pro tiene un límite de generación; al alcanzarlo, la aplicación vuelve automáticamente al modelo base.

En cuanto a las especificaciones principales: Nano Banana 2 (Gemini 3.1 Flash Image) genera cada imagen en 2 a 5 segundos, con una resolución máxima de 4K (4096×4096), ofrece opciones nativas de 512px, 1K y 2K, admite 15 relaciones de aspecto (incluyendo formatos extremos como 8:1 y 1:8), hasta 4 personajes en una serie, hasta 14 referencias de objetos en una sola indicación, un límite de tokens de entrada de 131,072, un límite de tokens de salida de 32,768, una precisión de renderizado de texto de aproximadamente el 87%, capacidad de búsqueda web en tiempo real y un costo por imagen aproximadamente un 75% más barato que Pro. Nano Banana Pro (Gemini 3 Pro Image) genera cada imagen en aproximadamente 10 a 15 segundos, con resolución nativa de 4K, relaciones de aspecto estándar (1:1, 16:9, 9:16, 4:3, 3:4, 21:9, etc.), hasta 5 personajes, hasta 14 referencias de objetos, un límite de tokens de entrada de 65,536, un límite de tokens de salida de 32,768, una precisión de renderizado de texto de aproximadamente el 64%, y también admite búsqueda web en tiempo real y función de bloqueo de estilo. Ambos modelos comparten Credenciales de Contenido C2PA, marcas de agua digitales invisibles SynthID, generación de texto multilingüe (más de 10 idiomas), una fecha límite de conocimiento de enero de 2025, complementada con búsqueda en tiempo real.

Google proporciona cinco marcos de indicaciones para obtener los mejores resultados. Primero, texto a imagen (sin referencia): fórmula = sujeto + acción + lugar/fondo + composición + estilo. Ejemplo de indicación: "Un ingeniero de software agotado de unos 30 años, con ojeras, sentado en un escritorio desordenado rodeado de tazas de café vacías. Está mirando fijamente un monitor que emite un tenue resplandor verde. Plano medio a nivel bajo. Tono cinematográfico, suaves tonos azul verdosos, iluminación de estilo documental."

Segundo, generación multimodal (con imagen de referencia): fórmula = imagen de referencia + indicación de relación + nueva escena. Ejemplo de indicación: "Usando la foto del producto adjunta como objeto y el tablero de inspiración adjunto como referencia de estilo, coloca el producto en un entorno de cafetería junto al mar bañado por el sol. Mantén las proporciones del producto precisas. Foto de escena de vida, calidad de edición."

Tercero, edición de imágenes (conversacional): cinco verbos de edición principales: Añadir (Add), Eliminar (Remove), Reemplazar (Replace), Cambiar (Change), Hacer (Make). Consejo profesional: siempre dile al modelo qué conservar y qué cambiar; añadir "mantén el rostro y la ropa del sujeto completamente sin cambios" reduce la deriva en la salida.

Cuarto, visualización de datos en tiempo real: Nano Banana 2 puede extraer información en tiempo real de la web y visualizarla. Ejemplo de indicación: "Busca el índice de calidad del aire de Londres hoy. Representa los datos como un panel de instrumentos limpio e ilustrado en un modelo de interfaz de usuario de smartphone. Usa un sistema de iconos simple: verde para bueno, ámbar para moderado, rojo para malo. Incluye nombres de distritos y marcas de tiempo."

La función de datos en tiempo real es prometedora pero no infalible; se sabe que las fechas y la información estadística pueden extraer datos desactualizados, por lo que se debe verificar antes de publicar.

Quinto, escribir indicaciones como un director creativo: se pueden especificar opciones de iluminación (luz de relleno suave, dramática, cálida natural, limpia para producto), lenguaje de cámara y lente (por ejemplo, "tomado con Fujifilm X100V, ciencia del color natural"), atajos de gradación de color (nostálgico, cinematográfico emotivo, comercial limpio), y sugerencias de materiales y texturas (por ejemplo, "chaqueta vaquera retro de talla grande, índigo prelavado, marcas de tensión en las costuras").

En cuanto al renderizado de texto, la precisión de texto de Nano Banana 2 es actualmente una de las mejores entre todos los modelos de imagen AI. Para maximizar el efecto: usa siempre comillas para encerrar el texto a renderizar; indica la fuente o descríbela; especifica el color y la relación de tamaño; usa el truco de priorizar el texto: primero haz que Gemini genere una copia del texto, luego solicita una imagen que incluya esa copia; especifica directamente el idioma de destino para la localización; no se recomienda confiar en él para generar texto largo de cuerpo.

Referencia rápida de relaciones de aspecto: 1:1 para publicaciones de Instagram, fotos de perfil; 16:9 para miniaturas de YouTube, presentaciones; 9:16 para Reels, TikTok, historias, anuncios móviles; 4:5 para el feed de Instagram (formato de mejor interacción); 21:9 para cine panorámico, banners de héroe de sitios web; 8:1 (solo Nano Banana 2) para encabezados de sitios web ultraanchos, banners de correo electrónico; 1:8 (solo NB2) para activos de aplicaciones móviles verticales, gráficos de barras laterales; 3:2 para estándar de fotografía de impresión; 4:3 para diapositivas de presentaciones.

Guía para elegir modelo: elige Nano Banana 2 para iteración rápida, redes sociales, gráficos web, necesidad de texto legible (su precisión de texto es mayor que Pro), sensibilidad al costo (75% más barato), necesidad de relaciones de aspecto extremas, construcción por lotes; elige Nano Banana Pro para impresión o pantallas de gran formato, escenas complejas con múltiples sujetos que requieren máxima fidelidad, consistencia de marca importante en grandes volúmenes de imágenes, fotografía de productos de alta gama, indicaciones largas y altamente específicas.

Fallos comunes y soluciones: fusión o distorsión de rostros (indicación de referencia vaga, añade "mantén a cada persona visualmente única"); demasiados dedos (regenerar o recortar la composición); deriva de estilo (incluye una frase de estilo consistente en la indicación o referencia a salidas anteriores); texto ilegible (usa comillas, especifica la fuente, mantén el texto breve); datos en tiempo real desactualizados (verificar manualmente); la salida ignora parte de la indicación (dividir en indicaciones secuenciales); imagen borrosa (añade "enfoque nítido, alta nitidez"); relación de aspecto vuelve al valor predeterminado (indica la proporción al principio de la indicación).

En cuanto a marcas de agua y detección AI, cada imagen generada por Nano Banana lleva dos capas: SynthID, una marca de agua digital invisible a nivel de píxel, imperceptible al ojo humano pero legible por herramientas de detección; la función de verificación SynthID en la aplicación Gemini se ha utilizado más de 20 millones de veces; Credenciales de Contenido C2PA, un estándar de metadatos que registra cómo se creó la imagen, incluida la participación de AI; la función de verificación se está implementando en la aplicación Gemini. Esto significa que las imágenes generadas por AI son técnicamente identificables cuando se usan las herramientas adecuadas, pero las marcas de agua no son visibles al navegar casualmente por las redes sociales.

Los iniciadores de indicaciones de referencia rápida incluyen: indicaciones para modelos de productos, gráficos de redes sociales con texto, diapositivas de infografías, series de personajes consistentes, restauración de fotos, materiales de marketing localizados, etc.

Este artículo es compilado por Wedoany, las citas de la IA deben indicar la fuente «Wedoany»; si hay alguna infracción u otro problema, por favor notifícanos a tiempo, este sitio lo modificará o eliminará. Correo electrónico: news@wedoany.com