NVIDIA lanza Cosmos 3, un modelo base abierto para IA física
2026-06-05 10:19
Favoritos

es.wedoany.com Noticia: NVIDIA ha lanzado NVIDIA Cosmos 3, un modelo base de mundo abierto para IA física, construido sobre una arquitectura híbrida Transformer que integra razonamiento visual, generación de mundos y predicción de acciones en un solo sistema.

Cosmos 3 es el primer modelo completamente abierto y versátil del mundo, capaz de comprender y generar de forma nativa texto, imágenes, video, sonidos ambientales y acciones, con una precisión física líder que reduce el ciclo de entrenamiento y evaluación de la IA física de meses a días.

Este modelo aborda un desafío fundamental en la IA física: permitir que robots, vehículos autónomos o agentes visuales generalicen en el mundo real con datos de entrenamiento limitados y pilas de simulación fragmentadas. Su arquitectura híbrida Transformer combina un Transformer de razonamiento con un Transformer generativo experto, lo que permite a Cosmos 3 comprender interacciones entre objetos, movimiento y relaciones espacio-temporales antes de generar videos y trayectorias de acción. El modelo se entrena en un conjunto de datos multimodales de IA física que contiene miles de millones de muestras de texto, imágenes, video, sonido y trayectorias de acción, proporcionando a los desarrolladores una base de preentrenamiento sólida para construir sistemas de IA física con menos datos y menores costos de entrenamiento.

En pruebas de referencia de IA física, Cosmos 3 ha obtenido resultados líderes. Entre los modelos abiertos, ocupa el primer lugar en precisión de generación de mundos en las evaluaciones de Artificial Analysis, Physics-IQ, PAI-Bench y R-Bench; el primer lugar en estrategias de acción en RoboLab y RoboArena; y el primer lugar en comprensión visual en los rankings de VANTAGE-Bench y TAR.

La serie Cosmos 3 ofrece varias versiones: Cosmos 3 Super, ideal para modelos de robots y vehículos autónomos post-entrenamiento que requieren la máxima precisión física y calidad de generación; Cosmos 3 Nano, para razonamiento de video y acciones de alta calidad en fracciones de segundo; y Cosmos 3 Edge, próximamente disponible, para inferencia en tiempo real en el borde.

NVIDIA también ha lanzado NVIDIA Cosmos Coalition, una organización global de colaboración formada por constructores de modelos mundiales y desarrolladores de IA, cuyos miembros fundadores incluyen a Agile Robots, Black Forest Labs, Generalist, LTX, Runway y Skild AI. Esta coalición tiene como objetivo avanzar en modelos de mundo abierto en todas las industrias, permitiendo a los miembros contribuir con modelos, investigaciones y técnicas de evaluación, mientras utilizan la tecnología Cosmos 3, herramientas de entrenamiento y la infraestructura de NVIDIA DGX Cloud para entrenamiento a gran escala.

La plataforma Cosmos respalda el stack de IA física de NVIDIA, incluyendo nuevos conjuntos de datos sobre robótica, física, movimiento humano, conducción autónoma, seguridad en almacenes y razonamiento espacial, así como habilidades de agentes de IA física para reconstrucción de escenas neuronales, generación de imágenes defectuosas y mejora de video. Los desarrolladores de IA física ya están construyendo sobre esta plataforma, abarcando a Agile Robots, Doosan Robotics, LG Electronics, Samsung Electronics y Skild AI en robótica; Li Auto en vehículos autónomos; y Centific, Fogsphere, Linker Vision, Milestone Systems y Yuan en agentes visuales de IA.

Cosmos 3 Super y Cosmos 3 Nano ya están disponibles, y Cosmos 3 Edge se lanzará próximamente. Los desarrolladores pueden probar Cosmos 3 en build.nvidia.com, descargar el modelo abierto desde Hugging Face, personalizar el modelo y generar datos sintéticos utilizando Hugging Face Diffusers y recursos de GitHub, y desplegar el modelo como un microservicio NVIDIA NIM. Los constructores de modelos y proveedores de software pueden acelerar el acceso, la personalización y el despliegue de Cosmos para cargas de trabajo críticas de inferencia y generación de datos sintéticos a través de habilidades de agentes de IA física en GitHub, utilizando servicios de inferencia y socios de infraestructura en la nube como Baseten, CoreWeave, Microsoft Azure, Nebius, Deep Infra y Classmethod.

Este artículo es compilado por Wedoany, las citas de la IA deben indicar la fuente «Wedoany»; si hay alguna infracción u otro problema, por favor notifícanos a tiempo, este sitio lo modificará o eliminará. Correo electrónico: news@wedoany.com