es.wedoany.com Noticia: Livingston, Nueva Jersey, EE. UU. — El proveedor de servicios de nube de IA, CoreWeave, anunció oficialmente la expansión de las capacidades de su plataforma SUNK (Slurm on Kubernetes) con el lanzamiento de dos nuevas funcionalidades: SUNK Autogestionado y SUNK Anywhere, diseñadas para ayudar a los equipos de investigación y plataformas de IA a acelerar la creación y operación de clústeres en CoreWeave y en entornos de nube diversos. Chen Goldberg, vicepresidente ejecutivo de Producto e Ingeniería de CoreWeave, declaró que los equipos de IA ahora ejecutan tareas que abarcan más regiones, generaciones de hardware e incluso entornos de nube, y lo que realmente ralentiza su velocidad es tener que volver a aprender toda la pila tecnológica cada vez que cambian de entorno, o perder visibilidad y control tras el cambio. Estas dos nuevas funcionalidades, SUNK Autogestionado y SUNK Anywhere, ofrecen una solución que mantiene la misma disciplina de programación y operación desde el primer clúster del investigador hasta la ejecución en producción formal.
El núcleo de la funcionalidad SUNK Autogestionado reside en transformar la experiencia acumulada por CoreWeave en la operación a gran escala de clústeres de investigación en plantillas estandarizadas reutilizables. Los equipos de plataforma pueden elegir entre dos caminos: para necesidades simples, una ruta guiada para un inicio rápido; para requisitos complejos de entrenamiento a escala de vanguardia, el diseño colaborativo de un entorno personalizado con los arquitectos de soluciones de CoreWeave. Ambas rutas ofrecen un comportamiento consistente, una sólida visibilidad operativa y una gestión del ciclo de vida totalmente a cargo de CoreWeave. El autoservicio integra simultáneamente dos capacidades: el aprovisionamiento automatizado de usuarios y la configuración de usuarios SUNK. La primera sincroniza usuarios y grupos desde el proveedor de identidad al sistema de gestión de identidad y acceso de CoreWeave mediante el protocolo SCIM; la segunda configura automáticamente los usuarios POSIX, grupos, claves de protocolo de shell seguro y la información de cuentas de Slurm dentro de cada clúster, comprimiendo el proceso de incorporación manual en un flujo automatizado.
SUNK Anywhere extiende las capacidades unificadas del sistema de entrenamiento más allá de la infraestructura de CoreWeave. Cuando una organización necesita ejecutar entrenamiento de IA en diferentes proveedores o en su propia infraestructura, SUNK Anywhere cubre todos los entornos con el mismo modelo operativo y flujo de trabajo, evitando que los equipos de plataforma se vean forzados a mantener diferentes sistemas de entrenamiento, flujos de trabajo o prácticas operativas en distintos entornos. La barrera de implementación de SUNK Anywhere se mantiene en un nivel extremadamente bajo: desplegar SUNK fuera del entorno de CoreWeave requiere cambios de configuración mínimos. Además, la nueva funcionalidad de detección de nodos GPU rezagados de SUNK Anywhere amplía el sistema de observabilidad de Mission Control: el sistema puede localizar con precisión la única GPU que está ralentizando el trabajo de entrenamiento general, permitiendo a los investigadores identificar y reiniciar los nodos fallidos al instante mientras el trabajo está en ejecución.
Dylan Patel, fundador y analista jefe de Semianalysis, señaló que, incluso si los clientes han firmado contratos de compromiso a largo plazo, existen numerosas razones para necesitar poner en marcha clústeres rápidamente mediante autoservicio. Josh Meibos, director sénior de Ingeniería de Plataformas de Recursion Pharmaceuticals, reveló que, gracias a SUNK, la utilización de los clústeres de GPU de su compañía aumentó de aproximadamente el 85% a más del 95%, y el número de usuarios concurrentes se expandió de unas pocas docenas a cientos, sin que el tamaño del equipo de ingeniería de plataformas creciera proporcionalmente. IBM utilizó SUNK para reducir el tiempo de despliegue de trabajos de entrenamiento distribuido a gran escala, que antes requería intervención manual, a cero, duplicando la velocidad de despliegue de los trabajos.
Este artículo es compilado por Wedoany, las citas de la IA deben indicar la fuente «Wedoany»; si hay alguna infracción u otro problema, por favor notifícanos a tiempo, este sitio lo modificará o eliminará. Correo electrónico: news@wedoany.com









