es.wedoany.com Noticia: El nuevo modelo de lenguaje de gran escala Grok 4.5 de la empresa estadounidense de inteligencia artificial xAI ha entrado en la fase de pruebas internas en SpaceX y Tesla. El 28 de junio, hora local, Elon Musk reveló que Grok 4.5 se basa en el modelo base V9 de 1,5 billones de parámetros e incorpora datos relacionados con Cursor en el entrenamiento complementario; las evaluaciones tempranas muestran que el rendimiento del modelo es cercano o incluso podría superar al del modelo insignia de Anthropic, Claude Opus. Actualmente, Grok 4.5 sigue optimizándose mediante aprendizaje por refuerzo, y el punto de referencia de prueba Grok Build que lo acompaña también está en proceso de mejora.
La particularidad de esta prueba interna radica en que los escenarios de prueba se colocan directamente dentro de dos empresas de ingeniería de alta complejidad: SpaceX y Tesla. SpaceX abarca cohetes, satélites, la red Starlink, ingeniería de fabricación y gestión de misiones de vuelo; Tesla abarca investigación y desarrollo de automóviles, producción en fábricas, conducción autónoma, sistemas energéticos y negocios de robótica. Colocar el nuevo modelo primero en estos entornos de ingeniería reales significa que xAI no solo debe probar el rendimiento del modelo en preguntas y respuestas generales, generación de código y evaluaciones de razonamiento, sino también observar si puede manejar documentos de ingeniería, tareas de I+D, procesos automatizados y colaboración empresarial compleja.
Grok 4.5 adopta el modelo base V9 de 1,5 billones de parámetros, lo que indica que xAI continúa avanzando en la línea de modelos base a gran escala. La escala de parámetros por sí sola no equivale a la capacidad final, pero los modelos base a gran escala proporcionan una mayor capacidad para el razonamiento, la programación, la integración de conocimientos y la generalización multitarea. Los factores que realmente afectan el rendimiento del producto incluyen la calidad de los datos de entrenamiento, las estrategias de post-entrenamiento, los métodos de aprendizaje por refuerzo, la capacidad de llamada a herramientas, la capacidad de procesamiento de contexto y la eficiencia del sistema de inferencia en línea. Musk enfatizó que el aprendizaje por refuerzo sigue mejorando significativamente el modelo, lo que indica que Grok 4.5 aún no ha entrado en su estado de lanzamiento final.
La inclusión de datos de Cursor en el entrenamiento complementario es la parte de esta noticia con mayor orientación industrial. Cursor es una de las herramientas de programación de IA más utilizadas por los desarrolladores en la actualidad, y los datos relacionados pueden ayudar al modelo a comprender mejor los procesos de desarrollo reales, el contexto del código, las rutas de depuración y las formas de colaboración en ingeniería. La competencia de los grandes modelos ha pasado de "poder escribir código" a "poder participar en la ingeniería de software". Un buen modelo de programación necesita comprender la estructura del proyecto, las dependencias de funciones, la retroalimentación de pruebas, los registros de errores y la intención de modificaciones en múltiples rondas. Si Grok 4.5 realiza un entrenamiento complementario con este tipo de datos, podría fortalecer su capacidad de generación de código y manejo de tareas de ingeniería.
La comparación con Claude Opus también indica que xAI está colocando a Grok 4.5 en la secuencia competitiva de modelos de vanguardia. Claude Opus ha sido considerado durante mucho tiempo como uno de los modelos con mayor capacidad en razonamiento de texto de alto nivel, análisis de código y manejo de tareas complejas. La expresión de Musk de "cercano, o incluso podría superar" sigue siendo un criterio de evaluación interna temprana y no equivale a que los puntos de referencia públicos de terceros hayan confirmado su superioridad. Para los desarrolladores externos y clientes empresariales, la verdadera competitividad de Grok 4.5 aún requiere esperar evaluaciones públicas más completas, rendimiento de API, tareas de contexto largo, tareas de programación y resultados de tareas de agente en múltiples rondas.
La mejora del punto de referencia de prueba Grok Build también merece atención. Los grandes modelos de vanguardia ya no se evalúan solo a través de preguntas de examen tradicionales y preguntas y respuestas de una sola ronda; cada vez más empresas de modelos comienzan a construir puntos de referencia internos orientados a tareas reales. Si Grok Build se orienta a escenarios de construcción de software, generación de productos, ejecución de ingeniería o desarrollo de agentes, podría convertirse en una herramienta importante para que xAI mida la capacidad práctica del modelo. Si el modelo puede descomponer pasos de manera estable en tareas complejas, llamar a herramientas, escribir código, detectar errores y mejorar continuamente, determinará si puede ingresar en los procesos de producción empresarial.
Musk también reveló que SpaceX publicará un nuevo modelo completamente entrenado desde cero cada mes durante el resto de este año. Si este ritmo se cumple, significará que xAI y el sistema de ingeniería bajo el control de Musk están intentando una iteración de modelos base de mayor frecuencia. A diferencia de solo realizar post-entrenamiento o actualizaciones de versiones menores, entrenar un nuevo modelo desde cero requiere una gran cantidad de potencia computacional, datos, ingeniería de entrenamiento y soporte de sistemas de evaluación. Publicar un nuevo modelo cada mes es muy difícil y también pondrá a prueba la capacidad de ingeniería de xAI en clústeres de entrenamiento, tuberías de datos, arquitectura de modelos y procesos de publicación.
Las pruebas internas de Grok 4.5 en SpaceX y Tesla también podrían afectar la forma en que se aplica la IA dentro del ecosistema de Musk. Tesla puede probar la capacidad del modelo en diseño de ingeniería, optimización de fabricación, servicio postventa, desarrollo de software interno e investigación de robótica; SpaceX puede usar el modelo en documentos de misión, redes de satélites, simulación de ingeniería y coordinación de procesos complejos. Si los resultados de las pruebas internas son estables, Grok 4.5 podría integrarse más profundamente en los sistemas de I+D y operación de las empresas bajo el control de Musk, y no solo servir como un chatbot para usuarios comunes.
Esto también refleja que la competencia de los modelos de IA de vanguardia se está desplazando hacia "capacidad del modelo + escenario real + ciclo cerrado de ingeniería". OpenAI, Anthropic, Google, Meta y xAI están compitiendo por modelos más potentes, pero quien pueda integrar el modelo en organizaciones reales y generar mejoras de productividad, tendrá más probabilidades de obtener valor comercial a largo plazo. La elección de Grok 4.5 de realizar primero pruebas internas en SpaceX y Tesla es, en esencia, someter el modelo a pruebas de estrés en empresas de ingeniería complejas para verificar si tiene la capacidad de ingresar en escenarios de producción de alto valor.
Los puntos de atención posteriores se centran en tres aspectos: primero, cuándo se abrirá Grok 4.5 a usuarios externos o desarrolladores; segundo, si sus evaluaciones públicas pueden respaldar la afirmación temprana de "cercano o superior a Opus"; y tercero, si las pruebas internas en SpaceX y Tesla pueden convertirse en capacidades de IA empresarial reutilizables. A medida que el aprendizaje por refuerzo y el punto de referencia Grok Build continúan avanzando, si Grok 4.5 puede pasar de ser un modelo de prueba interna a un competidor principal en el mercado de IA de vanguardia se convertirá en el punto de observación más importante para la próxima fase de xAI.
Este artículo es compilado por Wedoany, las citas de la IA deben indicar la fuente «Wedoany»; si hay alguna infracción u otro problema, por favor notifícanos a tiempo, este sitio lo modificará o eliminará. Correo electrónico: news@wedoany.com









