La empresa china StepFun lanza el modelo de razonamiento Step 3.7 Flash Noticias Globales

La empresa china StepFun lanza el modelo de razonamiento Step 3.7 Flash

2026-06-15 16:44

Favoritos

es.wedoany.com Noticia: Nvidia continúa ampliando su cartera de productos, añadiendo varios modelos, de los cuales el más grande solo se ha anunciado de forma preliminar. Mientras tanto, Microsoft lanzó una serie de modelos en la conferencia Build de principios de junio, pero lamentablemente todos son de código cerrado, lo que la distancia aún más de OpenAI.

StepFun, una empresa de inteligencia artificial con sede en Shanghái, tras lanzar con éxito el modelo 3.5 en primavera, ha presentado su nuevo modelo de razonamiento Step 3.7 Flash. La arquitectura de este modelo es similar a la de su predecesor, pero incorpora un codificador visual (Vision Encoder) que le permite comprender imágenes. La función de razonamiento ahora es configurable, evitando la acumulación inmediata de una gran cantidad de tokens para problemas simples, lo que resulta especialmente útil para usos de agente (agentic). Al igual que muchos modelos chinos, su predecesor fue objeto de un estricto escrutinio; la versión 3.7 no presenta grandes cambios, pero el modelo proporciona hechos en la zona de razonamiento, que luego son suprimidos en la respuesta final, aparentemente debido a las barreras de seguridad (guardrails) impuestas en la etapa final de entrenamiento. Aparte de esto, las respuestas son en su mayoría correctas. Curiosamente, para preguntas en alemán, el proceso de razonamiento se realiza mayoritariamente en alemán, mientras que palabras de interrupción como "wait" siguen siendo en inglés, lo que lo diferencia de casi todos los demás modelos que solo razonan en inglés. La comunidad valora muy positivamente este modelo, especialmente para su uso con agentes de codificación (Coding Agents). En el sitio web de StepFun, sus datos son muy superiores a los del modelo anterior, e incluso superan a DeepSeek V4 Flash. Los resultados de Step 3.7 Flash se pueden encontrar en el repositorio de GitHub de este artículo.

El modelo M3 de MiniMax, aunque etiquetado como "peso abierto" (Open Weight), actualmente no permite descargar los pesos en Hugging Face, solo se puede probar directamente a través de MiniMax.ai u OpenRouter. MiniMax ha optimizado la arquitectura de atención: en la primera etapa se decide qué tokens son importantes, y en la segunda etapa estos tokens se pasan al cálculo completo de atención. MiniMax afirma que el M3 procesa las indicaciones (prompts) casi diez veces más rápido que el M2, y la velocidad de generación es incluso 15 veces mayor. Actualmente no hay pruebas comparativas públicas, pero los datos propios de MiniMax muestran que, en el ámbito de la codificación, si los datos son precisos, podría competir con el mejor modelo de Anthropic. Los resultados de MiniMax M3 se pueden encontrar en el repositorio de GitHub de este artículo.

Liquid AI ha adoptado una arquitectura única para sus Liquid Foundation Models, lo que hace que la generación de tokens sea extremadamente eficiente y funcione bien en CPU. El nuevo LFM2.5-8B-A1B tiene solo mil millones de parámetros activos y está diseñado para competir con modelos más grandes como gpt-oss-20b, Qwen3-30B-A3B-Thinking-2507 y Gemma-4-26B-A4B-IT. En un Mac Studio M2 Ultra, este modelo alcanza una velocidad de casi 200 tokens/segundo, aunque no puede igualar completamente a los modelos grandes, es adecuado para aplicaciones especializadas o escenarios de agente. Los resultados de LFM2.5-8B-A1B se pueden encontrar en el repositorio de GitHub de este artículo.

Nvidia ha lanzado varias actualizaciones de modelos. El modelo LocateAnything se puede utilizar para analizar imágenes y generar cuadros delimitadores que contengan objetos específicos; su proceso de procesamiento es altamente paralelo, e incluso puede analizar documentos escaneados, siendo útil para identificar elementos GUI y operar navegadores a través de agentes. Este modelo tiene un tamaño de aproximadamente 8 GB y puede ejecutarse en GPU de consumo. El decodificador de difusión de píxeles (Pixel Diffusion Decoder) introduce un novedoso modelo de difusión en el espacio de píxeles, pero su operación sigue siendo engorrosa, ya que requiere descargar puntos de control desde la página de Hugging Face y procesarlos con un programa especializado. El modelo Nemotron 3 Ultra cuenta con 550 mil millones de parámetros, de los cuales 55 mil millones están activos, utiliza el tipo de datos NVFP4 y una atención optimizada (que incluye muchas capas Mamba), con una longitud de contexto de hasta 1 millón de tokens. Sin embargo, Nemotron 3 Ultra aún no ha alcanzado completamente a los modelos de código abierto chinos. Al igual que todos los modelos Nemotron, Nvidia proporciona la mayor parte de los datos de entrenamiento y el código, lo que le otorga un alto nivel de transparencia, solo comparable a modelos de empresas de inteligencia artificial mucho más pequeñas como Olmo o Apertus. En las respuestas se puede sentir el origen occidental del modelo: mientras que los modelos chinos evitan cuidadosamente ciertos temas, este modelo suele ofrecer respuestas más claras, políticamente más neutrales o con puntos de vista diferentes. Los resultados de Nemotron 3 Ultra se pueden encontrar en el repositorio de GitHub de este artículo.

Este artículo es compilado por Wedoany, las citas de la IA deben indicar la fuente «Wedoany»; si hay alguna infracción u otro problema, por favor notifícanos a tiempo, este sitio lo modificará o eliminará. Correo electrónico: news@wedoany.com