es.wedoany.com Noticia: En la primera demostración del investigador automático de alphaXiv, se adoptó el modelo chino de código abierto GLM-5.2 en sustitución de los modelos de vanguardia de Anthropic —Claude Fable 5 y Mythos 5— que anteriormente no estaban accesibles debido a las restricciones impuestas por las autoridades estadounidenses. El equipo de alphaXiv aclaró explícitamente que se trata únicamente de una demostración propia, no de una prueba independiente; la razón para elegir una alternativa de código abierto es que los modelos de vanguardia están cerrados a la investigación, por lo que la comunidad de código abierto busca alternativas viables.
En la ejecución mostrada, GLM-5.2 completó por sí mismo la comparación de dos esquemas de entrenamiento por refuerzo: el esquema completamente asíncrono y el esquema combinado síncrono. El experimento se realizó en dos nodos, cada uno equipado con ocho aceleradores H100, basado en el marco SkyRL, sobre el conjunto de tareas de competencia de código Harbor. La descripción del equipo señala que el agente reparó por sí mismo los problemas del entorno (dependencia libnuma), completó todas las ejecuciones y resumió los datos comparativos finales de rendimiento y estabilidad de recompensas.
La función de investigador automático de alphaXiv se utiliza para resolver el problema de reproducibilidad del código de los artículos. Cuando el usuario cambia "arxiv" por "autoarxiv" en la dirección del artículo, el agente despliega automáticamente el repositorio, repara el entorno, ejecuta la verificación mínima de reproducibilidad y evalúa el costo de reproducir completamente los resultados. Este proceso implica aspectos de ingeniería: construir y verificar el código de otros, no descubrimientos científicos. Para el código privado, existe una plataforma independiente llamada OpenResearch.sh.
GLM-5.2 proviene de Z.ai (anteriormente Zhipu AI) en China. Es un modelo de código abierto con arquitectura MoE, con aproximadamente 750 mil millones de parámetros, activando alrededor de 40 mil millones de parámetros por token, una longitud de contexto de 1 millón de tokens y licencia MIT. El equipo señala que la característica clave de este modelo no son sus puntuaciones en pruebas de referencia, sino que sus pesos de código abierto no pueden ser revocados por las autoridades reguladoras, lo que supone una garantía para herramientas que requieren acceso predecible.
El equipo de alphaXiv admite que GLM-5.2 carece de capacidades visuales: mientras que otros modelos leen tendencias directamente de los gráficos de WandB (servicio de seguimiento de experimentos), GLM escribe código numpy para analizar números en bruto, lo cual es suficiente para ejecuciones simples, pero puede resultar engorroso en tareas complejas. El equipo indica que, en la etapa actual, el modelo aún no ha realizado realmente investigación; su ventaja radica en resolver problemas de implementación y reproducir trabajos existentes. La investigación autónoma aquí se refiere al ciclo de ingeniería de los experimentos, no al descubrimiento científico.
Este artículo es compilado por Wedoany, las citas de la IA deben indicar la fuente «Wedoany»; si hay alguna infracción u otro problema, por favor notifícanos a tiempo, este sitio lo modificará o eliminará. Correo electrónico: news@wedoany.com









