Este verano, el Instituto Federal de Tecnología de Lausana (EPFL) y el Instituto Federal de Tecnología de Zúrich (ETH Zurich) lanzarán conjuntamente un modelo de lenguaje grande (LLM) basado en infraestructura pública. Entrenado en el supercomputador Alps del Centro Nacional de Computación de Alto Rendimiento de Suiza (CSCS), este modelo representa un hito importante en el campo de la inteligencia artificial de código abierto y la excelencia multilingüe.
Recientemente, alrededor de 50 organizaciones líderes globales en iniciativas de LLM de código abierto y IA confiable se reunieron en Ginebra para participar en la Cumbre Internacional de Constructores de LLM de Código Abierto. La cumbre fue organizada por los Centros de Inteligencia Artificial del EPFL y el ETH Zurich, marcando un paso clave hacia la construcción de un ecosistema internacional para modelos base abiertos. La cumbre anticipó el próximo lanzamiento de este modelo LLM de código abierto, desarrollado conjuntamente por investigadores de EPFL, ETH Zurich y otras universidades suizas junto con ingenieros de CSCS. Actualmente en la fase de pruebas finales, el modelo se ofrecerá para descarga bajo una licencia abierta, enfatizando la transparencia, el rendimiento multilingüe y la accesibilidad amplia.
El modelo será completamente abierto, con el código fuente, los pesos y los datos de entrenamiento publicados públicamente, apoyando su adopción en ciencia, gobierno, educación y el sector privado. El científico investigador del Centro de Inteligencia Artificial del ETH Zurich, Imanol Schlag, dijo: “Un modelo completamente abierto permite aplicaciones de alta confianza, cruciales para avanzar en la investigación de riesgos y oportunidades de la IA”. El modelo cubre más de 1.000 idiomas, entrenado en un gran conjunto de datos de texto que incluye más de 1.500 idiomas, asegurando aplicabilidad global. Se lanzará en dos escalas: 8 mil millones y 70 mil millones de parámetros, satisfaciendo diferentes necesidades de usuarios; la versión de 70 mil millones se convertirá en uno de los modelos de código abierto más potentes del mundo. El entrenamiento se basó en más de 15 billones de tokens de alta calidad, asegurando alta confiabilidad y fuerte capacidad de comprensión del lenguaje. El desarrollo del modelo se adhiere estrictamente a la ley suiza de protección de datos, la ley de derechos de autor y las obligaciones de transparencia del Reglamento de IA de la UE. El modelo se entrenó en el supercomputador Alps del CSCS en Lugano, equipado con más de 10.000 superchips NVIDIA Grace Hopper, utilizando el 100% de electricidad carbono neutral. El director del CSCS, Thomas Schulthess, dijo: “La inversión estratégica en supercomputadoras diseñadas específicamente para IA nos permite entrenar modelos como este”. A finales del verano, este LLM se lanzará bajo la licencia Apache 2.0, acompañado de documentación detallada para promover la reutilización transparente y el desarrollo adicional. El profesor del EPFL, Jaggi, dijo: “A través de un modo completamente abierto, esperamos impulsar la innovación en Suiza, Europa y colaboraciones transnacionales, atrayendo talento de élite”.

















京公网安备 11010802043282号