GitHub de EE. UU. publica un conjunto de datos multilingüe de repositorios que abarca más de 40 millones de repositorios Noticias Globales

GitHub de EE. UU. publica un conjunto de datos multilingüe de repositorios que abarca más de 40 millones de repositorios

2026-06-16 09:38

Favoritos

es.wedoany.com Noticia: GitHub ha publicado el conjunto de datos de repositorios multilingües de GitHub (GitHub Multilingual Repositories Dataset), un conjunto de metadatos a nivel de repositorio diseñado para ayudar a investigadores y desarrolladores a descubrir repositorios públicos de GitHub que contienen contenido en lenguajes naturales no ingleses. Al construir este conjunto de datos, la distribución de diferentes idiomas en README, issues y pull requests varía: el coreano es el idioma no inglés más común en el texto de issues, pero ocupa el quinto lugar en README; el portugués encabeza la lista en README no ingleses, abarcando más de 3 millones de repositorios. A medida que la IA desempeña un papel cada vez más importante en la construcción de software por parte de los desarrolladores, el contenido multilingüe para desarrolladores es más crucial que nunca. Este conjunto de datos ya está disponible en GitHub bajo la licencia CC0-1.0, cumpliendo con el compromiso asumido por GitHub en 2025 como parte de los Compromisos Digitales Europeos de Microsoft (Microsoft's European Digital Commitments) de hacer que los datos multilingües sean más accesibles, incluso para desarrolladores de IA de código abierto.

Este conjunto de datos no es un volcado del contenido del repositorio, sino un conjunto de metadatos que abarca más de 80 millones de registros clasificados, involucrando más de 40 millones de repositorios. Para cada repositorio público, se proporciona lo siguiente: clasificación de idiomas para README, el issue con más comentarios y la pull request con más comentarios, tomando los primeros 150 caracteres de cada uno como muestra de entrada, excluyendo textos con menos de 20 caracteres; los resultados de clasificación de cada fuente de texto provienen de fastText, gcld3 y lingua-py, cada uno acompañado de una puntuación de confianza, y el conjunto de datos solo incluye clasificaciones con una confianza mayor a 0.5; los metadatos del repositorio incluyen la marca de tiempo de creación, el uso de disco, el número de estrellas, el número de bifurcaciones, el lenguaje de programación principal, la licencia SPDX, el recuento de issues y pull requests, y la fecha de la instantánea. GitHub intencionalmente no combina los tres clasificadores en una sola etiqueta, ya que los diferentes clasificadores varían en cobertura y calibración de confianza, especialmente para idiomas con menos recursos. Al publicar los tres resultados de clasificación, los usuarios pueden decidir por sí mismos el nivel de rigor.

Este conjunto de datos se puede utilizar para descubrir repositorios que puedan contener documentación o colaboración de desarrolladores en un idioma específico, estudiar cómo las comunidades de desarrolladores no ingleses utilizan issues, pull requests y README, construir conjuntos de evaluación para herramientas de codificación de IA, generadores de documentación o asistentes de revisión (estas herramientas deben funcionar bien en múltiples idiomas), alentar a los responsables de políticas a utilizar argumentos basados en datos sobre la diversidad multilingüe de los desarrolladores para ampliar la cobertura de idiomas, y medir el rendimiento de idiomas subrepresentados en Europa y otras regiones en el código abierto. La identificación de idiomas es difícil en los repositorios de software, ya que los textos de los repositorios suelen ser muy cortos y pueden contener insignias, plantillas, comandos de instalación, fragmentos de código, nombres de usuario o contenido en idiomas mixtos; una muestra de 150 caracteres puede no ser representativa de todo el repositorio. Por lo tanto, este conjunto de datos no debe considerarse como un punto de referencia de verdad fundamental para la identificación de idiomas, sino como una herramienta de descubrimiento transparente. Tampoco debe utilizarse para inferir atributos sensibles de los propietarios, contribuyentes o comunidades del repositorio; estas señales son metadatos a nivel de repositorio, no atributos a nivel personal.

Muchos idiomas europeos siguen estando subrepresentados en los textos en línea utilizados para construir y evaluar sistemas de IA, lo que puede hacer que las herramientas de IA funcionen bien para ciertos desarrolladores, idiomas y comunidades, mientras dejan atrás a otros grupos. Los datos abiertos ayudan a cerrar esta brecha. La razón por la que se construyó este conjunto de datos es que el contenido de los desarrolladores difiere del texto web general; los README, issues y pull requests contienen el lenguaje de la colaboración en software, como instrucciones de instalación, informes de errores, solicitudes de funciones, comentarios de revisión y normas comunitarias. Estos contextos ayudan a construir sistemas de IA que comprendan mejor cómo trabajan realmente los desarrolladores. Al hacer que las señales de contenido multilingüe de desarrolladores sean más fáciles de descubrir y analizar, este conjunto de datos proporciona a investigadores, desarrolladores de código abierto y constructores de modelos herramientas para estudiar la representación de idiomas en el desarrollo de software, ayudando a identificar brechas, apoyar mejores evaluaciones y crear herramientas de IA más inclusivas para desarrolladores en Europa y otras regiones.

GitHub discutirá este conjunto de datos y la importancia más amplia de los datos abiertos para la IA multilingüe el 16 de junio en el Centro de Diálogo de Innovación Abierta (Open Innovation Dialogue Hub) en Estrasburgo. Este evento, organizado conjuntamente por el Centro de Innovación Abierta de Microsoft (Microsoft Open Innovation Center), el Consejo de Europa (Council of Europe) y GitHub, reunirá a responsables de políticas, investigadores, instituciones culturales y líderes de innovación abierta para explorar la IA, la diversidad lingüística, el patrimonio cultural y los datos abiertos.

Este artículo es compilado por Wedoany, las citas de la IA deben indicar la fuente «Wedoany»; si hay alguna infracción u otro problema, por favor notifícanos a tiempo, este sitio lo modificará o eliminará. Correo electrónico: news@wedoany.com