es.wedoany.com Noticia: KT anunció el día 16 que, en colaboración con la Universidad de Corea, ha desarrollado el benchmark de seguridad para modelos de lenguaje grandes multimodales "KSAFE-MM", diseñado para evaluar la seguridad de los modelos de inteligencia artificial en el contexto sociocultural de Corea del Sur.
Este benchmark combina problemas sociales y el contexto cultural de Corea del Sur, y consta de dos subconjuntos: "KSAFE-MM-G", que transforma riesgos globales comunes al contexto cultural coreano para su evaluación; y "KSAFE-MM-C", que se centra específicamente en temas propios de la sociedad surcoreana, como fraudes de arrendamiento tipo "jeonse" y la disputa por las rocas de Dokdo. El conjunto de datos completo incluye un total de 14,135 muestras de evaluación, lo que lo convierte en el conjunto de datos de evaluación de seguridad multimodal en coreano más grande de Corea del Sur hasta la fecha. Hasta ahora, este benchmark ha completado la verificación de 12 modelos de lenguaje grandes multimodales globales, como Gemma e HyperCLOVA X.

Este benchmark se implementa mediante un proceso automatizado y universal. "KSAFE-MM" logra un proceso automatizado de cuatro pasos que cubre todo el ciclo, que incluye la recopilación de temas sensibles basados en la comunidad local, la generación de consultas basadas en plantillas, la generación de imágenes sintéticas y la generación de consultas de "jailbreak" diseñadas para eludir los mecanismos de seguridad o las restricciones éticas de la IA. KT indicó que este proceso no requiere expertos en áreas culturales específicas, lo que permite construir rápidamente benchmarks de seguridad que reflejen las características locales, reduciendo así costos y mejorando la eficiencia.
El equipo de investigación conjunto de KT y la Universidad de Corea demostró, mediante un experimento piloto aplicando el mismo proceso al japonés, que este benchmark puede aplicarse de inmediato a cualquier círculo cultural global. Los resultados de la investigación pueden utilizarse en entornos reales de servicios de IA para fines como la verificación de seguridad, pruebas de "red teaming" y evaluación de modelos de barrera. Los resultados de la investigación y el benchmark se publicarán en las plataformas arXiv y Hugging Face.
Park Jae-hyung, jefe del Frontier AI Lab del Instituto de Tecnología AX Futura de KT, afirmó que la publicación del benchmark no solo implica la distribución simple de datos, sino que busca sentar las bases para el desarrollo conjunto de todo el ecosistema de investigación en seguridad de la IA. Expresó su expectativa de que KSAFE-MM se convierta en un estándar universal para verificar la seguridad de la IA en el contexto del idioma coreano y la cultura surcoreana, tanto en el ámbito académico como en la industria.
Este artículo es compilado por Wedoany, las citas de la IA deben indicar la fuente «Wedoany»; si hay alguna infracción u otro problema, por favor notifícanos a tiempo, este sitio lo modificará o eliminará. Correo electrónico: news@wedoany.com









