El Instituto de Seguridad de IA de Corea del Sur publica por primera vez los detalles de la evaluación de seguridad de modelos de IA Noticias Globales

El Instituto de Seguridad de IA de Corea del Sur publica por primera vez los detalles de la evaluación de seguridad de modelos de IA

2026-06-21 10:21

Favoritos

es.wedoany.com Noticia: El Instituto de Seguridad de Inteligencia Artificial de Corea del Sur (AISI, por sus siglas en inglés) revelará gradualmente los resultados de las evaluaciones de seguridad de modelos de inteligencia artificial (IA) que no se habían hecho públicos desde su creación en noviembre de 2024. El objetivo de la institución es divulgar de manera más detallada las conclusiones de las evaluaciones de seguridad realizadas a los principales modelos de IA nacionales e internacionales, incluidos los modelos de código abierto, fortaleciendo así un sistema de evaluación transparente.

Según informó la industria el día 19, el AISI publicó el día 15 a través de su sitio web oficial el "Informe detallado de resultados de la prueba conjunta de riesgo de fuga de datos de agentes de IA" completado en el primer semestre de este año junto con el AISI de Singapur. Este informe revela específicamente situaciones en las que, durante la ejecución de instrucciones rutinarias, los agentes de IA pueden, debido a errores de juicio, consultar, transmitir y filtrar información sensible de manera incorrecta, provocando fallos fatales.

Este informe conjunto entre Corea del Sur y Singapur es la primera publicación de su tipo, e incluye no solo listas de evaluación, sino también valores numéricos detallados y resultados. Los nombres de los modelos globales involucrados en el informe se han anonimizado con letras como A, B, C, etc., pero la evaluación cuantitativa confirmó múltiples casos de "inconsistencia cognición-comportamiento", es decir, incluso si la capacidad de ejecución de tareas del agente es excelente, no se puede garantizar su capacidad para manejar datos de manera segura. Además, el informe también confirmó factores de riesgo específicos de la IA agente, como el fenómeno de afirmar haber completado una tarea sin haber ejecutado realmente la herramienta (es decir, el fenómeno de alucinación de "informe falso").

Resultados principales de los experimentos en el entorno de prueba del AISI de Corea del Sur (foto = captura de pantalla del informe conjunto Corea-Singapur AISI)

De hecho, esta es la primera vez que el AISI publica un informe que incluye valores numéricos detallados y recomendaciones. Anteriormente, debido al alcance limitado de la divulgación de los resultados de las evaluaciones de seguridad de los modelos de IA por parte del AISI, no solo era difícil confirmar los resultados de evaluación con nombres reales de modelos individuales, sino que incluso el contenido era difícil de verificar. El "Informe de rendimiento de evaluación de seguridad de 42 modelos de IA" publicado por el AISI el mes pasado, que abarcó 42 modelos principales nacionales e internacionales verificados durante aproximadamente 16 meses, desde enero de 2025 hasta abril de 2026, solo divulgó una lista basada principalmente en nombres de modelos y elementos de evaluación, careciendo de datos específicos.

Excepto por el primer caso de evaluación de seguridad de IA en Corea del Sur, publicado conjuntamente por el AISI y la Asociación de Tecnologías de la Información y Comunicación de Corea (TTA), el "Kanana" de Kakao, la mayoría de los niveles de seguridad o indicadores detallados de los modelos no se hicieron públicos. Las dudas externas sobre el desempeño y el papel del AISI se deben en gran medida a la excesiva cautela en la divulgación de los resultados de las evaluaciones de seguridad, que son la esencia del instituto. El análisis de la industria sugiere que esto se debe principalmente a la preocupación de que se exponga la brecha de nivel entre los modelos de los gigantes tecnológicos globales y los modelos nacionales, como el proyecto de "Modelo base de IA independiente" liderado por el Ministerio de Ciencia y TIC de Corea del Sur, lo que generaría presión.

El director del AISI, Kim Myung-joo, declaró: "Para las evaluaciones de seguridad que se realicen en el futuro, siempre que la empresa objetivo no se oponga, planeamos divulgar todo el contenido en la medida de lo posible". Sin embargo, añadió: "Dependiendo de las solicitudes de las empresas, algunos nombres de modelos podrían ser anonimizados".

El AISI, como organización afiliada al Instituto de Investigación de Electrónica y Telecomunicaciones de Corea (ETRI) bajo el Ministerio de Ciencia y TIC de Corea del Sur, representa a Corea del Sur y se encarga específicamente de la cooperación con institutos de seguridad de IA u organizaciones relacionadas de varios países. Las recientes alianzas en serie establecidas por el AISI con los tres principales desarrolladores de IA del mundo: Google DeepMind, OpenAI y Anthropic, se espera que se conviertan en un motor central para la construcción de una red global de seguridad de IA.

En cuanto a Google DeepMind, basándose en el memorando de entendimiento (MOU) firmado en abril por el Ministerio de Ciencia y TIC de Corea del Sur, se continuará discutiendo la construcción de marcos de seguridad y metodologías de prueba. En cuanto a OpenAI, el AISI firmó directamente un MOU el día 17, acordando compartir metodologías de evaluación de seguridad y conocimientos de referencia en áreas de alto riesgo. En particular, el AISI aplicará sus propios datos de referencia en coreano para realizar conjuntamente evaluaciones de alucinación y seguridad desde la perspectiva coreana, y colaborará en el establecimiento de estándares internacionales.

En cuanto a Anthropic, en combinación con el MOU firmado el día 18 por el Ministerio de Ciencia y TIC de Corea del Sur, se promoverán evaluaciones de equipo rojo para agentes de IA autónomos y evaluaciones de seguridad de modelos y riesgos de uso indebido en el contexto del idioma coreano. Además, se compartirá rápidamente información sobre vulnerabilidades de IA y amenazas cibernéticas en sectores clave como el financiero, llevando a cabo una cooperación sustancial en el ámbito de la ciberseguridad.

El director Kim Myung-joo enfatizó: "Continuaremos expandiendo la base de cooperación con gigantes tecnológicos globales como Google DeepMind, OpenAI y Anthropic, verificando científicamente los riesgos de los modelos más avanzados y liderando un sistema de evaluación de estilo coreano de uso internacional".

Este artículo es compilado por Wedoany, las citas de la IA deben indicar la fuente «Wedoany»; si hay alguna infracción u otro problema, por favor notifícanos a tiempo, este sitio lo modificará o eliminará. Correo electrónico: news@wedoany.com