Anthropic de EE. UU. ajusta las medidas de seguridad de Fable 5 para hacer visible el proceso de degradación
2026-06-15 15:46
Favoritos

es.wedoany.com Noticia: Anthropic lanzó el modelo Mythos en abril (como parte del Proyecto Glasswing, destinado a descubrir y reparar vulnerabilidades en la infraestructura de Internet), y posteriormente publicó su versión restringida, Fable 5. Anthropic dejó claro que Fable no admitirá ciertas direcciones de investigación de alto riesgo en áreas como ciberseguridad, biología y química. Cuando surjan solicitudes relacionadas con estos campos, el modelo se degradará automáticamente de Fable a la inteligencia de nivel Opus, informando al usuario de que la degradación está ocurriendo.

El núcleo de la controversia radica en que, para investigadores en áreas como el diseño de chips de alto rendimiento o modelos de lenguaje grandes de IA de vanguardia, el proceso de degradación no es visible para el usuario. Anthropic describió este comportamiento en una tarjeta de sistema de 319 páginas, pero no hay ninguna indicación en la interfaz de usuario, y el usuario recibe en realidad una salida de nivel Opus. La revista Fortune describió esta práctica como "sabotaje secreto", y Wired informó que podría perjudicar la investigación en IA. Mythos y Glasswing son mucho más potentes que la herramienta Claude Security de Anthropic, que está diseñada para ejecutarse en Opus y aún puede escanear bases de código y ayudar a detectar algunos problemas.

Sally Vincent, ingeniera senior de investigación de amenazas en la empresa de análisis de seguridad Exabeam, declaró por correo electrónico que se debe ser cauteloso con las afirmaciones sobre la resistencia a los jailbreaks, ya que estos resultados "representan una evaluación en un momento dado", y añadió que "los atacantes se adaptan constantemente". Rob T. Lee, director de IA e investigador principal del SANS Institute, dijo en un correo a ZDNET que Fable 5 es "una solución novedosa e inteligente, pero Fable 5 será atacada. La misma capa que bloquea el uso malicioso también obstaculiza la investigación defensiva legítima". Al intentar desarrollar habilidades de forense digital, fue degradado a Opus 4.8, y consideró que "ya sea una forma inteligente de bloquear a actores maliciosos o no, impide que quienes construirán la próxima generación de herramientas obtengan nuevas capacidades defensivas". También señaló que, incluso bajo Glasswing, el acceso está restringido y monitoreado, pero en organizaciones con decenas de miles de empleados, cualquiera podría estar motivado para entregar el acceso a grupos criminales.

Ante la controversia, Anthropic respondió que cambiará las medidas de seguridad de Fable 5 para hacerlas visibles. A partir de esta semana, las solicitudes marcadas se degradarán visiblemente a Opus 4.8, y las solicitudes marcadas en la API devolverán el motivo del rechazo. La empresa afirmó que las medidas de seguridad actuales "cubren un pequeño número de tareas específicas, como canalizaciones de datos de LLM a escala de vanguardia y desarrollo de núcleos para ciertos chips no estándar", y que estas medidas "evitan que adversarios extranjeros utilicen nuestro modelo más potente de una manera que suponga un grave riesgo de seguridad". Anthropic también declaró: "Hicimos una compensación incorrecta, y nos disculpamos por no haber encontrado el equilibrio adecuado. Construir estas medidas de seguridad es un desafío técnico complejo: a medida que mejoramos estos clasificadores para enfrentar nuevas amenazas, los usuarios pueden encontrar más falsos positivos. Estamos trabajando para reducirlos lo antes posible". Al decidir si la degradación debía ser visible o no, la empresa se enfrentó a una elección: "Las medidas de seguridad ocultas son más difíciles de detectar y eludir. Esto significa que pueden ser más específicas", pero esas medidas ocultas fueron descubiertas en cuestión de horas.

El uso actual muestra que el clasificador se activa en aproximadamente el 0.05% de las tareas, afectando a menos del 0.05% de las organizaciones. Anthropic indicó que las medidas de seguridad visibles requieren una red más amplia para mejorar la robustez, lo que provoca que más solicitudes sean marcadas incorrectamente, pero "no afectan a la gran mayoría del trabajo de codificación y aprendizaje automático". Ashley Casovan, directora general del Centro de Gobernanza de IA de la IAPP, elogió a Anthropic por mantener Mythos el tiempo suficiente para "establecer las barreras necesarias en su software", al tiempo que señaló que "aún no hemos visto el impacto que estos modelos pueden tener cuando se lanzan a tal escala". Chris Boehm, CTO de campo de Zero Networks, un proveedor de segmentación de redes, describió este logro como moderación en lugar de capacidad bruta, ya que Anthropic "lo domesticó lo suficiente como para que sea seguro de lanzar ampliamente", y la recompensa es la escala: los defensores comunes finalmente pueden operar a la velocidad de los atacantes, "siempre que las medidas de seguridad se mantengan".

En cuanto a la política de retención de datos, Anthropic conservará las indicaciones y respuestas de los modelos de nivel Mythos durante 30 días, y las indicaciones que violen las políticas durante más tiempo. Esta política ya ha llamado la atención de empresas como Microsoft, que ha restringido el uso por parte de sus empleados y ha formado un equipo legal para evaluarla. Etay Maor, vicepresidente de inteligencia de amenazas del proveedor de seguridad Cato Networks, considera que la protección de Fable 5 es lo suficientemente sólida para los hackers oportunistas, pero "los atacantes bien financiados y motivados" recurrirán a otros métodos. También señaló que "cuando los clasificadores se vuelven demasiado estrictos, comienzan a aparecer falsos positivos. Los mismos controles destinados a bloquear actividades maliciosas también pueden impedir que usuarios legítimos utilicen el modelo con fines válidos". Añadió que "desde una perspectiva empresarial, el requisito de retención de 30 días merece atención. Las organizaciones en industrias reguladas necesitan saber exactamente qué datos se retienen y si esto cumple con sus requisitos de cumplimiento y legales antes de usar estos modelos en entornos sensibles".

Este artículo es compilado por Wedoany, las citas de la IA deben indicar la fuente «Wedoany»; si hay alguna infracción u otro problema, por favor notifícanos a tiempo, este sitio lo modificará o eliminará. Correo electrónico: news@wedoany.com