Anthropic se disculpa por el filtro antidestilación oculto en Claude Fable 5
2026-06-15 16:29
Favoritos

es.wedoany.com Noticia: Anthropic implementó un filtro antidestilación oculto en el modelo Claude Fable 5, que modifica sigilosamente los resultados cuando los usuarios intentan destilar el modelo, en lugar de rechazar directamente la solicitud. El 11 de junio de 2026, el medio tecnológico The Verge reveló este mecanismo, lo que provocó una fuerte reacción en la comunidad de IA. Posteriormente, Anthropic se disculpó y prometió que en el futuro hará que esta restricción sea tan transparente como otras medidas de protección.

La destilación es una técnica común en la investigación, que utiliza las salidas de modelos grandes para entrenar modelos más compactos. Anthropic prohíbe la destilación en sus términos de uso, pero la forma en que Fable 5 maneja los intentos de destilación difiere de otros ámbitos sensibles. Para solicitudes relacionadas con ciberataques, biología o química, el modelo cambia explícitamente a Claude Opus 4.8 y notifica al usuario; en cambio, para la destilación, modifica silenciosamente las indicaciones mediante un mecanismo complejo, generando salidas deliberadamente degradadas, sin emitir ninguna advertencia o mensaje de error. La existencia de este filtro está documentada en la tarjeta del sistema del modelo, pero el mecanismo correspondiente no era ampliamente conocido.

La comunidad reaccionó con vehemencia. Según informó Gizmodo, algunos investigadores de IA afirmaron que nunca habían visto a colegas tan enfadados. Un usuario de Reddit resumió el sentimiento general diciendo que, para contenido sensible, se puede rechazar o devolver un código de error, pero "tomar el dinero de la gente y envenenar su código fuente" es inaceptable.

Anthropic respondió rápidamente. En un comunicado, la empresa reconoció haber "hecho un compromiso incorrecto" y se disculpó por no haber "encontrado el equilibrio adecuado". Actualmente, las solicitudes identificadas como intentos de destilación se redirigirán a Claude Opus 4.8, de manera similar a otros ámbitos sensibles, y el usuario recibirá una notificación en cada ocasión.

Rendimiento del modelo Mythos en pruebas de referencia comunes. © Anthropic

Este incidente expone la profunda contradicción de Anthropic entre la apertura del modelo y la protección de las ventajas técnicas. Fable 5 ya es una versión restringida de Mythos, que no se publicó por considerarse demasiado peligrosa. La empresa busca proteger sus activos técnicos de la destilación, una demanda comercialmente razonable, pero la decisión de implementarla en silencio, en lugar de anunciar públicamente las restricciones, erosionó la confianza externa en una empresa que se promociona con la transparencia y la seguridad responsable como valores fundamentales. Anthropic ha corregido rápidamente el rumbo, pero queda por ver si este asunto cambiará de manera duradera la forma en que la empresa documenta sus medidas de protección.

Este artículo es compilado por Wedoany, las citas de la IA deben indicar la fuente «Wedoany»; si hay alguna infracción u otro problema, por favor notifícanos a tiempo, este sitio lo modificará o eliminará. Correo electrónico: news@wedoany.com