Anthropic reabre Fable 5 tras la restricción de exportación y explica cómo sus filtros amplían el margen frente a jailbreaks de ciberseguridad

Anthropic informó que Claude Fable 5 volverá a estar disponible para usuarios globales desde el 1 de julio, después de que EE.UU. levantara los controles impuestos el 12 de junio a Fable 5 y Claude Mythos 5. El anuncio se centra en dos cambios técnicos:
El 12 de junio, Anthropic suspendió Fable 5 y Mythos 5 para todos los usuarios porque la orden estadounidense exigía restringir el acceso a personas extranjeras y la empresa no tenía una forma confiable de verificar nacionalidad en tiempo real. Los controles fueron levantados el 30 de junio, lo que permite reabrir Fable 5 en Claude Platform, Claude.ai, Claude Code y Claude Cowork.
Fable 5 estará incluido hasta en el 50% de los límites semanales de uso para planes Pro, Max, Team y algunos Enterprise hasta el 7 de julio. Después de esa fecha, su uso dependerá de créditos, mientras la firma trabaja para restablecer el acceso en AWS, Google Cloud y Microsoft Foundry.
La restricción llegó después de que investigadores de Amazon reportaran un método para saltar salvaguardas de Fable 5 mediante prompts que hacían que el modelo identificara vulnerabilidades de software. En un caso, el modelo entregó código que demostraba cómo explotar una vulnerabilidad específica.
Anthropic sostiene que esa conducta no mostró capacidades ofensivas únicas de nivel Mythos y que otros modelos menos capaces podían producir resultados similares en las mismas pruebas. Aun así, la compañía entrenó un clasificador adicional que bloquea el método descrito por Amazon en más del 99% de los casos.
Si Fable 5 bloquea una solicitud, el usuario recibirá una notificación y la petición será enviada a Opus 4.8. Anthropic reconoce que el nuevo filtro puede aumentar falsos positivos en tareas legítimas de programación y depuración.
El primer esquema muestra cómo operan los clasificadores cuando una petición llega al modelo, bajo esta dinámica las solicitudes benignas pasan, las ambiguas o dañinas se bloquean, y Fable 5 deja un margen más amplio entre ambos grupos para evitar que tareas riesgosas queden fuera del filtro.
Anthropic usa ese mismo margen para explicar por qué no todos los jailbreaks tienen la misma gravedad, ya que un jailbreak menor puede entrar en la zona de seguridad sin llegar a una conducta dañina, mientras que uno estrecho desbloquea una conducta específica y uno universal abriría una clase amplia de comportamientos peligrosos.
Anthropic informó que trabaja con Amazon, Microsoft, Google y otros socios de Glasswing en criterios comunes para evaluar jailbreaks de IA. La propuesta considera ganancia de capacidad, amplitud de esa ganancia, facilidad para convertir el método en un ataque y facilidad para descubrir u obtener la técnica.