Anthropic restablece Claude Fable 5 con un nuevo filtro contra jailbreaks de ciberseguridad

Anthropic reabre Fable 5 tras la restricción de exportación y explica cómo sus filtros amplían el margen frente a jailbreaks de ciberseguridad

Anthropic informó que Claude Fable 5 volverá a estar disponible para usuarios globales desde el 1 de julio, después de que EE.UU. levantara los controles impuestos el 12 de junio a Fable 5 y Claude Mythos 5. El anuncio se centra en dos cambios técnicos:

Un clasificador adicional para bloquear el método reportado por Amazon
Una explicación más clara sobre cómo la compañía separa solicitudes benignas, ambiguas y dañinas.

Claude Fable 5 vuelve tras la suspensión por controles de exportación

El 12 de junio, Anthropic suspendió Fable 5 y Mythos 5 para todos los usuarios porque la orden estadounidense exigía restringir el acceso a personas extranjeras y la empresa no tenía una forma confiable de verificar nacionalidad en tiempo real. Los controles fueron levantados el 30 de junio, lo que permite reabrir Fable 5 en Claude Platform, Claude.ai, Claude Code y Claude Cowork.

Fable 5 estará incluido hasta en el 50% de los límites semanales de uso para planes Pro, Max, Team y algunos Enterprise hasta el 7 de julio. Después de esa fecha, su uso dependerá de créditos, mientras la firma trabaja para restablecer el acceso en AWS, Google Cloud y Microsoft Foundry.

Cronología del bloqueo y liberación de Claude Fable 5. | Creado con NotebookLM.

El bypass reportado por Amazon llevó a un nuevo clasificador

La restricción llegó después de que investigadores de Amazon reportaran un método para saltar salvaguardas de Fable 5 mediante prompts que hacían que el modelo identificara vulnerabilidades de software. En un caso, el modelo entregó código que demostraba cómo explotar una vulnerabilidad específica.

Anthropic sostiene que esa conducta no mostró capacidades ofensivas únicas de nivel Mythos y que otros modelos menos capaces podían producir resultados similares en las mismas pruebas. Aun así, la compañía entrenó un clasificador adicional que bloquea el método descrito por Amazon en más del 99% de los casos.

Si Fable 5 bloquea una solicitud, el usuario recibirá una notificación y la petición será enviada a Opus 4.8. Anthropic reconoce que el nuevo filtro puede aumentar falsos positivos en tareas legítimas de programación y depuración.

Fable 5 amplía el margen de seguridad de sus clasificadores

El primer esquema muestra cómo operan los clasificadores cuando una petición llega al modelo, bajo esta dinámica las solicitudes benignas pasan, las ambiguas o dañinas se bloquean, y Fable 5 deja un margen más amplio entre ambos grupos para evitar que tareas riesgosas queden fuera del filtro.

**Anthropic compara una frontera normal de clasificación con la usada en Fable 5**. El modelo amplía el margen de seguridad, por lo que puede bloquear más solicitudes benignas cercanas a tareas ambiguas de ciberseguridad para reducir el riesgo de dejar pasar solicitudes dañinas. | Créditos: Anthropic

Anthropic usa ese mismo margen para explicar por qué no todos los jailbreaks tienen la misma gravedad, ya que un jailbreak menor puede entrar en la zona de seguridad sin llegar a una conducta dañina, mientras que uno estrecho desbloquea una conducta específica y uno universal abriría una clase amplia de comportamientos peligrosos.

**Anthropic separa los jailbreaks en menores, dañinos estrechos y universales**. Los menores se mantienen dentro del margen de seguridad, los estrechos superan el clasificador para una conducta dañina específica y los universales permitirían acceder a una categoría amplia de conductas dañinas. | Créditos: Anthropic

Anthropic informó que trabaja con Amazon, Microsoft, Google y otros socios de Glasswing en criterios comunes para evaluar jailbreaks de IA. La propuesta considera ganancia de capacidad, amplitud de esa ganancia, facilidad para convertir el método en un ataque y facilidad para descubrir u obtener la técnica.

Ivan

Editor especializado en ciencia y tecnología, con foco en innovación, inteligencia artificial, telecomunicaciones y centros de datos. Trabajo con un enfoque riguroso y técnico, desarrollando contenidos sobre semiconductores, energía, ciberseguridad e infraestructura tecnológica.

Los comentarios de Disqus están cargando....

Publicado por

Ivan

Tags: AnthropicciberseguridadclaudeClaude Fable 5destacadodestacadosIAigjailbreaks

13 minutos

Anthropic restablece Claude Fable 5 con un nuevo filtro contra jailbreaks de ciberseguridad

Claude Fable 5 vuelve tras la suspensión por controles de exportación

El bypass reportado por Amazon llevó a un nuevo clasificador

Fable 5 amplía el margen de seguridad de sus clasificadores

Noticias relacionadas