Síguenos en Google News
Claude Fable 5 y Mythos 5
Creada con IA

Anthropic presenta Claude Fable 5 y Claude Mythos 5 para tareas autónomas y acceso controlado

Anthropic presentó Claude Fable 5 y Claude Mythos 5, dos modelos construidos sobre la misma base, pero con diferencias en acceso y seguridad. Fable 5 queda disponible para uso general, mientras que Mythos 5 se reserva para grupos autorizados en áreas donde la compañía aplica controles más estrictos.

Claude Fable 5 queda disponible para uso general con derivación automática en áreas sensibles

Claude Fable 5 es la versión abierta para usuarios generales y mantiene controles especiales cuando detecta solicitudes vinculadas con ciberseguridad, biología, química o destilación de modelos. En esos casos, Anthropic indica que el sistema puede derivar la respuesta a Claude Opus 4.8, un modelo con límites más conservadores para ese tipo de tareas.

La firma indica que más del 95% de las sesiones con Fable 5 no activa la derivación hacia Opus 4.8. Según Anthropic, esto implica que la gran mayoría de los usuarios interactúa directamente con Fable 5 sin que el sistema redirija consultas a otro modelo por motivos de seguridad…..

La siguiente tabla resume los resultados que Anthropic reporta para:

  • Claude Fable 5
  • Claude Mythos 5
  • Claude Opus 4.8
  • GPT 5.5
  • Gemini 3.1 Pro

En diferentes pruebas de evaluación. Incluye métricas de programación, razonamiento, uso de herramientas, visión, biología, ciberseguridad y salud.

Comparación de resultados reportados por Anthropic para Claude Fable 5, Claude Mythos 5, Claude Opus 4.8, GPT 5.5 y Gemini 3.1 Pro en distintas pruebas de evaluación. | Créditos: Anthropic.

Anthropic destaca resultados en programación, razonamiento y uso de herramientas de Claude Fable 5

En programación, Anthropic presenta a Claude Fable 5 con resultados superiores a Claude Opus 4.8 y GPT 5.5 en pruebas como SWE-Bench Pro y FrontierCode. En SWE-Bench Pro, la compañía informa 80,3% para Claude Fable 5, frente a 69,2% para Claude Opus 4.8 y 58,6% para GPT 5.5.

La siguiente gráfica muestra el rendimiento de FrontierCode según precisión y costo promedio por tarea. Esto ayuda a entender no solo qué modelo obtiene mejores resultados, sino también cuánto cuesta alcanzar ese nivel de desempeño bajo distintas configuraciones.

Evaluación FrontierCode con relación entre precisión y costo medio por tarea, donde Claude Fable 5 aparece por sobre Claude Opus 4.8 y GPT 5.5 en el subconjunto Diamond. | Créditos: Anthropic.

La siguiente gráfica de barras muestra resultados de pruebas de programación y permite comparar de forma sencilla el desempeño de distintos modelos. Según esto Claude Fable 5 obtiene mejores resultados que Claude Opus 4.8 y GPT 5.5 en la evaluación FrontierCode.

Resultados de programación agéntica en SWE-Bench Pro y FrontierCode para Claude Fable 5, Claude Opus 4.8 y GPT 5.5. | Créditos: Anthropic.

Con los resultados publicados por Anthropic se tiene lo siguiente:

  • Uso de herramientas: mejor desempeño en tareas que requieren combinar razonamiento con acceso a recursos externos.
  • Humanity’s Last Exam: 59,0% sin herramientas y 64,5% con herramientas para Claude Fable 5 y Claude Mythos 5.
  • Trabajo de conocimiento: mejoras frente a generaciones anteriores en evaluaciones internas y externas.
  • Razonamiento espacial: avances en pruebas orientadas a comprensión visual y manipulación de información espacial.

Claude Mythos 5 queda limitado a programas con acceso autorizado

Claude Mythos 5 se basa en el mismo modelo subyacente que Fable 5, pero opera con un esquema de acceso diferente. Anthropic lo destina inicialmente a ciberdefensores y proveedores de infraestructura dentro de Project Glasswing, con planes de acceso controlado para otros grupos de investigación.

La diferencia principal está en dos aspectos:

  • Control de seguridad: Claude Fable 5 aplica restricciones adicionales o deriva ciertas consultas cuando detecta temas sensibles; Claude Mythos 5 puede habilitar capacidades ampliadas dentro de programas de acceso controlado.
  • Acceso: Claude Fable 5 está disponible para uso general, mientras que Claude Mythos 5 se reserva para usuarios y organizaciones autorizadas.

Resultados en biología, ciberseguridad y seguridad del modelo

Además de las pruebas de programación y razonamiento general, Anthropic puso especial énfasis en áreas consideradas sensibles, como biología y ciberseguridad. Según la firma de IA, estas evaluaciones son clave para justificar la separación entre Claude Fable 5, orientado al público general con controles adicionales, y Claude Mythos 5, destinado a usuarios autorizados bajo esquemas de acceso restringido.

Prueba en complejos proteicos

Anthropic incluye una visualización de complejos proteicos generados en pruebas internas de investigación biológica. La imagen no debe leerse como una demostración clínica, sino como una representación de tareas de diseño y evaluación dentro del área de biología computacional.

Complejos proteicos diseñados por Claude Mythos 5 en evaluaciones internas de investigación biológica. | Créditos: Anthropic.

Seguridad digital

En seguridad, se observa una evaluación de comportamiento desalineado donde compara Claude Sonnet 4.6, Claude Mythos Preview, Claude Opus 4.8 y Claude Mythos 5. El siguiente gráfico muestra a Claude Mythos 5 en 2,06 puntos, cercano a Claude Opus 4.8 y por debajo de Claude Sonnet 4.6.

Evaluación interna de comportamiento desalineado en Claude Sonnet 4.6, Claude Mythos Preview, Claude Opus 4.8 y Claude Mythos 5. | Créditos: Anthropic.

La creadora de Mythos también muestra resultados en evaluaciones ofensivas de ciberseguridad, separadas por entornos como Firefox, OSS-Fuzz, CyberGym y CyScenarioBench. La gráfica compara el desempeño de los distintos modelos en cada uno de esos entornos de prueba, según los datos publicados.

Evaluaciones ofensivas de ciberseguridad publicadas por Anthropic, con diferencias entre modelos y configuraciones con control de seguridad. | Crédito: Anthropic.

Anthropic también muestra una prueba de ciberseguridad basada en pruebas automatizadas de red-teaming, donde sistemas automáticos intentan forzar al modelo a saltarse sus controles. Según los datos publicados por sus investigadores, Claude Fable 5 registra una tasa de éxito de ataque de 5,4%, mientras que Claude Opus 4.6 alcanza 83,2%, Claude Opus 4.7 llega a 72,7% y Claude Opus 4.8 obtiene 56,6%.

Evaluación de robustez adversarial en ciberseguridad, con tasa de éxito de ataque bajo red-teaming automatizado. | Créditos: Anthropic.

Las pruebas automatizadas de red-teaming son evaluaciones donde sistemas automáticos intentan hacer que un modelo falle, se salte controles o complete tareas riesgosas. Sirven para medir su resistencia frente a ataques simulados antes de ampliar su uso.

Las pruebas biológicas y de seguridad explican la separación entre Fable 5 y Mythos 5

La última evaluación citada por Anthropic se enfoca en biología computacional y mide predicción de propiedades experimentales de cápsides virales. La prueba aparece dentro del grupo de evaluaciones usadas para justificar controles más estrictos en capacidades científicas sensibles.

Evaluación de predicción de propiedades experimentales de cápsides virales, usada por Anthropic para medir razonamiento biológico en modelos Claude. | Créditos: Anthropic.

Una cápside viral es la “carcasa” de proteínas que protege el material genético de un virus. La prueba revisa si el modelo puede predecir cómo cambiarían propiedades de esa carcasa al modificar su estructura, algo útil para investigación biológica y diseño de terapias.

¿Por qué esta prueba biológica no compite con AlphaFold?

Partamos por separar dos tipos de tareas: AlphaFold está especializado en predecir estructuras de proteínas, es decir, ayuda a estimar cómo podría plegarse una molécula o cómo se vería su forma tridimensional.

La prueba citada por Anthropic no intenta reconstruir la forma de una proteína ni resolver un problema de predicción estructural. Su foco está en evaluar si Claude Mythos 5 puede relacionar cambios en cápsides virales con propiedades experimentales observables, como estabilidad, ensamblaje o comportamiento esperado en laboratorio.

Por eso la comparación con AlphaFold debe quedar acotada al tipo de pregunta que responde cada sistema. AlphaFold sigue siendo la referencia cuando el problema central es predecir estructura molecular, mientras que Anthropic usa esta prueba para medir razonamiento biológico aplicado a datos experimentales.

Infografía sobre la diferencia entre lo que hace AlphaFold vs la prueba de Anthropic, | Creada con IA.

¿Cómo se diferencian Fable 5, Mythos 5 y los modelos Opus en el anuncio?

La siguiente tabla comparativa ayuda a ordenar el rol de cada modelo dentro del anuncio de Anthropic. Fable 5 es la versión disponible para uso general, Mythos 5 mantiene acceso restringido para áreas sensibles y Opus 4.8 aparece como modelo de respaldo cuando Fable 5 activa derivación en consultas de mayor riesgo.

Disponibilidad de Claude Fable 5

Claude Fable 5 está disponible para usuarios generales con despliegue gradual en planes de suscripción. Anthropic indica que, hasta el 22 de junio, se incluye en planes Pro, Max, Team y Enterprise, sin costo adicional.

Claude Mythos 5 queda restringido a socios de Project Glasswing y a futuros programas de acceso autorizado. Ambos modelos tienen un precio de 10 dólares por millón de tokens de entrada y 50 dólares por millón de tokens de salida, según la información publicada por Anthropic.

Síguenos en Google News