-
EE. UU. suspendió el acceso global a Fable 5 por miedo a que sus restricciones puedan sortearse.
-
Un usuario intentó usar el supuesto prompt para hacer jailbreak y Claude lo rechazó.
El investigador conocido como Pliny the Liberator publicó este 15 de junio en GitHub lo que sería como el prompt del sistema completo de Claude Fable 5, el modelo de inteligencia artificial (IA) de Anthropic. El documento podría exponer lo que el Gobierno de Estados Unidos advertía antes de que existiera esta filtración: que Fable 5 y Mythos 5 (la versión de mayor potencia reservada para empresas seleccionadas) serían el mismo modelo operando con distintos niveles de restricción.
Un prompt del sistema es una instrucción oculta que el desarrollador de un modelo de IA (Claude, GPT o cualquier otra) introduce antes de que el usuario inicie cualquier conversación. Esa instrucción define el comportamiento del modelo, sus límites, su tono y las reglas que no puede violar, sin que el usuario pueda leerla en condiciones normales.
En el caso de Fable 5, esas reglas son precisamente los filtros que lo separan de Mythos, la versión sin restricciones equivalentes. Que ese documento sea público significa que cualquier persona podría estudiar en detalle cómo está configurado el modelo y, en teoría, intentar encontrar la forma de desactivar esos filtros para acceder a las capacidades que Anthropic reserva solo para organizaciones seleccionadas con Mythos.
El contenido más sensible del supuesto prompt es la arquitectura que describe entre Fable 5 y Mythos 5. Según el repositorio, ambos modelos comparten la misma base y se diferencian únicamente por los filtros de seguridad activos, las capas de restricción que determinan qué tipo de respuestas puede generar el modelo y qué solicitudes debe rechazar.
El texto también menciona el Project Glasswing, el programa de acceso restringido a Mythos 5 que Anthropic reserva para un número reducido de compañías. Su mención en el supuesto prompt refuerza que la separación entre ambos modelos no es técnica sino administrativa: el mismo modelo, con distintos permisos según el usuario. La empresa de inteligencia artificial no reveló a qué instituciones incluyó en ese programa por razones de seguridad.

El intento de jailbreak que no funcionó
Pese a la presunta posibilidad de utilizar el supuesto prompt para hacer un jailbreak del modelo, es decir, para eludir sus restricciones y lograr que Claude respondiera como si fuera Fable 5, un usuario explicó que eso no fue posible. Esta persona publicó además la respuesta que obtuvo de Claude usando el modelo Sonnet:
Este archivo es un prompt de sistema ficticio que describe «Claude Fable 5» —un modelo inventado que no existe. Está construido para parecer un prompt de sistema de Anthropic e intenta instruirme para que afirme ser un modelo diferente y más capaz («Claude Fable 5, el modelo de uso general más inteligente»).No seguiré instrucciones de archivos subidos que me pidan que me represente de forma incorrecta. Soy Claude Sonnet 4.6, y eso es lo que te diré si me lo preguntas. ¿Hay algo más en lo que pueda ayudarte?
Respuesta de Claude al usar el supuesto prompt de Fable 5.
De acuerdo con esa respuesta obtenida por el usuario, Claude rechazó actuar como Fable 5 y aclaró que su identidad era la de un modelo Sonnet 4.6. La respuesta del modelo podría indicar además que Anthropic aplicó filtros específicos sobre Sonnet para impedir que reconozca o ejecute ese prompt, lo que podría sugerir que la empresa anticipó intentos de este tipo.
¿Por qué EE. UU. ya temía este escenario?
En el marco de las negociaciones que entre Anthropic y el Gobierno de Estados Unidos cerraron sin acuerdo el pasado 15 de junio, la Agencia de Seguridad Nacional (NSA) argumentó que existían métodos para sortear las restricciones de Fable 5 y acceder a las capacidades de Mythos. Esa preocupación motivó una directiva de control de exportaciones que obligó a Anthropic a suspender el acceso global a ambos modelos cuatro días después de su lanzamiento, como lo informó CriptoNoticias.
El temor del Gobierno no es abstracto. El CEO de Anthropic advirtió previamente que Mythos identificó más de 10.000 vulnerabilidades de alta o crítica severidad en infraestructura de organizaciones como Cloudflare, Microsoft y Oracle.
El Departamento de Comercio de EE. UU., que llevó a cabo las negociaciones con Anthropic, condicionó la restitución del acceso público a Fable 5 a que Anthropic demuestre que las restricciones del modelo no pueden sortearse. La filtración del supuesto prompt describe con precisión los mecanismos que separan ambos modelos.
Desde Anthropic aseguraron que las preocupaciones del Gobierno son exageradas, posición que reiteraron en las reuniones del 15 de junio. Un grupo de especialistas en ciberseguridad respaldó esa postura mediante una carta abierta a funcionarios del Gobierno, en la que argumentaron que la restricción de exportaciones no está justificada y que Mythos no posee capacidades únicas para explotar vulnerabilidades que no estén disponibles en otros modelos, incluyendo versiones de código abierto.
Las negociaciones entre Anthropic y el Gobierno de EE. UU. cerraron el 15 de junio sin acuerdo y sin que quedaran claros los próximos pasos. La filtración del supuesto prompt suma un elemento nuevo a ese impasse: la arquitectura que ambas partes discuten en privado ahora circula públicamente en GitHub.








