Reputado hacker expone el guion secreto de Claude Fable 5

El manual oculto de Claude quedó en el centro de una pelea global

Un repositorio de GitHub vinculado a Pliny the Liberator publicó un archivo que afirma contener instrucciones internas de Claude Fable 5. El documento no está confirmado por Anthropic, pero aparece justo después de la suspensión de Fable 5 y Mythos 5 por presión del gobierno estadounidense. La historia mezcla modelos avanzados, seguridad nacional, jailbreaks, filtraciones y una pregunta cada vez más concreta: quién controla las reglas invisibles que gobiernan a estos sistemas.

Por el equipo editorial | 17 de junio, 2026

La noticia puede parecer, a primera vista, un asunto reservado a programadores obsesionados con prompts, repositorios de GitHub y nombres crípticos. No lo es. Lo que apareció en internet es un supuesto manual interno de comportamiento de Claude Fable 5, uno de los modelos más avanzados de Anthropic. Ese manual, conocido en el sector como system prompt, funciona como una capa de instrucciones que le dice al sistema cómo debe responder, qué temas debe evitar, qué herramientas puede usar, cuándo debe rechazar una solicitud y cómo debe comportarse ante situaciones sensibles.

Para entenderlo sin jerga innecesaria: un modelo no conversa solo con lo que escribe el usuario. Antes de cada respuesta, opera bajo reglas previas definidas por la empresa que lo desarrolla. Esas reglas no suelen estar visibles. El usuario ve una interfaz limpia, una caja de texto y una respuesta. Detrás hay un conjunto de órdenes, filtros, políticas y prioridades. El archivo publicado en GitHub afirma mostrar parte de esa cocina interna para Claude Fable 5.

El documento fue subido al repositorio CL4R1T4S, asociado al usuario elder-plinius. Ese proyecto se presenta como una colección de instrucciones, herramientas y prompts de sistema atribuidos a grandes modelos y agentes de empresas como OpenAI, Google, Anthropic, xAI, Perplexity, Cursor y otras. No es una fuente oficial. No pertenece a Anthropic. Tampoco ofrece, por sí mismo, una garantía de autenticidad. Pero sí forma parte de una corriente muy activa que intenta exponer cómo están programados los asistentes conversacionales por debajo de su superficie pública.

El punto clave: el archivo no prueba que se haya filtrado el system prompt real de Anthropic. Lo importante es que apareció en medio de una crisis mucho más grande: el lanzamiento y suspensión de Claude Fable 5 y Mythos 5, dos modelos que ya son tratados como tecnología sensible por el gobierno de Estados Unidos.

Qué apareció y por qué llamó la atención

El archivo se llama “Claude Fable 5 System Prompt”. Está escrito como si fuera una instrucción interna para el modelo. Contiene secciones sobre información del producto, manejo de rechazos, tono de conversación, bienestar del usuario, citas, herramientas disponibles, lectura de archivos, manejo de documentos, configuración de red y reglas para responder ante pedidos delicados. En otras palabras, no se limita a decir “sé amable” o “no hagas daño”. Describe un sistema completo de comportamiento.

La razón por la que el documento llamó la atención no fue solo su extensión. También incluye datos que encajan con lo que circuló públicamente sobre Fable 5 y Mythos 5. Fable 5 fue presentado como una versión amplia, con restricciones, de una familia de modelos muy capaces. Mythos 5, en cambio, aparece asociado a un acceso mucho más limitado, pensado para usuarios aprobados y tareas delicadas, especialmente en ciberseguridad. Esa coincidencia le da al archivo una apariencia verosímil, aunque no lo convierte automáticamente en prueba.

La diferencia importa. En periodismo tecnológico, una cosa es decir que un documento “afirma contener” instrucciones internas y otra muy distinta es afirmar que “contiene” las instrucciones reales. En este caso, la fórmula correcta es la primera. No hay confirmación pública de Anthropic. No hay una validación independiente completa. No hay una cadena de custodia clara. Lo que hay es un documento no oficial, publicado por una comunidad conocida por investigar, extraer y reconstruir prompts ocultos.

CL4R1T4S no intenta disimular su orientación. El repositorio defiende la transparencia total de los sistemas conversacionales y sostiene que, para confiar en la respuesta de un modelo, antes hay que conocer las instrucciones que condicionan esa respuesta. Esa posición tiene una fuerza evidente: millones de personas usan estos sistemas para trabajar, estudiar, escribir, programar, investigar o tomar decisiones. Si las reglas están ocultas, el usuario no sabe del todo qué está hablando, con qué límites ni bajo qué marco de conducta.

Pero el mismo argumento abre una zona complicada. Publicar instrucciones internas también puede ayudar a quienes buscan romper filtros, eludir medidas de seguridad o forzar respuestas prohibidas. Por eso las empresas suelen mantener esos textos cerrados. No es solo celo corporativo. También hay defensa operativa. El problema es que, cuando todo queda oculto, la confianza depende demasiado de la palabra de la empresa. Y en 2026, esa palabra ya no alcanza.

El mapa simple del caso

Hay cuatro piezas principales. Anthropic desarrolló Fable 5 y Mythos 5. El gobierno estadounidense intervino por riesgos de seguridad. Pliny y su entorno publicaron o difundieron material atribuido a instrucciones internas. La comunidad técnica empezó a discutir si esos documentos muestran una filtración real, una reconstrucción o una mezcla de información pública con inferencias. La noticia está en el cruce de esas cuatro piezas, no en una sola.

El lector medio no necesita conocer cada detalle técnico para comprender el fondo. Si el system prompt es el manual interno de conducta, entonces una filtración de ese manual permitiría mirar cómo la empresa intenta controlar a su propio modelo. Es como ver el reglamento privado de un presentador antes de que salga al aire: qué temas puede tocar, qué palabras debe evitar, cuándo debe cortar una conversación y qué instrucciones prevalecen si alguien intenta confundirlo.

Quién es Pliny y qué tiene que ver con esto

Pliny the Liberator, también conocido como Pliny the Prompter, es una figura seudónima de la cultura jailbreak. Su nombre aparece asociado a técnicas para hacer que modelos conversacionales salten sus restricciones. En 2024, Financial Times lo describió como un hacker que manipuló sistemas como Llama 3, Grok y GPT-4o para exponer debilidades en sus salvaguardas. También fue vinculado con Godmode GPT, una versión modificada de GPT-4o que OpenAI terminó bloqueando.

El término jailbreak viene del mundo de los dispositivos bloqueados, pero en este contexto significa otra cosa: encontrar instrucciones, trucos o secuencias de conversación capaces de hacer que un modelo responda algo que normalmente debería rechazar. Puede tratarse de una prueba de seguridad legítima, de una demostración pública, de un experimento irresponsable o de una herramienta para abuso. La misma técnica puede tener lecturas distintas según el contexto, la intención y el contenido que permita obtener.

Pliny representa una subcultura que mira a los modelos como sistemas cerrados que deben ser abiertos. Para algunos, es un red-teamer informal que expone fallas antes de que las exploten actores peores. Para otros, es un provocador que convierte la evasión de límites en espectáculo. Esa ambigüedad forma parte de su influencia. No actúa como una fuente institucional ni como un investigador académico tradicional. Actúa como una figura de frontera: medio hacker, medio activista, medio celebridad técnica de redes.

Su vínculo con CL4R1T4S encaja con ese perfil. El repositorio no solo recopila supuestos prompts. También invita a otros usuarios a contribuir con filtraciones, extracciones o ingeniería inversa. La idea de fondo es que los laboratorios no deberían tener monopolio sobre las instrucciones que moldean el comportamiento de sistemas utilizados por millones de personas. Es una postura agresiva, incómoda y, en algunos casos, útil para abrir debates reales. También puede ser peligrosa si convierte documentos sensibles en manuales para atacar sistemas.

La aparición del supuesto prompt de Fable 5 debe leerse dentro de esa cultura. No es simplemente “alguien subió un archivo”. Es una señal de que existe una comunidad decidida a mirar debajo del capó de los modelos más avanzados. Esa comunidad no espera permisos, auditorías formales ni comunicados de prensa. Busca, prueba, publica y empuja a las empresas a responder. A veces acierta. A veces exagera. A veces mezcla verdad, reconstrucción y performance. El problema para las compañías es que ya no puede ser ignorada.

Relación entre los elementos centrales del caso: el modelo, la intervención estatal, el repositorio y la cultura jailbreak.

El archivo de GitHub, además, apareció en un momento de enorme tensión para Anthropic. Fable 5 había sido lanzado como una versión pública de alto rendimiento, pero con fuertes barreras en áreas sensibles. The Verge informó que el modelo incluso evitaba responder preguntas básicas de biología y derivaba esas consultas a Claude Opus 4.8. Reuters señaló que Microsoft limitó su uso interno por preocupaciones sobre la retención de datos, ya que Anthropic conservaba entradas y salidas durante 30 días para fines de seguridad en modelos de clase Mythos.

La combinación era explosiva. Un modelo más capaz, filtros muy visibles, datos retenidos durante más tiempo, temor a jailbreaks y presión del gobierno estadounidense. Todo eso convirtió a Fable 5 en algo más que un producto nuevo. Lo transformó en un caso testigo sobre cuánto poder pueden tener estos sistemas y quién debe decidir su acceso.

Por qué Fable 5 y Mythos 5 terminaron bajo presión

El conflicto escaló cuando el gobierno de Estados Unidos ordenó restringir el acceso a Fable 5 y Mythos 5 por razones de seguridad nacional. Reuters informó que líderes del G7 discutieron un esquema para permitir el uso por parte de “socios confiables”, especialmente en ciberseguridad. WIRED describió el episodio como una señal de que los modelos considerados peligrosos llegarán de todos modos, incluso si un gobierno intenta frenar temporalmente a una empresa. Axios lo presentó como una pelea de poder sobre quién controla los sistemas más avanzados: las compañías que los construyen o los Estados que temen sus consecuencias.

Mythos 5 es la pieza más delicada. Según la cobertura disponible, se trata de una versión con capacidades especialmente fuertes en ciberseguridad, pensada para usuarios aprobados y tareas defensivas. Ese tipo de herramienta puede servir para encontrar fallas graves en sistemas críticos, pero también puede ayudar a atacarlos si cae en manos equivocadas. Fable 5, en cambio, fue presentado como una variante más accesible, con restricciones destinadas a bloquear o derivar consultas peligrosas.

El temor del gobierno estadounidense fue que esas barreras pudieran ser rodeadas. Si un jailbreak lograba atravesar los filtros de Fable 5 y acceder a capacidades parecidas a Mythos 5, el problema dejaba de ser comercial. Pasaba a ser estratégico. En esa lógica, un modelo avanzado no es solo un asistente para programar mejor o analizar documentos complejos. Es una tecnología de doble uso: puede defender redes, acelerar investigación, detectar vulnerabilidades y también potenciar operaciones ofensivas.

Esta es la razón por la que el supuesto system prompt se volvió relevante. Si las instrucciones internas explican cómo Fable 5 bloquea, deriva o restringe ciertos pedidos, conocerlas podría servir para evaluar la seguridad del sistema. También podría servir para intentar rodearla. Esa doble lectura atraviesa todo el caso. Lo que para un auditor es transparencia, para un atacante puede ser una pista. Lo que para una empresa es protección, para una comunidad externa puede parecer opacidad.

Lo que hay que decir con precisión

No está demostrado que el archivo de CL4R1T4S sea el prompt real de Claude Fable 5. Sí está claro que el documento circula dentro de una comunidad conocida por extraer y publicar instrucciones de modelos. También está claro que Fable 5 y Mythos 5 se convirtieron en objeto de una disputa pública por seguridad, acceso, restricciones y control gubernamental.

Para el público general, la importancia del episodio no está en aprender comandos raros ni nombres internos. Está en comprender que los asistentes conversacionales no son entidades neutrales que simplemente “piensan” y responden. Son productos gobernados por reglas. Esas reglas tienen consecuencias. Pueden hacer que un sistema rechace una pregunta médica, derive una consulta de biología, limite una tarea de ciberseguridad, retenga datos por seguridad o bloquee una solicitud porque un clasificador la considera peligrosa.

El caso también muestra una nueva tensión política. Hasta hace poco, la discusión pública se concentraba en si los modelos eran más rápidos, más creativos o más precisos. Ahora la pregunta cambió. Importa quién puede usarlos, bajo qué condiciones, con qué datos, con qué límites y bajo qué supervisión estatal. La competencia tecnológica ya no pasa solamente por tener el modelo más potente. También pasa por decidir quién puede abrirlo, cerrarlo, auditarlo o prohibirlo.

La historia de Pliny, CL4R1T4S y Fable 5 no es una anécdota de hackers. Es una escena anticipada de lo que viene. Los laboratorios seguirán ocultando instrucciones por seguridad y ventaja competitiva. Las comunidades externas seguirán intentando revelarlas. Los gobiernos intervendrán cuando crean que esas capacidades afectan la seguridad nacional. Y los usuarios, atrapados en el medio, seguirán usando herramientas cada vez más poderosas sin ver del todo las reglas que las gobiernan.

La pregunta de fondo no es si un archivo de GitHub es verdadero en cada línea. Esa verificación importa, pero no agota el asunto. La pregunta más grande es cuánta confianza puede pedir una empresa cuando sus sistemas ya influyen en trabajo, educación, programación, investigación y seguridad, pero sus instrucciones esenciales permanecen fuera de la vista. El supuesto prompt de Claude Fable 5 puede ser una filtración real, una reconstrucción o una pieza híbrida. Lo seguro es que llegó en el momento exacto para mostrar una grieta mayor: la batalla por el futuro de estos sistemas también será una batalla por sus reglas ocultas.

Referencias

GitHub, repositorio CL4R1T4S de elder-plinius.

GitHub, archivo “CLAUDE-FABLE-5.md”.

Reuters, “G7 leaders discuss ‘trusted partners’ access to cutting-edge US AI models, sources say”, 16 de junio de 2026.

Reuters, “Microsoft limits employee use of Anthropic’s Claude Fable 5 over data retention concerns”, 10 de junio de 2026.

Axios, “Anthropic-U.S. battle highlights AI power struggle”, 17 de junio de 2026.

arXiv, “A Red-Team Study of Anthropic Fable 5 & Opus 4.8 Models”, 16 de junio de 2026.

Reputado hacker expone el guion secreto de Claude Fable 5