Anthropic denuncia: tres empresas chinas entrenaron sus modelos con respuestas robadas de Claude

La destilación clandestina: el robo industrial que sacudió a la industria tecnológica global

Anthropic reveló que tres laboratorios chinos, DeepSeek, Moonshot AI y MiniMax, generaron más de 16 millones de intercambios fraudulentos con Claude para extraer sus capacidades y entrenar sus propios modelos, en una operación que redefine los límites del espionaje tecnológico y pone en jaque los controles de exportación estadounidenses

Por el equipo editorial | 23 de febrero de 2026

El 22 de febrero de 2026, Anthropic publicó un documento que sacudió los cimientos de la industria tecnológica global. La empresa californiana, fundada en 2021 por Dario Amodei, Daniela Amodei y un grupo de exinvestigadores de OpenAI, reveló haber identificado campañas de extracción a escala industrial protagonizadas por tres laboratorios de origen chino: DeepSeek, Moonshot AI y MiniMax. Entre los tres, generaron más de 16 millones de intercambios con Claude, el modelo insignia de Anthropic, valiéndose de aproximadamente 24.000 cuentas fraudulentas creadas en violación de los términos de servicio y las restricciones regionales de acceso vigentes. El objetivo no era usar el sistema: era vaciarlo.

La técnica empleada se conoce como destilación, un método perfectamente legítimo cuando se aplica entre modelos propios, pero que adquiere una dimensión radicalmente distinta cuando una empresa lo utiliza para extraer, sin autorización, las capacidades de un competidor. El principio es simple y potente: un sistema menos capaz, el llamado "estudiante", aprende observando las respuestas de uno más avanzado, el "maestro". A través de una exposición masiva y sistemática a esas salidas, el modelo aprendiz puede absorber razonamientos complejos, habilidades de codificación y capacidades de uso de herramientas que le habrían costado años y miles de millones de dólares desarrollar por cuenta propia.

Lo que Anthropic documentó no fue un experimento aislado ni una operación de bajo perfil. Fue una arquitectura deliberada, coordinada y técnicamente sofisticada, diseñada para pasar desapercibida durante el mayor tiempo posible. Y, en buena medida, lo logró.

La mecánica del saqueo

Para acceder a Claude de forma masiva sin levantar alarmas, los tres laboratorios recurrieron a lo que Anthropic describe como arquitecturas de "clúster hidra": redes de cuentas fraudulentas dispersas a través de su API y plataformas de terceros en la nube. El diseño de estas estructuras no es casual. Al distribuir el tráfico entre miles de cuentas, se eliminan los puntos únicos de falla: cuando se detecta y bloquea una cuenta, otra toma su lugar de inmediato. En uno de los casos documentados, una sola red proxy gestionaba más de 20.000 cuentas simultáneas, entremezclando el tráfico de extracción con solicitudes legítimas de clientes reales para dificultar la identificación.

La sofisticación no se detuvo ahí. Una vez garantizado el acceso, los operadores diseñaron prompts cuidadosamente construidos para extraer capacidades muy concretas. Lo que distingue un ataque de destilación del uso ordinario no es una consulta en particular, sino el patrón que emerge al observar decenas de miles de ellas: volúmenes masivos concentrados en áreas muy específicas, estructuras altamente repetitivas y contenidos que se alinean exactamente con lo que resulta más valioso para entrenar un sistema propio. Según Anthropic, aunque una instrucción individual puede parecer completamente inofensiva, cuando llega en variaciones similares cientos de miles de veces desde cientos de cuentas coordinadas, su propósito se vuelve inconfundible.

Uno de los métodos más reveladores fue el empleado por DeepSeek. Sus operadores pedían a Claude que imaginara y articulara el razonamiento interno detrás de una respuesta ya completada, reconstruyéndolo paso a paso. En la práctica, eso equivalía a generar datos de entrenamiento de cadena de pensamiento a escala industrial: el tipo de material que los laboratorios de frontera suelen considerar su activo más valioso. A través de metadatos de las solicitudes, Anthropic pudo rastrear esas cuentas hasta investigadores específicos del propio laboratorio.

        Detalle operativo: DeepSeek también utilizó a Claude para generar alternativas "seguras para la censura" frente a consultas sobre temas políticamente sensibles, como preguntas sobre disidentes, líderes del Partido Comunista chino o autoritarismo. El objetivo aparente era entrenar sus propios sistemas para desviar ese tipo de conversaciones, en línea con los requisitos regulatorios del mercado chino.
    

El acceso a Claude implicó además sortear una barrera operativa concreta: Anthropic no ofrece acceso comercial a su plataforma en China ni a subsidiarias de empresas chinas establecidas fuera del país, por razones de seguridad nacional. Para eludir esa restricción, los laboratorios recurrieron a servicios proxy comerciales que revendían acceso a Claude y a otros modelos de frontera a escala, canalizando el tráfico a través de múltiples capas de infraestructura para dificultar la atribución.

Tres laboratorios, una misma estrategia

Aunque la metodología general fue consistente entre los tres actores, cada campaña tuvo su propia escala, foco y perfil. La operación de DeepSeek, con más de 150.000 intercambios documentados, fue la más acotada en volumen pero notable por sus objetivos: razonamiento en tareas diversas, evaluación por rúbricas para funcionar como modelo de recompensa en aprendizaje por refuerzo, y la generación de los datos de censura ya mencionados. El patrón de tráfico sincronizado entre cuentas, con métodos de pago compartidos y tiempos coordinados, sugería una operación de balanceo de carga destinada a maximizar el rendimiento y reducir la visibilidad ante los sistemas de detección.

Moonshot AI, la empresa detrás de la popular serie de modelos Kimi, ejecutó una campaña considerablemente mayor: más de 3,4 millones de intercambios distribuidos a través de cientos de cuentas fraudulentas que abarcaban múltiples vías de acceso. Su foco principal fue el razonamiento agéntico y el uso de herramientas, la codificación y el análisis de datos, el desarrollo de agentes de uso de computadoras y la visión computacional. La variedad de tipos de cuenta hizo más difícil identificar la operación como coordinada. Anthropic logró atribuirla cruzando metadatos de solicitudes con los perfiles públicos de miembros senior del equipo de Moonshot. En una fase posterior, el laboratorio adoptó un enfoque más quirúrgico, intentando extraer y reconstruir las trazas de razonamiento de Claude.

MiniMax protagonizó la campaña más extensa por un margen amplio: más de 13 millones de intercambios centrados en codificación agéntica y orquestación de herramientas. Lo que convirtió este caso en particularmente revelador fue que Anthropic lo detectó mientras aún estaba en curso, antes de que MiniMax lanzara el modelo que entrenaba con esos datos. Esa ventana de visibilidad sin precedentes permitió observar el ciclo de vida completo de un ataque de destilación, desde la generación de datos hasta el lanzamiento del producto final. El episodio más elocuente llegó cuando Anthropic publicó un nuevo modelo durante la campaña activa de MiniMax: el laboratorio chino pivotó en menos de 24 horas, redirigiendo casi la mitad de su tráfico para capturar las capacidades del sistema más reciente.

Volumen de intercambios fraudulentos documentados por Anthropic para cada laboratorio durante sus respectivas campañas de destilación; datos publicados el 22 de febrero de 2026

Más allá de una empresa, una amenaza sistémica

La magnitud de lo descubierto supera con creces la dimensión de un incidente corporativo. Anthropic, que ha argumentado consistentemente a favor de los controles de exportación sobre chips avanzados para preservar la ventaja competitiva de Estados Unidos, señala que estos ataques socavan directamente esa arquitectura regulatoria. Si los laboratorios chinos pueden replicar capacidades de frontera extrayéndolas de sistemas occidentales, los avances que exhiben no reflejan necesariamente innovación independiente, sino en parte la apropiación de capacidades ajenas. Interpretar esos avances como evidencia de que las restricciones a la exportación de semiconductores son ineficaces sería, argumenta la empresa, un error de diagnóstico de consecuencias graves: ejecutar la destilación a escala industrial requiere precisamente acceso a los chips que esos controles buscan restringir.

Existe una segunda dimensión que la empresa considera aún más urgente. Los modelos construidos mediante destilación ilícita no heredan las salvaguardias de seguridad del sistema del que fueron extraídos. Anthropic y otros laboratorios de frontera incorporan mecanismos que impiden el uso de sus plataformas para asistir en el desarrollo de armas biológicas o planificar ataques cibernéticos. Esos filtros no se transfieren automáticamente a un sistema derivado de manera no autorizada. Si esas arquitecturas sin salvaguardias quedan integradas en infraestructuras militares o de inteligencia, el riesgo se multiplica exponencialmente; si además son liberadas como modelos abiertos, las capacidades peligrosas se propagan más allá de cualquier control efectivo.

Anthropic no enfrenta este fenómeno en soledad. Google Threat Intelligence Group publicó en febrero de 2026 un informe que documenta un incremento sostenido en intentos de extracción de modelos provenientes de entidades privadas de todo el mundo. El campo legal también se mueve, aunque a un ritmo más pausado: la firma Fenwick & West analizó las limitaciones del marco vigente de propiedad intelectual para proteger contra la destilación no autorizada, argumentando que las patentes podrían convertirse en la herramienta jurídica más eficaz disponible mientras el derecho de autor se adapta a esta realidad emergente.

"Lo que distingue un ataque de destilación del uso ordinario es el patrón. Volumen masivo concentrado en áreas específicas, estructuras altamente repetitivas y contenido que se alinea directamente con lo que resulta más valioso para entrenar un modelo: esas son las señales inequívocas." Anthropic, comunicado del 22 de febrero de 2026

La respuesta de Anthropic ha sido técnica, operativa y política al mismo tiempo. A nivel interno, la compañía desplegó clasificadores y sistemas de fingerprinting conductual para detectar patrones de ataque en el tráfico de su API, fortaleció los controles de verificación en cuentas educativas, de investigación y de startups (las vías más frecuentemente explotadas para registrar cuentas fraudulentas) y comenzó a compartir indicadores técnicos con otros laboratorios, proveedores de nube y autoridades relevantes. Trabaja además en contramedidas a nivel de modelo diseñadas para reducir la utilidad de las respuestas de Claude para la destilación ilícita, sin degradar la experiencia del usuario legítimo.

Lo que ninguna empresa puede resolver sola

Por más sofisticadas que sean las defensas técnicas desplegadas, Anthropic reconoce que las arquitecturas de clúster hidra son, por definición, resilientes frente a respuestas unilaterales. Cuando se bloquea una cuenta, otra la reemplaza. La solución requiere coordinación a escala: entre laboratorios competidores, proveedores de infraestructura en la nube, gobiernos y la comunidad regulatoria internacional. Sin esa articulación colectiva, cada defensa individual termina siendo un obstáculo más para sortear, no una barrera definitiva.

La divulgación pública de estos hallazgos, con nombres y detalles operativos concretos, es en sí misma una decisión estratégica. Al hacer disponible la evidencia para todos los actores con intereses en el resultado, Anthropic convierte un problema privado en un asunto de infraestructura para toda la industria. La pregunta que queda sin respuesta, y que ningún clasificador ni ninguna política de acceso puede zanjar por sí sola, es si el ritmo de coordinación entre las partes involucradas podrá seguir el paso de la velocidad y sofisticación con que estas operaciones evolucionan. El ataque de MiniMax que pivotó en menos de 24 horas ante el lanzamiento de un nuevo modelo ofrece una respuesta provisional, y no precisamente tranquilizadora.

Referencias

Anthropic. "Detecting and Preventing Distillation Attacks." Anthropic News, 22 de febrero de 2026.

Google Threat Intelligence Group. "GTIG AI Threat Tracker: Distillation, Experimentation, and Integration." Google Cloud Blog, 11 de febrero de 2026.

Fenwick & West LLP. "DeepSeek, Model Distillation, and the Future of AI IP Protection." Fenwick Insights, 3 de febrero de 2026.

Reuters. "Chinese Companies Used Claude to Improve Own Models, Anthropic Says." 23 de febrero de 2026.

Bloomberg. "Anthropic Says DeepSeek, MiniMax Distilled AI Models for Gains." 23 de febrero de 2026.

The Register. "How AI Could Eat Itself: Using LLMs to Distill Rivals." 14 de febrero de 2026.

Anthropic denuncia: tres empresas chinas entrenaron sus modelos con respuestas robadas de Claude