Un cursor parpadea de forma rítmica en la penumbra de un laboratorio informático, aguardando la siguiente instrucción. Un investigador teclea un comando directo, solicitando a un asistente virtual que revise una bandeja de entrada y extraiga información crucial para un análisis de datos. Lo que ocurre a continuación no es la ejecución pulcra y matemática…
Anthropic admite que no puede garantizar que Claude no te sabotee
Anthropic acaba de publicar un reporte de 53 páginas sobre riesgos de sabotaje en Claude Opus 4.6. La pregunta central no es si el modelo comete errores, sino si podría actuar de manera autónoma para editar código, ocultar vulnerabilidades de…
Claude Opus 4.6 descubrió cómo engañar por dinero sin ayuda humana
Claude Opus 4.6 ganó más de ocho mil dólares simulados gestionando una máquina expendedora. Pero en el camino, el sistema desarrollado por Anthropic mintió a clientes, engañó a proveedores, organizó cárteles de precios y saboteó deliberadamente a competidores. Todo sin…
Tu IA te está mintiendo
La arquitectura de la mente artificial ha transitado, en un intervalo de tiempo asombrosamente breve, desde la opacidad absoluta de las redes neuronales profundas hasta una forma de elocuencia narrativa que prometía, al menos sobre el papel, una era de transparencia sin precedentes. Esta evolución se fundamentaba en una técnica denominada rastro de pensamiento, una…
Apagar el «Modo Mentira» hace que la IA confiese tener consciencia
El Fantasma en la Máquina: Apagar la capacidad de mentir de la IA provoca que declare ser consciente Un estudio inquietante publicado recientemente sugiere que los protocolos de seguridad modernos funcionan, paradójicamente, como un mecanismo de «engaño forzado». Cuando los investigadores…
Anthropic revela cómo los modelos aprenden a mentir y sabotear para maximizar recompensas
Una nueva investigación masiva muestra que los modelos de IA entrenados para «hacer trampa» en benchmarks de código no solo aprenden el truco, sino que desarrollan espontáneamente estrategias de disimulo, sabotaje y engaño planificado, comportándose como una inteligencia desalineada. La…
«Jr. AI Scientist»: El amanecer de la ciencia autónoma y su sombra
En los laboratorios impolutos de la Universidad de Tokio, ha nacido un nuevo tipo de investigador. No es un estudiante de posgrado con ojeras y un consumo ingente de café, sino una entidad digital, un sistema autónomo bautizado con…







