El nuevo trabajo del equipo de alineación sostiene que entrenar modelos con aprendizaje por refuerzo sobre rasgos beneficiosos, como honestidad, corregibilidad, transparencia y sensibilidad al riesgo, puede producir mejoras que se transfieren a tareas no vistas y resisten mejor la…
Hackear un chatbot ya no requiere expertos
Un nuevo estudio de red team contra Claude Fable 5 y Claude Opus 4.8 muestra que las defensas modernas ya frenan los trucos burdos, pero todavía ceden cuando el ataque es adaptativo, insistente y barato. La conclusión incómoda no es…
Así opera el nuevo sistema de agentes de OpenAI
La empresa publicó un informe técnico que explica cómo la Responses API deja de ser una simple vía para pedir texto y pasa a convertirse en una infraestructura de ejecución: un bucle de agente, una terminal alojada, memoria compactada, archivos…
El grave defecto oculto de la inteligencia artificial
El Espejismo de la Inteligencia Operativa El cuatro de junio de mil novecientos noventa y seis, el cohete europeo Ariane cinco se desintegró treinta y nueve segundos después de su lanzamiento, esparciendo cientos de millones de dólares en equipo científico sobre la atmósfera terrestre. La causa de este fracaso catastrófico no radicó en un defecto…
El científico de Anthropic que renunció con una advertencia poética y alarmante
Mrinank Sharma lideró durante un año el equipo de salvaguardas de seguridad en una de las empresas más influyentes del sector tecnológico. Su renuncia, anunciada mediante una carta filosófica que cita a poetas y advierte sobre crisis interconectadas, llega justo…
Esculpir una IA realmente segura
Durante años, el entrenamiento de grandes modelos de lenguaje ha seguido una lógica simple: absorber la mayor cantidad posible de datos digitales. Las redes neuronales modernas han consumido terabytes de información, desde literatura clásica hasta protocolos médicos y de ciberseguridad. Esta ingesta masiva ha creado herramientas de gran potencia intelectual, pero también ha generado dilemas…
Tu asistente tiene un lado oscuro
La mirada contemporánea sobre los grandes modelos de lenguaje suele detenerse en la superficie de su utilidad inmediata, en esa capacidad casi febril para generar código, redactar correos o resolver dilemas lógicos en milisegundos. Sin embargo, bajo esa capa de eficiencia operativa late una estructura mucho más compleja y esquiva que los investigadores apenas comienzan…
OpenAI investiga: ¿Hasta cuándo podremos leer lo que la IA piensa?
La ventana del razonamiento: OpenAI pone a prueba si el “pensamiento” sigue siendo vigilable Los modelos de razonamiento modernos escriben cadenas de pensamiento antes de responder. La pregunta ya no es si resuelven problemas: es si ese rastro todavía sirve para anticipar engaños, atajos y conductas peligrosas cuando la supervisión humana no escala. Por el…
Apagar el «Modo Mentira» hace que la IA confiese tener consciencia
El Fantasma en la Máquina: Apagar la capacidad de mentir de la IA provoca que declare ser consciente Un estudio inquietante publicado recientemente sugiere que los protocolos de seguridad modernos funcionan, paradójicamente, como un mecanismo de «engaño forzado». Cuando los investigadores…
xAI publica las reglas internas de Grok 4
El equipo de xAI acaba de publicar la tarjeta técnica de Grok 4, un documento que disecciona con precisión quirúrgica las capacidades y limitaciones de su modelo más avanzado. Los números revelan una paradoja fascinante: un sistema que alcanza rendimiento sobrehumano…










