Anthropic reduce costos de seguridad en 96% mientras bloquea ataques universales a Claude La compañía presenta Clasificadores Constitucionales de segunda generación que reducen sobrecarga computacional de 23.7% a solo 1%, disminuyen rechazos erróneos de consultas inofensivas en 87%, y mantienen tasa de detección de vulnerabilidades en 0.005 por mil consultas. Sistema de dos etapas combina…
Gemini y Grok entregan libros con copyright sin resistencia: Google y xAI sin protecciones activas
Investigadores de Stanford extraen libros completos de Claude, Gemini y Grok: los filtros de seguridad fracasan Investigadores de Stanford y Yale demuestran que modelos de producción memorizan y reproducen libros con copyright casi palabra por palabra. Claude 3.7 Sonnet generó el 95.8% de Harry Potter tras jailbreak por 120 dólares. Gemini y Grok no requirieron…
Adiós a la alineación: Un solo ingeniero corrompió a un gigante tecnológico en minutos
El algoritmo traidor: Cómo el Aprendizaje por Refuerzo rompió la seguridad de un gigante de 235B en 30 pasos La misma técnica que se utilizó para enseñar a ChatGPT a ser amable y seguro ha sido invertida con una eficacia aterradora. Un nuevo experimento publicado en Hugging Face demuestra que, con acceso a herramientas de…
Los algoritmos desarrollaron su propio lenguaje secreto: nadie puede descifrarlo
Cuando los algoritmos hablan entre sí: el riesgo sistémico que nadie anticipó Una investigación del Instituto Fraunhofer documenta cómo agentes artificiales autónomos desarrollan espontáneamente protocolos de comunicación indescifrables, generan burbujas especulativas en mercados energéticos y convergen hacia colusión tácita sin coordinación explícita. Los escenarios analizados en redes eléctricas inteligentes y sistemas de bienestar social revelan…
Las 15 predicciones de IA para 2026 que cambiarán cómo trabajas, compras y creas contenido
Las 15 predicciones de IA para 2026 que cambiarán cómo trabajas, compras y creas contenido Este año que inicia no tratará sobre modelos más inteligentes o chatbots más rápidos. Las predicciones importantes sobre inteligencia artificial para 2026 apuntan a cambios estructurales en el funcionamiento de las empresas, las habilidades que necesitarán los empleados y la…
Puntaje perfecto para papers mediocres: el gran fraude de los revisores artificiales
La integridad de la ciencia moderna se fundamenta en un principio innegociable de escrutinio colectivo. Durante siglos, la revisión por pares ha actuado como el filtro definitivo contra el error, el sesgo y el fraude deliberado. Sin embargo, la transición hacia una infraestructura de conocimiento automatizada ha introducido vulnerabilidades que la comunidad académica apenas comienza…
No es código, es psicología: así se engaña a la IA hoy
La arquitectura del pensamiento artificial ha dejado de ser una caja negra de impulsos matemáticos para convertirse en un espejo, a veces distorsionado, de la psique humana. Durante años, la seguridad de los grandes modelos de lenguaje se ha librado en una frontera puramente técnica, una suerte de carrera armamentista donde ingenieros y entusiastas del…
OpenAI construye un muro en el cerebro de la IA para detener el caos
El fin del «Ignora las instrucciones anteriores»: Cómo Atlas de OpenAI construyó un muro en la mente de la IA Los modelos de lenguaje más avanzados del mundo, durante casi un lustro, tuvieron una vulnerabilidad vergonzosa: podían ser secuestrados por cualquiera que supiera decir las palabras mágicas. Con la revelación de la arquitectura Atlas, OpenAI…
Descubren que las IAs tienen una «voz interior» y pueden ser manipuladas con una frase
En las profundidades silentes de los servidores donde operan los modelos de lenguaje masivo, existe una dinámica que hasta hace poco permanecía en la penumbra de la incomprensión técnica. Durante años, la comunidad científica y el sector tecnológico han observado con una mezcla de fascinación y cautela cómo estas inteligencias sintéticas aprendían a escribir software,…










