El Center for AI Safety y Scale AI publicaron en Nature el benchmark mas dificil jamas disenado para LLMs: 2.500 preguntas creadas por casi 1.000 expertos de 50 paises que los modelos mas avanzados del mundo no pueden responder. GPT-4o…
Guía para frenar una IA
La inteligencia artificial ha dejado de ser una herramienta de consulta para transformarse en un motor de ejecución. Esta transición hacia la agencia autónoma implica que los modelos ahora poseen la facultad de operar en el mundo real o digital: pueden gestionar bases de datos, realizar transacciones bancarias o coordinar diagnósticos técnicos sin supervisión humana…
AA-Omniscience: El índice que mide la honestidad computacional
Un exhaustivo informe técnico desmantela el mito de la escala en los sistemas cognitivos artificiales. Los datos revelan que la industria ha optimizado la elocuencia sobre la verdad, creando máquinas eruditas pero fundamentalmente deshonestas que prefieren fabular antes que admitir ignorancia….



