Cada año, comités de evaluación en universidades de todo el mundo enfrentan una tarea monumental: leer, analizar y calificar cientos o miles de artículos científicos para decisiones de promoción, contratación, financiamiento o evaluaciones nacionales de investigación. En el Reino Unido,…
Locus: el fin del monopolio humano en la ciencia de frontera
La compañía Intology ha presentado Locus, el primer sistema de inteligencia artificial que supera a expertos humanos en tareas de investigación y desarrollo de frontera. Capaz de orquestar experimentos autónomos durante días, este avance sugiere que la ciencia computacional ha…
SAM 3: Meta y la nueva era de la inteligencia visual flexible
La nueva versión del sistema de segmentación de Meta trasciende el etiquetado fijo para encontrar, segmentar y rastrear cualquier concepto visual solicitado mediante texto, duplicando el rendimiento de sus predecesores y redefiniendo la forma en que las máquinas «entienden» el mundo….
CreBench: la primera métrica capaz de cuantificar el proceso creativo humano
El acto de crear siempre se ha considerado el rasgo distintivo de nuestra especie, una alquimia mental inalcanzable para los autómatas. Sin embargo, la llegada de los modelos generativos ha desdibujado esa línea divisoria, inundando el mundo con textos e imágenes…
RESEARCHRUBRICS: por qué la IA falla donde más importa
Cuando le pedimos a un sistema de inteligencia artificial que investigue un tema complejo, esperamos más que una simple lista de enlaces o un resumen superficial. Queremos algo parecido a lo que haría un investigador humano: que explore múltiples fuentes,…
AA-Omniscience: El índice que mide la honestidad computacional
Un exhaustivo informe técnico desmantela el mito de la escala en los sistemas cognitivos artificiales. Los datos revelan que la industria ha optimizado la elocuencia sobre la verdad, creando máquinas eruditas pero fundamentalmente deshonestas que prefieren fabular antes que admitir ignorancia….
HaluMem: el benchmark que mide la raíz de las alucinaciones
El campo de la inteligencia artificial ha experimentado una transformación radical impulsada por los avances en los modelos de lenguaje grandes (LLMs), dando lugar a la aparición de los agentes de IA. Estos sistemas, capaces de realizar tareas autónomas y…
MIRA: el benchmark que revela la ceguera espacial de la IA
Los modelos de lenguaje más avanzados del mundo, incluyendo GPT-5 y Gemini 2.5 Pro, fracasan estrepitosamente cuando deben resolver problemas que requieren visualización intermedia. Un nuevo benchmark llamado MIRA demuestra que estos sistemas alcanzan apenas un 16.5% de precisión en…
Por qué la próxima frontera de IA es predicción, no computación
Incluso los modelos de IA de contexto largo fuerte fallan gravemente cuando deben rastrear objetos y conteos en flujos de video largos y desordenados, por lo que la próxima ventaja competitiva provendrá de modelos que predicen lo que viene a…










