El agotamiento de los exámenes tradicionales obliga a la comunidad científica a diseñar murallas matemáticas casi infranqueables para distinguir la imitación de la verdadera capacidad deductiva de los sistemas modernos. Por el equipo editorial | 5 de marzo, 2026 Imaginen…
Humanity’s Last Exam: el benchmark de Nature que los modelos de IA no pueden superar
El Center for AI Safety y Scale AI publicaron en Nature el benchmark mas dificil jamas disenado para LLMs: 2.500 preguntas creadas por casi 1.000 expertos de 50 paises que los modelos mas avanzados del mundo no pueden responder. GPT-4o…
El examen matemático que las computadoras más avanzadas no pueden resolver
Las arquitecturas computacionales saturaron las métricas de evaluación tradicionales mediante un sofisticado reconocimiento de patrones. Ante la ilusión de un razonamiento perfecto, la élite científica diseña barreras infranqueables que revelan las verdaderas limitaciones del pensamiento automatizado y obligan a replantear…
Las inteligencias artificiales ya superan los exámenes diseñados para evaluarlas
La metrología es la ciencia de la certeza absoluta. Definir el kilogramo requirió durante más de un siglo un cilindro exacto de platino iridio guardado celosamente bajo tres campanas de cristal en una bóveda de Sèvres. Evaluar la cognición algorítmica, por el contrario, se ha convertido en un ejercicio de fe estadística fundamentado en exámenes…
Un error de evaluación está guiando el entrenamiento de modelos
La inteligencia artificial generativa se ha acostumbrado a ocupar el centro del escenario: escribe, resume, traduce, corrige, conversa. La parte menos visible del espectáculo, sin embargo, es la que decide si una mejora existe de verdad o solo se…
Las máquinas detectan tu empatía mejor que otros humanos
Una investigación publicada en Nature Machine Intelligence demuestra que los modelos computacionales pueden juzgar con precisión notable las interacciones emocionales entre personas, planteando tanto oportunidades revolucionarias para la formación médica como interrogantes profundos sobre la naturaleza misma de la conexión…
OmniVideoBench y el futuro de la comprensión multimodal
La inteligencia artificial ha experimentado una transformación radical en los últimos años, pasando de procesar información de un solo tipo a integrar y comprender simultáneamente múltiples flujos de datos. Este salto cualitativo, conocido como inteligencia multimodal, permite a las máquinas analizar…
La maratón de la mente: la búsqueda para medir la verdadera autonomía de la inteligencia artificial
El horizonte temporal de las tareas de ingeniería de software que los diferentes LLM pueden completar el 50% del tiempo Este gráfico ilustra el crecimiento exponencial de la autonomía de los modelos de IA, demostrando que la complejidad de las tareas…
GenExam: una prueba multidisciplinaria para la inteligencia artificial
El universo de la inteligencia artificial generativa, en particular el de los modelos capaces de conjurar imágenes a partir de descripciones textuales, se ha expandido a una velocidad vertiginosa. Lo que hace tan solo unos años parecía una fantasía de ciencia…
De las palabras a la acción: cómo los LLM ya operan como agentes
Por Javier Ruiz, Periodista Especializado en Inteligencia Artificial y Tecnología Emergente, para Mundo IA LLM que planean y actúan La imagen clásica del “chatbot” quedó chica. La pregunta dejó de ser si un modelo escribe bien y pasó a ser si…










