Suscríbete a MUNDO IA

Benchmarks

Generated Image November 21, 2025 - 5_16AM

La sorpresa de los modelos compactos: evaluando ciencia sin gigantes

  Cada año, comités de evaluación en universidades de todo el mundo enfrentan una tarea monumental: leer, analizar y calificar cientos o miles de artículos científicos para decisiones de promoción, contratación, financiamiento o evaluaciones nacionales de investigación. En el Reino Unido,…

Leer Más
Copilot_20251120_194211

Locus: el fin del monopolio humano en la ciencia de frontera

  La compañía Intology ha presentado Locus, el primer sistema de inteligencia artificial que supera a expertos humanos en tareas de investigación y desarrollo de frontera. Capaz de orquestar experimentos autónomos durante días, este avance sugiere que la ciencia computacional ha…

Leer Más
Generated Image November 20, 2025 - 5_03PM

SAM 3: Meta y la nueva era de la inteligencia visual flexible

La nueva versión del sistema de segmentación de Meta trasciende el etiquetado fijo para encontrar, segmentar y rastrear cualquier concepto visual solicitado mediante texto, duplicando el rendimiento de sus predecesores y redefiniendo la forma en que las máquinas «entienden» el mundo….

Leer Más
Generated Image November 20, 2025 - 1_00AM

CreBench: la primera métrica capaz de cuantificar el proceso creativo humano

El acto de crear siempre se ha considerado el rasgo distintivo de nuestra especie, una alquimia mental inalcanzable para los autómatas. Sin embargo, la llegada de los modelos generativos ha desdibujado esa línea divisoria, inundando el mundo con textos e imágenes…

Leer Más
Generated Image November 18, 2025 - 3_09AM

RESEARCHRUBRICS: por qué la IA falla donde más importa

  Cuando le pedimos a un sistema de inteligencia artificial que investigue un tema complejo, esperamos más que una simple lista de enlaces o un resumen superficial. Queremos algo parecido a lo que haría un investigador humano: que explore múltiples fuentes,…

Leer Más
Generated Image November 17, 2025 - 10_41PM

AA-Omniscience: El índice que mide la honestidad computacional

Un exhaustivo informe técnico desmantela el mito de la escala en los sistemas cognitivos artificiales. Los datos revelan que la industria ha optimizado la elocuencia sobre la verdad, creando máquinas eruditas pero fundamentalmente deshonestas que prefieren fabular antes que admitir ignorancia….

Leer Más
Generated Image November 4_44PM

HaluMem: el benchmark que mide la raíz de las alucinaciones

  El campo de la inteligencia artificial ha experimentado una transformación radical impulsada por los avances en los modelos de lenguaje grandes (LLMs), dando lugar a la aparición de los agentes de IA. Estos sistemas, capaces de realizar tareas autónomas y…

Leer Más
Generated Image November 12, 2025 - 4_31PM

MIRA: el benchmark que revela la ceguera espacial de la IA

  Los modelos de lenguaje más avanzados del mundo, incluyendo GPT-5 y Gemini 2.5 Pro, fracasan estrepitosamente cuando deben resolver problemas que requieren visualización intermedia. Un nuevo benchmark llamado MIRA demuestra que estos sistemas alcanzan apenas un 16.5% de precisión en…

Leer Más
Generated Image November 07, 202534634_42PM(1)

Por qué la próxima frontera de IA es predicción, no computación

  Incluso los modelos de IA de contexto largo fuerte fallan gravemente cuando deben rastrear objetos y conteos en flujos de video largos y desordenados, por lo que la próxima ventaja competitiva provendrá de modelos que predicen lo que viene a…

Leer Más
Generated Image November 07, 2025 - 12_54AM

AutumnBench revela por qué la IA aún no comprende el mundo

Cada día, millones de personas interactúan con sistemas de inteligencia artificial que escriben textos coherentes, responden preguntas complejas y parecen comprender sutilezas del lenguaje humano. Sin embargo, existe una capacidad fundamental que casi cualquier niño domina y que sigue eludiendo incluso…

Leer Más

Para estar informado, Ingresá o Creá tu cuenta en MundoIA...

Entrar

Recordá revisar la carpeta de "no deseados", el correo puede llegar allí