Investigadores de la Universidade da Coruña presentan HEAD-QA v2, una expansión monumental del conjunto de datos que utiliza los exámenes más rigurosos del sistema sanitario español para poner a prueba la verdadera capacidad de inferencia en los modelos de lenguaje…
RESEARCHRUBRICS: por qué la IA falla donde más importa
Cuando le pedimos a un sistema de inteligencia artificial que investigue un tema complejo, esperamos más que una simple lista de enlaces o un resumen superficial. Queremos algo parecido a lo que haría un investigador humano: que explore múltiples fuentes,…


