Cada año, comités de evaluación en universidades de todo el mundo enfrentan una tarea monumental: leer, analizar y calificar cientos o miles de artículos científicos para decisiones de promoción, contratación, financiamiento o evaluaciones nacionales de investigación. En el Reino Unido, el Research Excellence Framework involucra a 1.120 expertos, principalmente profesores senior, leyendo decenas de miles de publicaciones para asignarles puntuaciones que determinarán siete años de financiamiento gubernamental para investigación. El proceso es exhaustivo, costoso en tiempo y recursos humanos, y altamente subjetivo pese a los esfuerzos por estandarizarlo.
Durante décadas, indicadores bibliométricos como conteos de citas o tasas de impacto de revistas han proporcionado soporte cuantitativo para estos juicios expertos. Pero en 2024 emergió una alternativa inesperada: los modelos de lenguaje de gran escala demostraron capacidad para evaluar calidad de investigación de manera que correlaciona moderadamente con juicios expertos. ChatGPT 4o, ChatGPT 4o-mini y Google Gemini mostraron desempeños comparables o superiores a indicadores basados en citas en múltiples campos científicos.
Sin embargo, estos modelos gigantes plantean problemas prácticos. Son caros de ejecutar, requieren APIs en la nube que comprometen confidencialidad, y procesan información lentamente cuando se escalan a miles de artículos. Una pregunta fundamental permanecía sin respuesta: ¿pueden modelos más pequeños, ejecutables localmente en hardware modesto, realizar la misma tarea con desempeño comparable? Y una segunda cuestión, igualmente importante: ¿qué pasa con los nuevos modelos de razonamiento que piensan paso a paso antes de responder?
Un estudio exhaustivo conducido por Mike Thelwall de la Universidad de Sheffield y Ehsan Mohammadi de la Universidad de Carolina del Sur aborda estas preguntas evaluando 2.780 artículos médicos y de ciencias de la vida con múltiples modelos de diferentes tamaños, desde gigantes de propósito general hasta versiones compactas de apenas mil millones de parámetros. Los resultados desafían intuiciones sobre la relación entre capacidad del modelo y calidad de desempeño en tareas expertas complejas.
El contexto: evaluar ciencia es difícil, costoso y crítico
La evaluación de investigación académica es una de las actividades más consecuentes en el ecosistema científico. Determina quién obtiene puestos permanentes, quién recibe financiamiento, qué departamentos prosperan y cuáles enfrentan recortes presupuestarios. En sistemas nacionales como el REF británico, las puntuaciones agregadas de investigación dirigen miles de millones de libras en subvenciones durante años.
El proceso tradicional requiere que expertos lean artículos completos, evalúen su rigor metodológico, valoren su originalidad conceptual, y estimen su significancia para el campo. En el REF 2021, los evaluadores asignaron puntuaciones en escala de cuatro niveles: reconocido nacionalmente (una estrella), reconocido internacionalmente (dos estrellas), excelente internacionalmente (tres estrellas), y líder mundial (cuatro estrellas). Estas categorías pretenden capturar diferencias cualitativas en contribución científica que trascienden métricas cuantitativas simples.
Los indicadores bibliométricos han intentado sistematizar esto. Conteos de citas, factores de impacto de revistas, índices h y métricas derivadas proporcionan información útil pero incompleta. Las citas tardan años en acumularse, son sensibles a sesgos de citación, y no capturan calidad directamente sino visibilidad e influencia. Un artículo puede ser altamente citado por ser controvertido, o poco citado por ser adelantado a su tiempo. Las métricas de revista ignoran heterogeneidad dentro de publicaciones individuales.
Los modelos de lenguaje ofrecen un enfoque cualitativamente diferente: leer el contenido del artículo, interpretar su contribución, y emitir juicio basado en comprensión semántica del texto. Estudios previos demostraron que ChatGPT 4o y 4o-mini producen calificaciones que correlacionan con promedios departamentales del REF 2021 a tasas comparables con indicadores de citas, y en algunos campos superándolos. Google Gemini mostró capacidad similar. Incluso el modelo de código abierto Gemma 27b exhibió correlaciones moderadas.
Pero estos estudios dejaron preguntas abiertas. ¿Funciona esto con modelos más pequeños que requieren menos recursos computacionales? ¿Los nuevos modelos de razonamiento, entrenados para pensar paso a paso, son mejores en esta tarea experta compleja? ¿Estrategias como promediar múltiples evaluaciones del mismo artículo o proporcionar ejemplos de referencia mejoran resultados universalmente?
Diseño experimental: 2.780 artículos, dos estándares de oro
El estudio evaluó artículos del Panel Principal A del REF 2021, que engloba medicina clínica, salud pública y atención primaria, profesiones sanitarias incluyendo odontología, enfermería y farmacia, psicología, psiquiatría y neurociencias, ciencias biológicas, y agricultura, alimentación y ciencias veterinarias. Estos seis campos representan el 41 por ciento de todos los artículos sometidos al REF 2021, más de tres mil artículos en cada campo.
Se seleccionaron aleatoriamente 500 artículos de cada campo, excluyendo aquellos sin identificadores DOI necesarios para verificar unicidad, y sin resúmenes cortos o ausentes, específicamente excluyendo artículos con los 10 por ciento de resúmenes más cortos que suelen ser contribuciones de forma breve. Los artículos pueden someterse a diferentes campos por diferentes instituciones, por lo que había pequeño grado de superposición, quedando 2.780 artículos únicos en total.
El diseño empleó dos estándares de oro diferentes para validación cruzada de resultados. El primero usa promedios departamentales del REF 2021: cada artículo recibe la puntuación promedio del departamento que lo sometió. Cuando el mismo artículo fue sometido múltiples veces, se usó la puntuación media. Este es un proxy imperfecto porque asigna una puntuación grupal a artículos individuales, pero funciona estadísticamente: en ausencia de sesgo, dentro de un campo, cuanto mayor la correlación con el proxy, mayor la correlación con los datos subyacentes. El uso de proxy sirve para amortiguar la fuerza de correlación, por lo que no revela la fuerza de correlación subyacente pero permite comparaciones entre modelos de lenguaje y entre enfoques.
El segundo estándar consiste en puntuaciones individuales asignadas a los 2.780 artículos por el primer autor del estudio antes de cualquier prueba con modelos de lenguaje y sin conocimiento consciente de puntuaciones de modelos de lenguaje asignadas a estos artículos previamente. Las puntuaciones se asignaron individualmente dentro de campos en escala de nueve puntos y luego se normalizaron por referencia para dar puntuaciones promedio similares a los promedios dados en el campo REF 2021 para artículos de revista. Los artículos en múltiples campos recibieron solo una puntuación, promediando las puntuaciones de los campos individuales.
Este estándar tiene la ventaja de que las puntuaciones son individuales a artículos en lugar de proxy, pero la desventaja de que el primer autor no es experto en ninguno de los seis campos, aunque ha publicado en cuatro de ellos. En mitigación de este punto, la evaluación de calidad de investigación en ciencias de la vida y salud es más directa que en la mayoría de otros campos porque carece en gran medida de teorías abstractas, usualmente no se enfoca en elaboraciones matemáticas, y la importancia del trabajo parece frecuentemente transparente desde el resumen.
Los modelos evaluados: del gigante al enano
Los modelos seleccionados representan un espectro amplio de arquitecturas, tamaños y capacidades. En el extremo superior están ChatGPT 4o de mayo de 2024 y ChatGPT 4o-mini de julio de 2024. Estos son exclusivamente basados en nube, con arquitecturas desconocidas, tamaños desconocidos y conteos de parámetros desconocidos. ChatGPT 4o-mini es una versión más pequeña y económica de ChatGPT pero la naturaleza de la diferencia no ha sido revelada.
Gemini 2.0 Flash de febrero de 2025 también es exclusivamente basado en nube, con arquitecturas, tamaños y conteos de parámetros desconocidos. El Gemini 2.0 Flash de Google sucedió a Gemini 1.5 Flash y ambos son versiones más económicas y presumiblemente más pequeñas de los modelos Gemini Pro insignia. Gemini es multimodal para entrada, con salida de texto.
Gemma 3 de marzo de 2025 es un modelo de lenguaje de código abierto multilingüe para 140 idiomas, multimodal de texto e imagen excepto para versiones de 1b y 270Mb que son solo texto, de Google con arquitectura densa lanzado en cinco tamaños: 27 mil millones de parámetros en 17 gigabytes, 12 mil millones en 8.1 gigabytes, 4 mil millones en 3.3 gigabytes, y 1 mil millones en 815 megabytes.
Qwen 3 de abril de 2025 es un modelo de lenguaje de razonamiento denso de Alibaba con lanzamientos de código abierto en versiones de 32 mil millones de parámetros en 20 gigabytes y 8 mil millones en 5.2 gigabytes. La versión más grande tiene 235 mil millones de parámetros. Alibaba afirma que variantes pequeñas como Qwen3-4B pueden igualar el desempeño de modelos anteriores mucho mayores como Qwen2.5-72B-Instruct.
DeepSeek R1 de enero de 2025 es un modelo de razonamiento basado en DeepSeek V3 con mejoras de razonamiento. DeepSeek ha lanzado versiones densas destiladas de código abierto más pequeñas del modelo completo con tamaños variando de 1.5 a 70 mil millones de parámetros. Las versiones evaluadas fueron de 32 mil millones de parámetros en 20 gigabytes y 8 mil millones en 5.2 gigabytes. La versión web incluye búsqueda web, pero la versión de código abierto no.
Llama 4 Scout es el modelo de lenguaje de cuarta generación de Meta, lanzado en abril de 2025, sin capacidades de razonamiento. Tiene arquitectura de mezcla de expertos con 16 expertos y es multimodal para imagen y texto, con tamaño efectivo de 16 por 17 mil millones de parámetros en 67 gigabytes.
Magistral Small es el modelo de lenguaje de cuarta generación de Mistral AI, lanzado en junio de 2025, con capacidades de razonamiento construidas sobre Mistral Medium 3 en lugar de entrenadas nativamente para razonamiento. Tiene arquitectura densa de 24 mil millones de parámetros en 6 gigabytes.
Esta diversidad permite comparaciones sistemáticas entre tamaños, arquitecturas, presencia o ausencia de razonamiento, y modalidades soportadas. La elección de modelos es parcialmente pragmática en el sentido de que modelos de código abierto más grandes son más caros de ejecutar, requiriendo más VRAM y más GPUs o tiempos más largos, excluyendo la mayoría de modelos mayores de 60 gigabytes.
Estrategias de prompting: cero ejemplos versus cuatro ejemplos
Los prompts de modelos de lenguaje primero describen la tarea de evaluación de investigación y luego solicitan evaluación de un solo artículo. La descripción de tarea se tomó casi textualmente de las instrucciones del REF para evaluadores del Panel Principal A, excepto que la primera oración se cambió para dirigirse directamente al lector de inteligencia artificial, lo cual es innecesario para humanos. Esta descripción es el prompt de sistema del Panel Principal A usado anteriormente y define la tarea en términos de evaluar las dimensiones de originalidad, significancia y rigor de calidad de investigación, con ejemplos y definiciones, y el sistema de puntuación de una a cuatro estrellas mencionado arriba.
Para modelos con prompts de usuario y sistema separados, estas instrucciones se sometieron como prompt de sistema y para otros modelos los prompts de usuario descritos abajo se anexaron a ellas como prompts de usuario largos. El estilo principal de prompt de usuario usado fue solicitar puntuar el artículo seguido del título del artículo, el texto resumen, y el resumen del artículo. Los textos completos no se ingresaron porque investigación previa ha indicado que resultados de inputs de texto completo dan resultados similares, en términos de sus correlaciones con puntuaciones expertas. Usar textos completos habría hecho algunos de los modelos imprácticos debido a los costos computacionales adicionales para procesar inputs más largos.
Para el estilo de input few-shot, el prompt de usuario fue precedido por cuatro ejemplos en el formato: este artículo puntúa seguido de la puntuación, seguido del título, el texto resumen, y el resumen del artículo, y el texto separador. El separador se agregó en formato ampliamente encontrado en outputs de modelos de lenguaje en los experimentos para evitar ambigüedad entre los ejemplos, y para separar la tarea principal. En unos pocos casos el prompt few-shot confundió a Llama4 y Mistral y puntuaron los cinco artículos, los cuatro ejemplos así como el artículo principal, pero por lo demás el prompt few-shot pareció ser entendido o ignorado.
La decisión de usar cuatro ejemplos, uno por cada nivel de puntuación, se basó en que parece ser la estrategia más natural. Hay al menos tres estrategias razonables: dos ejemplos con un artículo de una estrella y uno de cuatro estrellas para indicar el rango de puntuación; dos ejemplos con un artículo de tres estrellas y uno de cuatro estrellas dado que estas son las puntuaciones más comunes; o cuatro ejemplos con artículos de una, dos, tres y cuatro estrellas para indicar todos los niveles. El tercer enfoque fue elegido porque parece ser la estrategia más natural. Diferenciar entre las categorías comunes de tres y cuatro estrellas no sería ayudado mucho por la estrategia uno. Identificar artículos raros de baja calidad es importante, un inconveniente para la estrategia dos.
Los artículos few-shot se seleccionaron fuera del conjunto de 2.780 para cada campo para proteger contra cualquiera de las plataformas recordando o aprendiendo de inputs de usuario, por lo que usar artículos fuera del conjunto es una salvaguarda contra filtración accidental de las puntuaciones correctas incluyendo debido a error humano. Una desventaja de esta estrategia es que la elección de artículo en cada nivel es subjetiva, y un error podría influir el poder de la estrategia few-shot. Así, una estrategia modificada se usó: encontrar dos artículos en cada nivel de estrella en cada campo y seleccionar uno de los dos artículos aleatoriamente en cada nivel de estrella para el campo relevante al generar un prompt few-shot dentro de un campo.
Los prompts few-shot fueron regenerados cada vez cuando se necesitaron, por lo que si un artículo fue sometido cinco veces para un experimento few-shot de campo entonces usualmente tendría cinco combinaciones diferentes de artículos de una, dos, tres y cuatro estrellas pero por supuesto con máximo de dos artículos diferentes en general en cada uno de los niveles de estrella.
Resultados fundamentales: los modelos medianos compiten con gigantes
Todos los modelos de lenguaje de tamaño mediano dan correlaciones similares a los modelos de lenguaje basados en nube y, basándose en las estimaciones de intervalos de confianza, hay evidencia insuficiente para concluir que los modelos de lenguaje basados en nube son superiores para esta tarea en general. Las correlaciones oscilaron entre aproximadamente 0.35 y 0.50 cuando se promediaron a través de los seis campos para el estándar de puntuaciones individuales de artículos, y entre 0.25 y 0.45 para el estándar de promedios departamentales.
Los modelos de razonamiento Magistral Small, Qwen3 32b y DeepSeek R1 32b se desempeñaron bien pero no tienen ventaja clara sobre Llama4 Scout y Gemma3 27b de tamaño similar sin razonamiento. La conclusión no es afectada por la elección de estándar de oro. El patrón general es similar dentro de los campos individuales uno a seis, aunque con variaciones en magnitud absoluta de correlaciones que reflejan probablemente diferencias en cuán transparente es la calidad desde resúmenes en diferentes tradiciones disciplinarias.
ChatGPT 4o-mini, Gemini 2.0 Flash, Gemma 3 27b, Llama 4 Scout, Qwen3 32b, DeepSeek R1 32b y Magistral Small mostraron desempeños esencialmente comparables, con intervalos de confianza superpuestos indicando que diferencias entre modelos no son estadísticamente significativas en la mayoría de casos. Esto sugiere que para la tarea específica de evaluar calidad de investigación desde títulos y resúmenes, el tamaño masivo y presumiblemente la complejidad arquitectónica de los modelos de nube más grandes no confieren ventaja decisiva sobre modelos de aproximadamente 30 mil millones de parámetros.
La paradoja del tamaño: cuándo más pequeño es suficiente
Elegir un modelo de lenguaje más pequeño en una familia tiende a debilitar las correlaciones pero no sustancialmente, excepto para Gemma 3 1b. Así, el tamaño práctico mínimo para un modelo de lenguaje puede estar entre 4b y 1b, aunque el punto de corte puede ser diferente para familias de modelos de lenguaje distintas a Gemma 3. La conclusión no es afectada por la elección de estándar de oro.
Los patrones dentro de campos uno a seis son ampliamente consistentes con el patrón general, excepto que dentro de campos dos y cinco, correlaciones bajas sugieren que 4b podría ser demasiado pequeño. Gemma 3 12b mantuvo desempeño comparable a Gemma 3 27b en la mayoría de contextos, con correlaciones promedio que diferían por solo 0.003 puntos. Gemma 3 4b mostró desempeño aceptable en cuatro de seis campos con correlación promedio de 0.38 comparada con 0.42 para el modelo de 27b, pero exhibió correlaciones notablemente débiles en salud pública con 0.29 y ciencias biológicas con 0.32.
Gemma 3 1b falló consistentemente a través de todos los campos, produciendo correlaciones sustancialmente menores con promedio de solo 0.32 comparado con 0.42 para el modelo de 27b. Esto sugiere que mil millones de parámetros es generalmente insuficiente para la tarea. Las versiones de 8 mil millones de Qwen3 y DeepSeek R1 también mantuvieron desempeño razonable comparado con sus contrapartes de 32 mil millones, con correlación promedio de 0.42 comparada con 0.45, aunque con ligeras reducciones en correlaciones promedio.
La conclusión práctica es que modelos entre 8 y 12 mil millones de parámetros parecen representar un punto óptimo para esta tarea: suficientemente grandes para capturar los patrones necesarios para evaluación de calidad, suficientemente pequeños para ser prácticos en hardware modesto como GPUs de consumidor de gama alta o servidores departamentales modestos. Esta conclusión tiene implicaciones importantes para aplicaciones del mundo real donde confidencialidad impide uso de APIs en nube, o donde presupuestos no permiten costos de procesamiento a escala.
Few-shot: ayuda débil pero sugestiva
La estrategia few-shot probada aquí aumentó la correlación en 6 de 10 casos evaluados, 9 de 10 para los datos de puntuación promedio departamental, y a veces sustancialmente para Gemma 3 27b, Gemini 2.0 flash y DeepSeek R1 32b. Así, mientras la evidencia es débil, tiende a apoyar la estrategia few-shot. Los resultados pobres para Llama 4 pueden deberse a que a veces malinterpreta los ejemplos y clasifica los cinco títulos y resúmenes en lugar de solo el objetivo. Lo mismo ocurrió ocasionalmente para Mistral. Así, algunos modelos de lenguaje pueden ser menos capaces de aprovechar el método few-shot.
Un hallazgo inesperado es que few-shot no redujo sistemáticamente las puntuaciones promedio pese a incluir un ejemplo de artículo de una estrella en cada conjunto, ya que no había puntuaciones de una estrella dadas por los modelos de lenguaje. Lo mismo es cierto para artículos de dos estrellas dado que esta puntuación también fue rara. Sin embargo, la puntuación promedio few-shot no tendió a ser más baja que para el prompt zero-shot, por lo que esto no ocurrió sistemáticamente.
El prompt few-shot tendió a elicitar un rango más amplio de puntuaciones para cada artículo. Esto puede verse débilmente para Qwen 3 y en gran medida para Llama 4 en gráficos de violín incluidos en materiales suplementarios. Una posible explicación para el desempeño mejorado sugerido para el método few-shot es por lo tanto que la estrategia usada alteró los prompts para cada una de las cinco iteraciones promediadas y esta variedad de prompt adicional ayudó a generar un rango más amplio de puntuaciones para el mismo artículo. Esto puede ser un factor más poderoso que cualquier aprendizaje de las cuatro puntuaciones de artículo en cada caso.
Si los ejemplos few-shot no ayudaron a los modelos de lenguaje entonces esto sugiere que una técnica de efectivamente agregar ruido en un prompt puede ayudar a aumentar el valor de promediar puntuaciones de múltiples iteraciones de prompt de modelo de lenguaje mediante variedad de puntuación aumentada. Esta interpretación requiere investigación adicional para validación pero sugiere que el beneficio de few-shot puede operar mediante mecanismos diferentes de los asumidos tradicionalmente.
Promediado universal: la estrategia que siempre funciona
En todos los 16 contextos probados, promediar cinco puntuaciones de modelo de lenguaje da una correlación de Spearman más alta que tomar una sola puntuación. Así, la estrategia de promediado usada a lo largo de este artículo parece ser ampliamente efectiva. Esta conclusión no es afectada por la elección de estándar de oro. Las mejoras fueron consistentes y sustanciales, oscilando típicamente entre 0.03 y 0.08 en coeficiente de correlación de Spearman, representando mejoras relativas de 8 a 20 por ciento.
Esto no es sorprendente y se alinea con una hipótesis previa de que promediar múltiples puntuaciones de prompts idénticos es una manera de aprovechar información de probabilidad interna del modelo que se usa menos completamente si solo se toma una sola puntuación. Los modelos de lenguaje son inherentemente estocásticos, generando respuestas ligeramente diferentes para el mismo prompt exacto en ejecuciones sucesivas debido a muestreo probabilístico durante generación de texto. Esta variabilidad usualmente se considera un problema, pero mediante promediado se transforma en ventaja.
La hipótesis es que los modelos mantienen distribuciones de probabilidad internas sobre respuestas posibles, pero solo muestrean una respuesta en cada ejecución. Promediar múltiples muestras estima más confiablemente la media de esa distribución subyacente, capturando información que una sola muestra pierde. El patrón universal encontrado sugiere que esta propiedad es fundamental a cómo funcionan los modelos de lenguaje, no específica de arquitecturas o tamaños particulares.
Modelos de razonamiento: pensando sin ventaja clara
Aunque no abordado explícitamente en pregunta de investigación, los resultados dan oportunidad de comparar modelos nuevos de razonamiento y no razonamiento. Tenían desempeños similares para esta tarea y tenían tamaños similares, por lo que parece que el razonamiento no es necesario para puntuación de calidad de investigación desde títulos y resúmenes. No todas las tareas requieren razonamiento e incluso aunque puntuación de calidad de investigación es una tarea experta con reglas complejas, la información relativamente escasa en resúmenes puede resultar en un enfoque más intuitivo de correspondencia de patrones funcionando tan bien como razonamiento.
En otras palabras, incluso aunque las instrucciones son complejas, puede haber demasiado poco sobre qué razonar. Qwen 3 32b y DeepSeek R1 32b reportan razonamiento como parte de su output. La discusión en la sección de razonamiento parece reflejar primariamente factores que usualmente se incluyen en el reporte no de razonamiento, en lugar de basarse en una nueva estrategia. Algunas de las secciones de razonamiento fueron muy largas, pareciendo reexaminar repetidamente la tarea central sin hacer progreso. Así, no pareció haber una ventaja clara para razonamiento, al menos para los prompts estándar.
Un efecto secundario del razonamiento fue mayor dispersión de puntuaciones, como sugieren comparaciones de gráficos de violín de Qwen 3 32b y Llama 4 Scout, y comparaciones similares de gráficos de violín en materiales suplementarios. Los modelos de razonamiento también fueron aproximadamente 5 a 10 veces más lentos, lo cual es una consideración práctica sustancial que mitiga contra su uso en ausencia de ventaja clara. El output de razonamiento de Qwen3 32b y DeepSeek R1 32b para prompts few-shot da oportunidad de investigar cómo se interpretan ejemplos few-shot. Fueron frecuentemente usados explícitamente para benchmarking en las secciones de pensamiento de Qwen3, lo cual es correcto.
El modelo de razonamiento sin sección de razonamiento explícita en sus reportes, Magistral, a veces mencionó los artículos benchmark few-shot pero el modelo no pensante Gemma3 no pareció mencionar nunca el benchmarking. El Llama 4 Scout no pensante ocasionalmente mencionó los ejemplos, pero a veces interpretándolos incorrectamente. Las malinterpretaciones de Llama 4 Scout podrían involucrar puntuaciones benchmark incorrectas, ninguna puntuación benchmark few-shot fue fraccional, pero usualmente implicaron puntuar los artículos ejemplo así como el principal, por lo que pareció luchar con entender el prompt few-shot. DeepSeek R1 32b también malinterpretó el prompt al menos una vez.
Limitaciones reconocidas y cautelas importantes
Los resultados están limitados en múltiples dimensiones. El conjunto de datos es enfocado en Reino Unido y ambos estándares de oro son imperfectos: uno es indirecto, y el otro es subjetivo a un solo individuo. También cubre solo las ciencias de la vida y salud, aunque en el contexto de Reino Unido estas representaron 41 por ciento de artículos de revista en REF2021. Por supuesto, ciertamente hay diferencias disciplinarias en el valor de modelos de lenguaje para evaluación de investigación. Quizás más importante y frustrante, los intervalos de confianza son relativamente amplios comparados con las diferencias encontradas, pese a los tamaños de muestra de 500, por lo que las diferencias pueden ser artefactos de los conjuntos de datos usados.
Los modelos de lenguaje tienen arquitecturas diferentes incluso dentro de parámetros amplios como modelo de razonamiento y por lo que incluso diferencias estadísticamente significativas para un modelo pueden no transferirse a otro ostensiblemente similar. Otra limitación es que solo una sola métrica de desempeño ha sido reportada, correlación de Spearman, mientras que estudios de modelos de lenguaje usualmente incluyen un rango para dar información de desempeño más amplia. En el caso actual, dado que las puntuaciones individuales son inexactas, solo la correlación de rango es importante.
Los gráficos de violín revelan una limitación fundamental: incluso con promediado, las puntuaciones de modelos de lenguaje no coinciden con la escala humana y tienden a evitar valores mucho menores que tres estrellas. Los modelos raramente asignan puntuaciones de una o dos estrellas, concentrándose en el rango de tres a cuatro estrellas. Esto confirma que puntuaciones absolutas de modelos de lenguaje individuales son poco confiables. El valor principal del enfoque es ranking: ordenar artículos de mejor a peor, o identificar si un artículo dado está en el percentil superior. Para decisiones que requieren umbrales absolutos calibrados, los modelos de lenguaje actuales son inadecuados sin recalibración extensiva.
Implicaciones prácticas: cuándo y cómo usar modelos pequeños
Los hallazgos tienen consecuencias directas para aplicaciones del mundo real. La demostración de que modelos de 8 a 12 mil millones de parámetros funcionan comparablemente a gigantes basados en nube hace práctico el uso de evaluación por modelo de lenguaje en contextos previamente inviables. Universidades preocupadas por confidencialidad pueden ejecutar modelos localmente sin exponer datos de investigación sensibles a servicios de terceros. Esto es particularmente importante para evaluaciones de tenure, promoción, o contratación donde la privacidad de candidatos es crítica.
Departamentos con presupuestos limitados pueden evitar costos de APIs en nube ejecutando modelos en servidores departamentales o GPUs de consumidor de gama alta. Un modelo de 12 mil millones de parámetros puede ejecutarse en una GPU de consumidor moderna con 24 gigabytes de VRAM, hardware disponible por aproximadamente dos mil dólares y reutilizable para otras tareas computacionales. Investigadores en países con acceso restringido a servicios en nube estadounidenses pueden emplear modelos descargables sin depender de infraestructura externa.
La estrategia de promediado debe adoptarse universalmente: ejecutar el modelo cinco veces por artículo y promediar puntuaciones mejora resultados en todos los contextos evaluados. El costo computacional adicional es modesto comparado con el beneficio en calidad de evaluaciones. Para un modelo de 12 mil millones de parámetros procesando un resumen de 200 palabras, cada evaluación toma aproximadamente 5 a 10 segundos en hardware modesto, por lo que cinco evaluaciones requieren menos de un minuto por artículo. Para aplicaciones a gran escala de miles de artículos, este equilibrio puede ajustarse según recursos disponibles, pero el beneficio es suficientemente consistente que vale la pena en casi todos los escenarios.
La estrategia few-shot merece exploración adicional. Aunque la evidencia de beneficio fue equívoca, mejoró resultados más frecuentemente que los empeoró. Experimentos con diferentes números de ejemplos, diferentes formas de presentar resultados, o selección cuidadosa de ejemplos representativos podrían fortalecer el enfoque. La cautela es que algunos modelos como Llama 4 tienen dificultad interpretando el formato, requiriendo validación por modelo antes de despliegue a escala.
Los modelos de razonamiento no ofrecen ventaja clara para esta tarea específica, pero son 5 a 10 veces más lentos que modelos convencionales. Para evaluación de investigación desde resúmenes, donde información disponible es limitada, los modelos convencionales parecen más prácticos. El razonamiento explícito podría ser más valioso con textos completos donde hay más material metodológico para analizar detalladamente, o en tareas que requieren seguir cadenas largas de inferencia lógica. Esto requiere investigación futura para validación.
Contexto en investigación evaluativa: métricas versus juicio
El trabajo se inscribe en tensión histórica entre cuantificación y juicio cualitativo en evaluación científica. Durante décadas, la comunidad académica ha debatido el rol apropiado de métricas en evaluación de investigación. El Manifiesto de Leiden de 2015 articuló principios para uso responsable de indicadores, enfatizando que métricas deben apoyar, no reemplazar, juicio experto cualificado. Los diez principios incluyen recordatorios de que evaluación cuantitativa debe apoyar evaluación cualitativa experta, que los indicadores deben ser transparentes y verificables, y que ningún indicador único puede capturar toda la complejidad del desempeño de investigación.
Los indicadores bibliométricos ofrecen objetividad y escalabilidad pero capturan solo dimensiones parciales de calidad. Las citas miden influencia pero no rigor metodológico. El factor de impacto de revista ignora heterogeneidad masiva dentro de publicaciones individuales, donde un artículo altamente citado puede elevar artificialmente la reputación de una revista sin que otros artículos en la misma edición tengan mérito similar. El índice h favorece carreras largas sobre contribuciones recientes potencialmente transformadoras. Cada métrica tiene sesgos documentados: favorecer campos grandes sobre especializados, investigación aplicada sobre básica, trabajos en inglés sobre otros idiomas, autores de países centrales sobre periféricos.
Los modelos de lenguaje representan tercer enfoque que combina elementos de ambos extremos. Como métricas, son escalables, reproducibles, y pueden procesar miles de artículos sistemáticamente. Como juicio experto, interpretan contenido semántico, consideran múltiples dimensiones de calidad simultáneamente, y pueden adaptarse a contextos disciplinarios específicos mediante prompts apropiados. Pero también introducen opacidades nuevas: los mecanismos mediante los cuales evalúan son fundamentalmente opacos, pueden heredar sesgos de datos de entrenamiento de maneras difíciles de detectar, y carecen de la responsabilidad y contexto profesional que caracteriza juicio experto humano.
La posición apropiada para modelos de lenguaje en evaluación de investigación probablemente es complementaria en lugar de sustitutiva. Pueden filtrar grandes volúmenes de publicaciones identificando candidatos prometedores para revisión humana detallada, reduciendo la carga de trabajo en evaluadores expertos. Pueden proporcionar segundas opiniones cuando juicios humanos son ambiguos o cuando evaluadores están indecisos. Pueden ayudar a calibrar evaluadores humanos mostrando cómo artículos similares fueron evaluados previamente, proporcionando punto de referencia externo. Pero difícilmente deben reemplazar completamente juicio experto para decisiones de alta consecuencia como tenure, grandes subvenciones, o evaluaciones nacionales de investigación.
Direcciones futuras: preguntas pendientes
Múltiples direcciones de investigación emergen de estos hallazgos. La relación entre tamaño de modelo y capacidad de evaluación fue explorada sistemáticamente solo para la familia Gemma. Los umbrales de 4 a 12 mil millones de parámetros identificados son universales a través de familias de modelos, o específicos de arquitectura y datos de entrenamiento de Gemma? Evaluaciones sistemáticas de familias adicionales como variantes de Llama, diferentes generaciones de Qwen, o futuras versiones de Claude y GPT clarificarían esta cuestión fundamental.
El estudio usó exclusivamente resúmenes de artículos. Investigación previa sugirió que textos completos no mejoran sustancialmente resultados para modelos como ChatGPT, pero esto merece verificación más exhaustiva especialmente para modelos de razonamiento. Los modelos de razonamiento podrían mostrar ventajas con textos completos donde hay material metodológico sustancial para analizar paso a paso. La comparación directa de resumen versus texto completo a través de múltiples modelos, tamaños, y estrategias de prompting sería valiosa para determinar cuándo el costo adicional de procesar textos completos se justifica.
Las estrategias de prompting exploradas fueron limitadas a zero-shot y few-shot estándar. Variaciones en cómo se presentan instrucciones, cuánto contexto se proporciona sobre el campo o revista específicos, si se solicitan justificaciones explícitas antes de puntuaciones numéricas, si se pide al modelo identificar debilidades específicas o comparar con trabajos de referencia, y cómo se estructura el output deseado, todas podrían afectar resultados. El espacio de diseño de prompts es vasto y solo se exploró una fracción pequeña. Prompts que incorporan información sobre normas del campo, expectativas de revistas específicas, o contexto sobre trayectorias de investigación podrían mejorar desempeño.
El ajuste fino, donde se entrena un modelo con grandes cantidades de ejemplos etiquetados para especializarlo en la tarea, no fue explorado en el estudio actual. Un estudio previo encontró solo capacidad débil tras ajuste fino con 15.000 artículos biomédicos, con kappa de Cohen de apenas 0.059, pero diferentes estrategias de ajuste fino, arquitecturas de modelo, o datasets de entrenamiento más diversos y de mayor calidad podrían funcionar mejor. El equilibrio entre el costo sustancial de crear datos de entrenamiento de alta calidad con puntuaciones expertas confiables, y el beneficio de desempeño mejorado del modelo ajustado finamente, requiere investigación económica y técnica.
Los diseños basados en agentes, donde múltiples instancias de modelos de lenguaje con diferentes roles debaten o colaboran para alcanzar evaluaciones consensuadas, representan otra frontera prometedora. Un agente podría especializarse en evaluar metodología, otro en originalidad conceptual, otro en significancia práctica o teórica, con un cuarto agente integrando estas perspectivas especializadas en evaluación holística. Alternativamente, agentes podrían tomar roles de revisores con diferentes expertises disciplinarias, simulando el proceso de panel de evaluación del REF. Estas configuraciones más complejas podrían capturar mejor la complejidad multidimensional de revisión por pares humana, pero introducen costos computacionales y desafíos de diseño adicionales.
Finalmente, la extensión a campos fuera de ciencias de la vida y salud es crítica para validación externa. Humanidades donde interpretación textual es central, artes donde criterios estéticos dominan, matemáticas donde rigor formal es todo, ciencias sociales teóricas donde marcos conceptuales complejos son fundamentales, cada una presenta desafíos distintos. La evaluación de investigación altamente matemática puede requerir capacidades simbólicas que modelos de lenguaje actuales no poseen completamente. La evaluación de investigación altamente interpretativa puede requerir comprensión cultural y contextual profunda. Solo pruebas empíricas extensivas determinarán límites de aplicabilidad y dónde adaptaciones específicas de dominio son necesarias.
Capacidades emergentes en modelos compactos
El resultado más sorprendente del estudio es quizá la ausencia de sorpresas dramáticas. Modelos de 8 a 12 mil millones de parámetros funcionan comparablemente a gigantes de cientos de miles de millones o potencialmente billones de parámetros para esta tarea experta compleja. Modelos de razonamiento entrenados específicamente para pensar paso a paso antes de responder no superan consistentemente modelos convencionales que generan respuestas directamente. Estrategias aparentemente sofisticadas como few-shot con ejemplos cuidadosamente seleccionados producen beneficios modestos e inconsistentes que pueden operar mediante mecanismos diferentes de los asumidos.
Estos resultados contrastan con narrativas comunes sobre modelos de lenguaje donde más grande es uniformemente mejor, y capacidades avanzadas requieren arquitecturas especializadas o tamaños masivos. Para evaluación de calidad de investigación desde resúmenes, al menos, la capacidad parece estar ampliamente distribuida a través de modelos de tamaños moderados. Esto sugiere que la tarea, aunque experta y subjetiva cuando realizada por humanos, no requiere el tipo de razonamiento profundo multi-paso o conocimiento enciclopédico exhaustivo que solo los modelos más grandes poseen.
Alternativamente, la tarea puede depender principalmente de reconocimiento de patrones sobre qué constituye investigación de alta calidad, patrones que modelos de tamaño moderado capturan adecuadamente de sus datos de entrenamiento que incluyen vastas cantidades de literatura científica. La evaluación de resúmenes proporciona información relativamente escasa comparada con evaluación de textos metodológicos completos de 30 o 40 páginas, limitando cuánto razonamiento complejo puede aplicarse productivamente. El resumen típicamente presenta conclusiones principales y hallazgos clave pero omite detalles metodológicos finos donde razonamiento experto profundo sería más valioso.
Una implicación más amplia es que capacidades consideradas prerrogativas de modelos de frontera más grandes pueden distribuirse más ampliamente de lo anticipado. A medida que arquitecturas mejoran mediante innovaciones como mezcla de expertos o atención eficiente, técnicas de entrenamiento se refinan mediante currículos de aprendizaje mejorados o datos sintéticos de alta calidad, y destilación de conocimiento transfiere capacidades de modelos gigantes a versiones compactas mediante entrenamiento cuidadoso, el umbral de tamaño para competencia en tareas específicas puede continuar bajando.
Esto democratiza acceso a capacidades de inteligencia artificial de maneras profundas. Organizaciones sin presupuestos para procesamiento masivo en nube o licencias costosas de APIs, países sin acceso irrestricto a servicios estadounidenses debido a restricciones regulatorias o geopolíticas, investigadores preocupados por confidencialidad de datos sensibles o propiedad intelectual, instituciones en regiones con conectividad de internet limitada, todos pueden aprovechar modelos ejecutables localmente en hardware modesto para aplicaciones que previamente requerían sistemas mayores accesibles solo mediante plataformas comerciales.
El panorama de aplicaciones prácticas de modelos de lenguaje se expande dramáticamente cuando modelos compactos prueban ser suficientes. Esto no solo reduce barreras financieras sino también técnicas: ejecutar un modelo de 12 mil millones de parámetros requiere conocimiento técnico modesto comparado con orquestar sistemas distribuidos para modelos de cientos de miles de millones de parámetros. Esto hace la tecnología accesible a rango más amplio de usuarios potenciales más allá de equipos técnicos especializados en organizaciones grandes.
En última instancia, el estudio refuerza una lección fundamental sobre tecnología de inteligencia artificial que frecuentemente se olvida en ciclos de hype: la relación entre capacidad de modelo y desempeño en tarea es compleja, no lineal, altamente dependiente de la tarea específica, y frecuentemente sorprendente. Asumir que más grande es uniformemente mejor, o que capacidades avanzadas como razonamiento siempre añaden valor, conduce a soluciones sobredimensionadas que desperdician recursos computacionales y excluyen innecesariamente usuarios con recursos limitados.
El análisis empírico cuidadoso de qué funciona para qué aplicaciones, considerando no solo desempeño en métricas de evaluación sino también costo computacional, velocidad de procesamiento, requisitos de hardware, facilidad de despliegue, y practicidad para usuarios finales, es esencial para despliegue responsable y efectivo de estas tecnologías. El campo de inteligencia artificial beneficiaría de más estudios que mapean sistemáticamente requisitos de tareas a capacidades de modelos, identificando dónde modelos pequeños son suficientes y dónde modelos masivos son genuinamente necesarios.
Referencias
Thelwall, M., & Mohammadi, E. (2025). Can Small and Reasoning Large Language Models Score Journal Articles for Research Quality and Do Averaging and Few-shot Help? arXiv:2510.22389v1. University of Sheffield y University of South Carolina. https://arxiv.org/pdf/2510.22389
Thelwall, M., & Yaghi, A. (2025). In which fields can ChatGPT detect journal article quality? An evaluation of REF2021 results. Trends in Information Management, 13(1), 1-29.
Thelwall, M. (2024). Can ChatGPT evaluate research quality? Journal of Data and Information Science, 9(2), 1-21.
Thelwall, M. (2025a). Can smaller large language models evaluate research quality? arXiv preprint arXiv:2508.07196.
Thelwall, M. (2025b). Is Google Gemini better than ChatGPT at evaluating research quality? Journal of Data and Information Science, 10(2), 1-5.
Thelwall, M. (2025c). Evaluating research quality with Large Language Models: An analysis of ChatGPT's effectiveness with different settings and inputs. Journal of Data and Information Science, 10(1), 7-25.
Wu, W., Zhang, Y., Haunschild, R., & Bornmann, L. (2025). Leveraging Large Language Models for post-publication peer review: Potential and limitations. 20th International Conference On Scientometrics & Informetrics, 1176-1195.
Guo, D., Yang, D., Zhang, H., Song, J., Zhang, R., Xu, R., & He, Y. (2025). DeepSeek-R1: Incentivizing reasoning capability in LLMs via reinforcement learning. arXiv preprint arXiv:2501.12948.
Liu, A., Feng, B., Xue, B., Wang, B., Wu, B., Lu, C., & Piao, Y. (2024). DeepSeek-V3 technical report. arXiv preprint arXiv:2412.19437.
Rastogi, A., et al. (2025). Magistral. arXiv preprint arXiv:2506.10910.
Wei, J., Tay, Y., Bommasani, R., et al. (2022). Emergent Abilities of Large Language Models. Transactions on Machine Learning Research.
Wilsdon, J., Allen, L., Belfiore, E., et al. (2015). The Metric Tide: Report of the independent review of the role of metrics in research assessment and management.
REF2021. (2019). Panel criteria and working methods. Research Excellence Framework 2021.
Sardana, N., Portes, J., Doubov, S., & Frankle, J. (2023). Beyond Chinchilla-optimal: Accounting for inference in language model scaling laws. arXiv preprint arXiv:2401.00448.
Berti, L., Giorgi, F., & Kasneci, G. (2025). Emergent abilities in large language models: A survey. arXiv preprint arXiv:2503.05788.



