Suscríbete a MUNDO IA

CreBench: la primera métrica capaz de cuantificar el proceso creativo humano

Generated Image November 20, 2025 - 1_00AM

CreBench: la primera métrica capaz de cuantificar el proceso creativo humano

El acto de crear siempre se ha considerado el rasgo distintivo de nuestra especie, una alquimia mental inalcanzable para los autómatas. Sin embargo, la llegada de los modelos generativos ha desdibujado esa línea divisoria, inundando el mundo con textos e imágenes sintéticas de una calidad técnica indistinguible de la humana. Pero, ¿es esta producción masiva sinónimo de creatividad real? Mientras nos maravillamos ante la capacidad de una IA para imitar estilos y fusionar conceptos, pasamos por alto una carencia fundamental: estos sistemas operan sin una comprensión genuina del valor de sus propias creaciones. Son virtuosos de la ejecución, pero ignorantes del juicio. Los modelos actuales pueden generar una sinfonía o un poema en segundos, pero carecen del compás interno necesario para distinguir una obra maestra de una derivación mediocre.

Pero en medio de este torrente de logros técnicos y demostraciones virales, una pregunta fundamental persiste, una que se sitúa en la frontera misma de la inteligencia y la conciencia: ¿son verdaderamente creativos? ¿O son, como sostienen algunos críticos escépticos, simplemente los loros estocásticos más sofisticados de la historia, remezclando probabilísticamente el vasto océano de datos humanos en los que fueron entrenados sin una verdadera chispa de ingenio? Nos hemos maravillado con el producto final de la IA, con la imagen fotorrealista generada a partir de una frase absurda o el poema que imita a la perfección el estilo de un autor fallecido hace siglos. Sin embargo, la creatividad humana es mucho más que el artefacto final que se cuelga en una galería o se publica en un libro. Es un fenómeno profundamente complejo, un proceso dinámico que comienza con la chispa de una idea original, atraviesa un viaje a menudo caótico y no lineal de exploración, divergencia y refinamiento, y solo entonces culmina en un producto tangible.

El problema es profundo y tiene implicaciones que van más allá de lo académico. Si aspiramos a construir sistemas de IA que no solo sean herramientas pasivas de automatización, sino verdaderos colaboradores creativos capaces de trabajar codo a codo con diseñadores, científicos y artistas, estos sistemas deben ser capaces de entender este proceso en su totalidad. Deben comprender por qué una idea es novedosa en su contexto y, al mismo tiempo, adecuada para resolver un problema. Deben poder valorar el proceso de exploración divergente, la valentía de probar caminos inexplorados, no solo la pulcritud del resultado final. Y hasta ahora, no teníamos un lenguaje común para enseñarles esto. No existía una vara de medir fiable, un punto de referencia o benchmark capaz de cuantificar algo tan abstracto, subjetivo y multidimensional como el ingenio humano. Los baremos existentes son excelentes para medir la precisión objetiva, como identificar correctamente un objeto en una foto, pero fracasan estrepitosamente al intentar juzgar la imaginación o la originalidad.

Este es el desafío monumental que aborda un equipo de investigadores de instituciones de prestigio como la Universidad de Correos y Telecomunicaciones de Beijing y la Universidad de Southampton. En su trabajo reciente, titulado CreBench: Human-Aligned Creativity Evaluation from Idea to Process to Product, proponen una solución que es a la vez elegante en su concepción teórica y masiva en su ejecución técnica. Han desarrollado lo que podría considerarse la Piedra de Rosetta para la creatividad computacional, un puente entre la intuición humana y el procesamiento de máquinas.

Su contribución no es singular, sino que se compone de dos piezas fundamentales que trabajan en tándem. La primera es CreBench, un marco de evaluación sin precedentes por su profundidad. Es una rúbrica detallada y multidimensional, fundamentada en décadas de investigación en ciencia cognitiva y teoría del diseño, que descompone el acto creativo en doce indicadores tangibles y medibles. Este marco no se limita a juzgar la obra terminada; proporciona un método riguroso para evaluar la calidad de la idea conceptual inicial, la riqueza del proceso de desarrollo y la eficacia del producto final.

El porqué de una nueva métrica

La revolución de la inteligencia artificial se ha construido sobre la base de la medición precisa. Los avances se miden con baremos estandarizados y universales. En el procesamiento del lenguaje natural, métricas como BLEU o ROUGE evalúan la similitud de una traducción automática con una humana contando coincidencias de palabras. En visión por computador, la precisión en bases de datos masivas como ImageNet mide cuántas veces el modelo identifica correctamente un objeto, ya sea un gato o un coche. Estos sistemas funcionan excepcionalmente bien para sus propósitos. Proporcionan un objetivo claro y numérico para los ingenieros y una forma inequívoca de cuantificar el progreso técnico año tras año.

El problema surge insidiosamente cuando el objetivo deja de ser la precisión objetiva y pasa a ser la calidad subjetiva. La creatividad es, por definición, un problema abierto. No hay una única respuesta correcta. No existe una verdad fundamental o ground truth indiscutible para una tarea como "diseña una herramienta novedosa para ayudar a un conejo a saltar una valla", uno de los problemas planteados en este estudio. La solución podría ser un trampolín mecánico, un sistema de poleas complejo, un túnel subterráneo o algo que nadie ha imaginado todavía. Todas podrían ser válidas, pero algunas son indudablemente más creativas que otras.

Los intentos anteriores de medir la creatividad de la IA han sido insuficientes y a menudo simplistas. Algunos investigadores se han centrado en la estética, entrenando modelos para predecir qué imágenes encontrarán bellas los humanos basándose en la composición o el color. Otros han medido la diversidad estadística de las respuestas generadas. Pero la estética no es sinónimo de creatividad, y la diversidad por sí sola no es útil; el caos es diverso pero raramente útil. Una solución puede ser diversa y novedosa, pero completamente inapropiada para el problema o físicamente imposible. La verdadera creatividad, como han argumentado los teóricos y psicólogos durante mucho tiempo, se encuentra en la delicada intersección de la novedad (originalidad) y la utilidad (adecuación).

Aquí es donde el equipo de investigación identificó una brecha crítica en el estado del arte. Los MLLMs actuales, a pesar de su inmenso poder de cálculo, están ciegos a esta intersección vital. Cuando se les pide que evalúen una solución creativa, sus juicios a menudo no se correlacionan en absoluto con los de los evaluadores humanos expertos. Carecen de un marco de referencia interno para el ingenio. Si queremos que la IA nos ayude a innovar, primero debemos enseñarle qué significa innovar para nosotros los humanos. Necesitábamos una nueva métrica, una que no solo contara aciertos y errores binarios, sino que apreciara el matiz, el contexto y la originalidad de una propuesta.

Anatomía de la creatividad

El corazón de la propuesta de CreBench es su sofisticado marco de evaluación. Los investigadores no intentaron reinventar la rueda partiendo de cero; en su lugar, sintetizaron décadas de investigación académica en psicología cognitiva, teoría del diseño e ingeniería para construir un modelo holístico y robusto. Descompusieron el concepto etéreo de creatividad en tres dimensiones fundamentales, que a su vez se subdividen en doce indicadores específicos. Cada indicador se evalúa mediante una rúbrica de cinco puntos, anclada en comportamientos observables, lo que permite una puntuación matizada y consistente que reduce la subjetividad.

Idea Creativa

Calidad Conceptual

  • Originalidad
  • Adecuación

Proceso Creativo

Dinámica Cognitiva

  • Inmersión / Preparación
  • Divergencia
  • Estructuración
  • Evaluación
  • Elaboración

Producto Creativo

Resultado Tangible

  • Efectividad
  • Estética
  • Novedad
  • Fabricabilidad
  • Complejidad Sistémica

La primera dimensión es la Idea Creativa. Esta evalúa la calidad conceptual de la solución, la chispa inicial antes de cualquier implementación. Se compone de dos indicadores clave: Originalidad, que mide la novedad y la divergencia de la idea respecto a las soluciones convencionales o esperadas (una puntuación alta se otorga a conceptos inesperados o híbridos, mientras que una baja se da a ideas genéricas que replican soluciones comunes); y Adecuación, que evalúa la relevancia, viabilidad y alineación de la idea con los requisitos del problema planteado. Una idea puede ser extremadamente original, como un teletransportador cuántico para el conejo, pero si no es factible o relevante para el contexto físico, su adecuación es baja. Este indicador garantiza que la originalidad esté siempre anclada a un propósito útil.

La segunda dimensión, y quizás la más innovadora y distintiva del estudio, es el Proceso Creativo. Aquí es donde el marco captura la dinámica cognitiva en acción, el cómo del ingenio, algo que la inmensa mayoría de las evaluaciones de IA ignoran por completo al centrarse solo en el output. Esta dimensión se divide en cinco indicadores: Inmersión/Preparación (¿El participante reflexionó, observó y planificó estratégicamente antes de actuar?), Divergencia (La generación de ideas variadas y experimentales; ¿se exploraron múltiples caminos o se aferró a la primera opción?), Estructuración (La integración intencional de los elementos visuales y conceptuales en una composición coherente), Evaluación (El compromiso continuo en valorar y refinar las propias ideas durante el proceso) y Elaboración (La atención al detalle y el refinamiento expresivo en el resultado).

La tercera y última dimensión es el Producto Creativo. Este es el artefacto final, el dibujo o diseño tangible que resulta del proceso. A diferencia de otras evaluaciones superficiales, no se juzga de forma aislada, sino como la culminación de la idea y el proceso previos. Sus cinco indicadores son: Efectividad (¿Cuán clara y coherentemente comunica el dibujo la solución propuesta?), Estética (El atractivo visual y el equilibrio de la composición), Novedad (La originalidad tal como se manifiesta en la forma final, distinta de la idea abstracta), Fabricabilidad (La viabilidad del producto en el mundo real; ¿podría construirse con las leyes de la física actuales?) y Complejidad Sistémica (La integración de múltiples componentes funcionales en un sistema coherente e interdependiente).

Creando el conjunto de datos

Tener un mapa detallado (la rúbrica) es inútil sin un territorio que explorar (los datos). El siguiente paso crucial del equipo fue crear un conjunto de datos multimodal que sirviera como material de entrenamiento para la IA. Para ello, diseñaron un experimento ambicioso que capturaría el proceso creativo humano en acción real.

2.2K
Instancias Creativas
79.2K
Evaluaciones Humanas
4.7M
Instrucciones de Ajuste

Definieron cuatro tareas de diseño abiertas y realistas, específicamente diseñadas para provocar respuestas diversas y no rutinarias, evitando problemas con una única solución correcta. Los ejemplos incluían tareas como diseñar una herramienta para transportar carga a través de un río o diseñar una estructura para aparcar bicicletas y patinetes de forma segura. Estas tareas requerían no solo una idea abstracta, sino un diseño visual concreto y funcional.

Distribución de Tareas de Diseño

Diversidad de Instrucciones (Prompts)

Reclutaron a 512 estudiantes de secundaria, asegurando una diversidad demográfica y cognitiva representativa. Cada participante completó tres de las tareas creativas propuestas. Crucialmente, el sistema de recolección de datos era multimodal: no solo guardaba el resultado final, sino que registraba las ideas textuales de los estudiantes, los registros de comportamiento detallados (el proceso paso a paso, como los movimientos del ratón, los borrados o los cambios de herramientas) y los productos visuales finales (sus dibujos). Esto generó una colección rica de 2,200 instancias creativas, cada una con un rastro completo desde la concepción hasta la finalización.

El siguiente paso fue fundamental para el objetivo de alineación humana. Los investigadores emplearon la Técnica de Evaluación Consensuada (CAT), un método estándar de oro en la investigación de la creatividad. Reclutaron a tres expertos en creatividad educativa, los entrenaron exhaustivamente en el uso de la nueva rúbrica de doce indicadores y les pidieron que evaluaran de forma independiente todas las soluciones generadas por los estudiantes (y también algunas generadas por IA, para ampliar la diversidad del conjunto de datos).

Este proceso fue riguroso y exhaustivo. Los expertos pasaron por sesiones de calibración para asegurar que sus juicios estuvieran alineados bajo los mismos criterios, y la fiabilidad entre evaluadores se midió estadísticamente, demostrando un acuerdo sustancial. No se trataba de una opinión casual o subjetiva; era un análisis experto, sistemático y cuantificado. Este esfuerzo titánico de anotación humana generó 79,200 puntos de retroalimentación individuales. Este conjunto de datos, que vincula problemas abiertos con soluciones multimodales y juicios humanos expertos y granulares, es en sí mismo una contribución científica significativa al campo.

CreMIT y el nacimiento de CreExpert

Con los datos en la mano, el equipo se enfrentó al desafío final de ingeniería: ¿cómo usar estos 79,200 puntos de retroalimentación humana para enseñar a un modelo de IA? El conjunto de datos, bautizado como CreMIT, necesitaba ser transformado de una base de datos estática de puntuaciones en un plan de estudios interactivo y dinámico.

1. Preparación
Captura multimodal de ideas y procesos
2. Evaluación
Expertos aplican la rúbrica CreBench
3. Generación
Creación de 4.7M de instrucciones

Utilizaron una técnica avanzada conocida como ajuste fino de instrucciones (instruction tuning). Para ello, recurrieron a un modelo de IA muy capaz (GPT-4O) no como un evaluador final, sino como un generador de material didáctico intermedio. Alimentaron a GPT-4O con la retroalimentación cruda de los expertos y le pidieron que generara millones de pares de pregunta-respuesta que un modelo en entrenamiento pudiera usar para aprender a razonar. Este proceso amplificó los 79,200 puntos de retroalimentación originales en unos asombrosos 4.7 millones de muestras de instrucción diversas.

Estas instrucciones no eran simples pares de entrada-salida. Para asegurar que el modelo aprendiera a razonar profundamente sobre la creatividad, diseñaron seis tipos de consultas complementarias: Estilo Razonamiento ("La idea recibió una puntuación de 4... ¿Podrías explicar por qué fue calificada de esta manera?"), Estilo Qué ("¿Cuáles son las características clave que contribuyen a su originalidad?"), Estilo Cómo, Estilo Por qué, Estilo Sí/No y Estilo Opción Múltiple. Este plan de estudios multifacético enseña al modelo no solo a asignar un número ciegamente, sino a justificar sus evaluaciones, a descomponer sus razonamientos y a articularlos en lenguaje natural, exactamente como lo haría un profesor experto.

Armados con CreMIT, los investigadores tomaron un modelo de código abierto competente, LLaVA-1.5 (un Modelo de Lenguaje Multimodal conocido por su capacidad para conectar visión y lenguaje), y lo sometieron a este campamento de entrenamiento intensivo. Este proceso de ajuste fino (fine-tuning) transformó el modelo base. Es análogo a tomar a un médico generalista con amplios conocimientos y someterlo a una residencia hiperespecializada en neurología. El modelo base ya sabía ver imágenes y hablar; el conjunto CreMIT le enseñó a juzgar y criticar la creatividad con criterio humano.

El resultado de este proceso es CreExpert. Un modelo de IA que, aunque construido sobre una base de propósito general, se ha transformado en un especialista de alto nivel. Es un experto en evaluación de la creatividad alineado con los humanos, entrenado en el conjunto de datos más completo y granular de su tipo jamás creado.

La prueba del experto: Resultados

La pregunta final y más importante, por supuesto, era: ¿funciona realmente? El equipo puso a prueba a CreExpert contra una formidable alineación de once de los MLLMs más avanzados disponibles en el mercado, incluyendo los modelos propietarios de caja negra que dominan la industria, como GPT-4V y Gemini-Pro-Vision, así como otros modelos de código abierto destacados.

Rendimiento General: Alineación Humana

Correlación porcentual con jueces expertos

Los resultados, presentados detalladamente en el estudio, no son solo una mejora incremental o marginal; son una revelación estadística. En la métrica general de correlación con los juicios de los expertos humanos, CreExpert logró una puntuación de 65.50%. Para poner esto en perspectiva, el siguiente competidor más cercano, el poderoso y omnipresente GPT-4V, obtuvo solo un 29.27%. Los demás modelos, incluido el modelo base LLaVA-1.5 (que obtuvo un 20.57%), quedaron muy por detrás, demostrando una incapacidad casi total para alinearse con la percepción humana de la creatividad.

Esto demuestra de manera concluyente que un modelo de propósito general, por muy grande y potente que sea, no está intrínsecamente equipado para manejar tareas de juicio subjetivo y abstracto como la evaluación de la creatividad sin un entrenamiento específico. En cambio, un modelo más pequeño, pero especializado y entrenado en un conjunto de datos de alta calidad y alineado con los humanos, lo supera de manera aplastante en su dominio de especialización.

Dominio por Dimensión (CreExpert vs GPT-4V)

Comparativa directa en los 3 ejes principales

Análisis de los 12 Indicadores

Cobertura del modelo especializado (Verde) vs Base (Naranja)

El análisis detallado de los datos es aún más revelador sobre la naturaleza de esta mejora. En la evaluación de la Idea Creativa, CreExpert mostró las ganancias más espectaculares, con mejoras de más del 60% sobre el modelo base en indicadores críticos como Originalidad. Esto sugiere que el modelo aprendió efectivamente a identificar y valorar la novedad conceptual tanto en el texto como en los bocetos preliminares.

En la evaluación del Proceso Creativo, también se observaron mejoras masivas, especialmente en los indicadores de Inmersión/Preparación y Divergencia. Esto indica que el modelo aprendió a inferir los procesos cognitivos subyacentes a partir de los registros de comportamiento, una hazaña notable considerando que estos procesos son invisibles en el producto final.

En la evaluación del Producto Creativo, las mejoras fueron más modestas en comparación, pero aún consistentes y significativas, destacando en Novedad y Complejidad Sistémica. Esto subraya la dificultad inherente de juzgar el producto final de manera objetiva, incluso para un modelo especializado, pero aun así demuestra una ventaja clara sobre los modelos generalistas que a menudo confunden estética con creatividad.

Los hallazgos son inequívocos y contundentes. CreBench y CreMIT no son solo un ejercicio académico abstracto; son las herramientas prácticas que han permitido la creación de una IA con una comprensión de la creatividad humana demostrablemente superior a todo lo existente hasta la fecha.

El significado de una máquina que juzga

El trabajo presentado en CreBench marca un hito significativo en la historia de la inteligencia artificial. Su importancia trasciende la informática pura y se adentra en el corazón de nuestras interacciones futuras con la tecnología. Estamos en la cúspide de una nueva era en la que la IA no será simplemente una herramienta pasiva que espera órdenes, sino un socio activo en el descubrimiento científico, el diseño de ingeniería, la arquitectura y la expresión artística. Para que esa asociación sea verdaderamente fructífera y colaborativa, necesitamos desesperadamente que nuestros socios de IA entiendan nuestros objetivos, no solo al nivel de una instrucción literal, sino al nivel de la intención, el matiz y el ingenio.

Un sistema como CreExpert prefigura una nueva generación de herramientas creativas asistidas por IA. Imaginemos un software de diseño asistido por computadora (CAD) que no solo ejecuta comandos de dibujo, sino que ofrece retroalimentación significativa y contextual: "Esa es una solución eficaz estructuralmente, pero carece de originalidad en comparación con las tendencias actuales. ¿Has considerado explorar un mecanismo divergente, como este enfoque biomimético?". O imaginemos una herramienta educativa para estudiantes de arte o ingeniería que no solo califica un proyecto con una nota final, sino que desglosa su evaluación en las mismas doce dimensiones detalladas que usaría un profesor experto, fomentando una comprensión más profunda del propio proceso creativo del estudiante.

A nivel científico y metodológico, la estrategia detrás de CreBench ofrece un plan maestro replicable. El proceso de identificar un concepto humano abstracto y complejo, descomponerlo en un marco teórico riguroso, recopilar juicios humanos expertos a gran escala y luego usar esos juicios para ajustar finamente un modelo especializado, podría aplicarse a otros dominios subjetivos que actualmente eluden a la IA. Conceptos profundamente humanos como la empatía en la medicina, el juicio ético en el derecho, el humor en la escritura o incluso la capacidad de persuasión en la retórica podrían, en teoría, enseñarse a las máquinas utilizando un enfoque similar.

Por supuesto, este trabajo es un primer paso sólido y prometedor, no la respuesta final y definitiva. Los propios autores señalan con honestidad científica las limitaciones de su estudio, como la dependencia de un conjunto específico de tareas de diseño y un grupo concreto de evaluadores. Pero es un paso gigante que nos aleja de la simple imitación estocástica y nos acerca a la comprensión genuina.

Hasta ahora, hemos tratado a la IA principalmente como un generador prodigioso, un motor de fuerza bruta para la producción masiva de contenido. CreBench nos invita a verla bajo una nueva luz: como un potencial conocedor, un crítico y un guía. Al crear un espejo digital de nuestros propios procesos de juicio creativo, hemos abierto la puerta para que la inteligencia artificial no solo imite nuestros productos, sino que comience a comprender los principios fundamentales de la creatividad misma. Hemos comenzado a enseñarle a la máquina no solo a pintar, sino a entender profundamente por qué una pintura es valorada por el espíritu humano.

Referencias

  • Achiam, J.; Adler, S.; et al. 2023. Gpt-4 technical report. arXiv preprint arXiv:2303.08774.
  • Boden, M. A. 2004. The creative mind: Myths and mechanisms. Routledge.
  • Christensen, B. T.; and Ball, L. J. 2016. Dimensions of creative evaluation. Design studies, 45: 116-136.
  • Howard, T. J.; Culley, S. J.; and Dekoninck, E. 2008. Describing the creative design process. Design studies, 29(2): 160-180.
  • Liu, H.; Li, C.; Wu, Q.; and Lee, Y. J. 2023. Visual instruction tuning. Advances in neural information processing systems, 36: 34892-34916.
  • Runco, M. A.; and Jaeger, G. J. 2012. The standard definition of creativity. Creativity research journal, 24(1): 92-96.
  • Xue, K., et al. 2025. CreBench: Human-Aligned Creativity Evaluation from Idea to Process to Product. arXiv preprint arXiv:2511.13626v1 https://arxiv.org/pdf/2511.13626

Publicaciones Recientes

Google_AI_Studio_2025-12-08T04_16_04.949Z

El auge de los centros de datos y su impacto en la economía real

<p>El nuevo sistema nervioso del planeta: una fiebre del hormigón y silicio reescribe la economía global Mientras los
Leer Más

Para estar informado, Ingresá o Creá tu cuenta en MundoIA...

Entrar

Recordá revisar la carpeta de "no deseados", el correo puede llegar allí