Durante muchos años hemos medido la inteligencia de nuestras máquinas a través de juegos y abstracciones. El hito de Deep Blue derrotando a Kaspárov en ajedrez, o el más reciente y esotérico triunfo de AlphaGo sobre el campeón mundial de Go, fueron momentos sísmicos. Definieron el progreso de la inteligencia artificial como una escalada en el dominio de sistemas cerrados, con reglas claras y objetivos definidos. Más tarde, los exámenes estandarizados se convirtieron en la nueva frontera: las IA aprendieron a superar la abogacía, los exámenes de medicina y las pruebas de acceso a la universidad. Cada uno de estos logros fue celebrado, con razón, como un avance formidable. Sin embargo, en el fondo, una pregunta más profunda y mucho más relevante permanecía sin respuesta: ¿pueden estas máquinas trabajar?
No nos referimos a realizar una tarea aislada y bien definida, como identificar un tumor en una radiografía o redactar un soneto. Nos referimos a la naturaleza desordenada, compleja y multifacética del trabajo humano real. Un médico no solo diagnostica; también gestiona la información del paciente, se comunica con las familias y colabora con el personal de enfermería. Un gerente financiero no solo calcula riesgos; interpreta informes ambiguos, redacta memorandos estratégicos y presenta hallazgos a clientes que tienen prioridades contrapuestas. El trabajo real, la actividad que suma billones al producto interior bruto global, es un tejido de habilidades cognitivas, comunicativas y de juicio. Hasta ahora, carecíamos de una vara de medir fiable para evaluar el desempeño de la IA en este escenario del mundo real.
Ese vacío es el que un equipo de investigadores de OpenAI, el laboratorio que ha estado en el epicentro de la revolución de la IA generativa, se ha propuesto llenar. Han presentado un trabajo de investigación que introduce un concepto tan ambicioso como su nombre: GDPVAL. El acrónimo significa Evaluating AI Model Performance on Real-World Economically Valuable Tasks (Evaluación del Desempeño de los Modelos de IA en Tareas de Valor Económico del Mundo Real). No es un juego. No es un examen académico. Es un intento sistemático y a gran escala de construir un espejo de la economía del conocimiento y preguntar a las máquinas más avanzadas: "¿Puedes hacer esto?".
El proyecto GDPVAL es, en esencia, un nuevo y masivo benchmark, un estándar de evaluación. Pero su construcción se aleja radicalmente de los métodos tradicionales. En lugar de que los informáticos inventen problemas abstractos, los investigadores de OpenAI acudieron directamente a la fuente. Colaboraron con docenas de profesionales de la industria, personas con un promedio de catorce años de experiencia en sus respectivos campos, para construir un conjunto de tareas que reflejaran su trabajo diario.
El alcance de este esfuerzo es lo que le da su peso. El índice cubre 44 ocupaciones distintas, elegidas meticulosamente porque se encuentran dentro de los nueve sectores principales que más contribuyen al producto interior bruto de Estados Unidos. Esto significa que la métrica no solo evalúa trabajos tecnológicos obvios; se sumerge en el corazón de la economía: sanidad, finanzas, comercio, educación y gestión. Las tareas resultantes no son preguntas de opción múltiple. Son "entregables": redactar un plan de negocio, analizar un conjunto de datos de clientes para una campaña de marketing, revisar un documento para el cumplimiento normativo o gestionar un proyecto complejo.
Los hallazgos de esta evaluación son profundos y de doble filo. Por un lado, el rendimiento de los modelos de frontera (los sistemas de IA más avanzados) está mejorando a un ritmo lineal y predecible en estas tareas laborales complexas. No hay indicios de estancamiento. Por otro lado, y quizás esto sea lo más revelador, el estudio concluye que los mejores modelos actuales se están "aproximando a los expertos de la industria en la calidad de los entregables". La implicación es clara: la inteligencia artificial está saliendo del laboratorio y aprendiendo a desempeñar funciones cognitivas que, hasta hace muy poco, eran dominio exclusivo de los trabajadores humanos cualificados. GDPVAL no es solo un informe académico; es el primer borrador de un mapa para una transformación económica fundamental.
La anatomía de un nuevo estándar
Para apreciar la magnitud del proyecto de OpenAI, primero hay que entender por qué los estándares de evaluación anteriores, aunque útiles, eran insuficientes. Las métricas tradicionales de IA a menudo sufren de lo que los investigadores llaman "contaminación". Los modelos de lenguaje masivos se entrenan con billones de palabras e imágenes extraídas de Internet. Es muy probable que hayan "visto" las respuestas a casi todas las preguntas de exámenes estandarizados o problemas de programación famosos que existen en la web. Esto significa que, cuando un modelo supera un examen, no podemos estar seguros de si está razonando la respuesta o simplemente recordando una versión similar que encontró durante su entrenamiento.
Además, el trabajo humano rara vez es un examen de una sola vez. Es un proceso. Exige contexto, adaptación y la capacidad de producir algo nuevo (un informe, un plan, un análisis) en lugar de simplemente seleccionar la respuesta correcta.
El equipo de GDPVAL diseñó su metodología para abordar precisamente estos problemas. La validez de su índice se basa en dos pilares: la relevancia económica y el anclaje en la pericia humana. Partieron del análisis de la Oficina de Estadísticas Laborales de Estados Unidos (BLS), identificando las "actividades laborales" clave que componen las ocupaciones más significativas de la economía.
Clave analizadas
Principales del PIB
Experiencia media de los expertos
A partir de ahí, el proceso fue casi periodístico. Los investigadores se asociaron con profesionales experimentados (consultores, gerentes, analistas financieros, personal de enfermería y muchos otros) y les pidieron que definieran tareas del mundo real que fueran representativas de su trabajo. Estas no eran tareas sencillas que un becario haría en diez minutos. Eran problemas sustanciales que requerían juicio y experiencia.
Ocupaciones de alto valor analizadas
GDPVAL incluye tareas de ocupaciones con un impacto económico significativo. Este gráfico muestra algunas de las ocupaciones representadas, clasificadas por su contribución total estimada a los salarios.
Sectores económicos cubiertos
El benchmark se centra en los sectores de mayor impacto en el PIB. El gráfico muestra una distribución representativa de los sectores incluidos en el estudio, destacando las áreas de mayor valor económico.
El resultado es un banco de pruebas que evalúa la capacidad de la IA para gestionar el tipo de trabajo cognitivo que define a la clase profesional. Por ejemplo, en lugar de pedirle a un modelo que defina "riesgo financiero", una tarea de GDPVAL podría presentar un escenario empresarial complejo, varios informes de mercado ficticios (para evitar la contaminación) y pedir al modelo que redacte un memorando detallado para un vicepresidente, describiendo los tres principales riesgos de cumplimiento normativo y proponiendo estrategias de mitigación.
La evaluación de estas tareas es igualmente sofisticada. No hay una única respuesta "correcta". Al igual que en el mundo profesional, la calidad es un espectro. Los mismos expertos que ayudaron a diseñar las tareas también ayudaron a crear las "rúbricas" de puntuación: guías detalladas sobre qué separa un entregable pobre de uno aceptable, y uno aceptable de uno excelente. La calidad se mide en dimensiones como la precisión, la exhaustividad, la claridad de la comunicación y la perspicacia del análisis.
El veredicto de la máquina
Con este nuevo y riguroso termómetro en la mano, los investigadores de OpenAI procedieron a medir la temperatura de sus modelos de frontera más avanzados. Los resultados, presentados en el estudio, son el núcleo de la cuestión.
El primer hallazgo clave es la trayectoria del progreso. Al trazar el rendimiento de las sucesivas generaciones de modelos frente a las tareas de GDPVAL, el equipo observó una mejora aproximadamente lineal. En el vertiginoso mundo de la IA, "lineal" es a la vez reconfortante y alarmante. No sugiere una explosión de superinteligencia repentina, pero sí un avance implacable y predecible. Significa que con cada nueva arquitectura de modelo, con más datos y mejor entrenamiento, las máquinas se vuelven demostrablemente más competentes en el trabajo real. La curva no se está aplanando.
Mejora lineal en calidad
Al trazar el rendimiento de sucesivas generaciones de modelos, los investigadores observaron una mejora aproximadamente lineal, indicando que la capacidad de la IA en tareas laborales sigue ascendiendo de forma constante.
El segundo hallazgo es el que acapara los titulares: los mejores sistemas actuales se están "aproximando" a la calidad de los expertos humanos. Es crucial entender este matiz. Los modelos no están (todavía) superando a un profesional experimentado en todos los ámbitos. Pero en una tarea determinada, el resultado que produce la máquina está empezando a ser comparable en calidad a lo que entregaría un humano competente. La brecha entre el aprendiz y el artesano se está cerrando.
Calidad humana vs. IA
Este gráfico compara la calidad promedio de los entregables de los expertos humanos frente a los modelos de IA de frontera. Si bien los expertos aún lideran, la IA está demostrando una competencia formidable.
El tercer hallazgo es el más pragmático y, económicamente, el más potente. El estudio no se detiene en la calidad; analiza el potencial de los modelos para realizar estas tareas "más rápido y más barato" que los expertos humanos que trabajan sin ayuda. El escenario más probable que dibuja el documento no es el de una sustitución total, sino el de una colaboración hombre-máquina.
El flujo de trabajo propuesto es uno en el que el sistema de IA, actuando como un asistente cognitivo de alta velocidad, produce el primer borrador del entregable (el análisis, el informe, el plan). Luego, un supervisor humano, el experto, revisa, valida y refina este borrador. El análisis del equipo de OpenAI sugiere que este modelo híbrido tiene el potencial de reducir drásticamente los costes y el tiempo necesarios para completar una gran cantidad de trabajo de conocimiento. La IA se encarga del 80% del esfuerzo de producción, y el humano aporta el 20% final de juicio, validación y dirección estratégica. Es un modelo de apalancamiento cognitivo a una escala nunca antes vista.
Nuevo flujo de trabajo colaborativo
1. 🖥️ Borrador de la IA
El modelo de IA genera el primer borrador del entregable (informe, análisis, plan).
2. 🧐 Revisión del Experto
Un supervisor humano revisa, valida y refina el borrador, aportando juicio y contexto.
3. 📋 Entregable Final
El resultado es un producto de alta calidad logrado en una fracción del tiempo y coste.
Afinando los motores del pensamiento
El documento de GDPVAL no solo evalúa; también enseña. Una de sus contribuciones más valiosas es el análisis de cómo hacer que los modelos de IA funcionen mejor en estas tareas complexas. Los investigadores identificaron tres factores clave que mejoran significativamente la calidad del resultado, y los tres son profundamente intuitivos porque imitan cómo los humanos abordan el trabajo difícil.
El primer factor es el aumento del "esfuerzo de razonamiento". Cuando se enfrenta a una tarea de GDPVAL, un modelo de IA puede dar una respuesta rápida e "instintiva", o se le puede instruir para que "piense" más en el problema, generando múltiples cadenas de razonamiento antes de decidirse por una respuesta final. Los investigadores descubrieron que, de forma sistemática, cuanto más esfuerzo computacional se dedica al razonamiento, mejor es el resultado. Es el equivalente digital de no decir lo primero que se te pasa por la cabeza, sino tomarte un momento para reflexionar.
El segundo factor es el aumento del "contexto de la tarea". Los modelos de IA, al igual que los humanos, funcionan mal en el vacío. Una solicitud vaga produce un resultado vago. El equipo demostró que cuanto más contexto se proporciona al modelo (información de fondo, documentos relevantes, directrices de la empresa, ejemplos de resultados anteriores), mayor es la calidad del entregable. Para que la IA actúe como un profesional, debe tener acceso a la misma información que tendría un profesional.
El tercer factor, y quizás el más interesante, es el "andamio" (o scaffolding). Este término se refiere a descomponer un problema grande y complejo en una serie de pasos más pequeños y manejables. En lugar de pedirle a la IA: "Redacta un plan de marketing completo para el lanzamiento de este nuevo producto", un enfoque de andamio implicaría una secuencia: 1. Analiza la demografía del público objetivo basándote en este informe. 2. Identifica los tres canales de comunicación más eficaces para ese público. 3. Propón tres mensajes clave para la campaña. 4. Ahora, ensambla los puntos 1 a 3 en un borrador de plan de marketing.
Este enfoque estructurado mejora drásticamente el rendimiento del modelo. Al guiar a la IA a través de un proceso lógico, el resultado final es más coherente, completo y preciso. Resulta que las máquinas, al igual que sus creadores, se benefician de un buen plan y de una gestión de proyectos sólida.
Factores de optimización del rendimiento
El rendimiento no es estático. Aplicar más razonamiento, contexto y "andamio" (dividir tareas) mejora drásticamente la calidad de los resultados de la IA.
El mapa y el territorio: implicaciones de un mundo medible
La publicación de GDPVAL marca un punto de inflexión. Su importancia no radica solo en sus hallazgos, sino en su existencia. Al crear una métrica estandarizada, de alta calidad y basada en el mundo real para el valor económico, OpenAI no solo ha construido un espejo, sino también un mapa.
Para la comunidad científica y tecnológica, el índice proporciona un campo de juego unificado. Al abrir al público un subconjunto "dorado" de 220 tareas y ofrecer un servicio de calificación automatizado, el laboratorio invita a toda la industria (competidores como Google, Meta, Anthropic y la academia) a probar sus propios modelos contra este estándar. Esto fomenta la competencia, acelera la investigación y centra los esfuerzos de la comunidad no solo en hacer que los modelos sean más "inteligentes" en un sentido abstracto, sino más útiles en un sentido económico tangible. GDPVAL identifica las debilidad y fortalezas: puede mostrarnos que los modelos actuales son excelentes en el análisis financiero pero deficientes en la gestión de recursos humanos, por ejemplo. Esto dirige la investigación futura hacia los cuellos de botella más importantes.
Las implicaciones sociales y económicas son, por supuesto, mucho más vastas y complexas. GDPVAL es la primera herramienta que nos permite rastrear, de manera cuantificable, el progreso de la IA en la asunción de trabajo cognitivo cualificado. La afirmación de que los modelos se están "aproximando" a la calidad de los expertos humanos es una señal que no puede ser ignorada.
Esto no anuncia necesariamente un futuro distópico de desempleo masivo. El propio estudio se centra en el potencial de colaboración, donde la IA actúa como un "multiplicador de fuerza" para los trabajadores humanos. En este escenario, el valor del profesional humano se desplaza. En lugar de centrarse en la producción del trabajo (el borrador inicial del informe), el valor se concentra en el juicio: la capacidad de hacer las preguntas correctas, de establecer la dirección estratégica, de proporcionar el contexto adecuado y, lo más importante, de validar la producción de la máquina. El trabajo se vuelve menos sobre la transpiración y más sobre la inspiración y la dirección.
Sin embargo, esta transición no será trivial. Plantea preguntas urgentes sobre la educación, la recapacitación y la propia naturaleza del valor profesional. Si una IA puede realizar el 80% de una tarea, la demanda de ese 20% de juicio y validación se volverá inmensa, pero es posible que se necesiten menos personas para realizar esa función.
El trabajo de OpenAI con GDPVAL nos saca del reino de la especulación filosófica sobre el futuro del trabajo y nos sitúa en el terreno de la medición empírica. Ya no estamos debatiendo si la inteligencia artificial puede realizar un trabajo económicamente valioso y complejo. Estamos, por primera vez, midiendo cuán bien puede hacerlo, rastreando su mejora mes a mes y entendiendo cómo ayudarla a mejorar. La revolución de la IA ha tenido sus momentos de asombro y sus hitos abstractos. Ahora, con una herramienta como GDPVAL, ha encontrado su contabilidad. Ha conectado sus asombrosas capacidades directamente con el motor de la economía. El trabajo ha comenzado.
Fuentes
Patwardhan, T., Dias, R., Proehl, E., Kim, G., Wang, M., Watkins, O., Posada Fishman, S., Aljubeh, M., Thacker, P., Fauconnet, L., Miserendino, S., Chabot, G., Glaese, A., Tworek, J., Kim, N. S., Chao, P., Barr, A., Li, D., & Sharman, M. (2025). GDPVAL: Evaluating AI Model Performance on Real-World Economically Valuable Tasks. arXiv:2510.04374 [cs.LG]. arxiv.org/pdf/2510.04374



