NEWSLETTER

La IA que aprende a ejercer: el desafío de replicar el trabajo de médicos, abogados y consultores

ecbc5ede-5a33-45a3-b392-8f3955883449

La IA que aprende a ejercer: el desafío de replicar el trabajo de médicos, abogados y consultores

En un mundo cada vez más interconectado y digitalizado, la inteligencia artificial (IA) se posiciona como un actor decisivo en transformar radicalmente las formas de trabajo, especialmente en sectores que históricamente han sido pilares del conocimiento y la experiencia humana. Mercor, una empresa vanguardista dedicada a proveer “datos expertos” para entrenar modelos avanzados de IA, ha desarrollado un innovador índice conocido como AI Productivity Index o APEX.

Este índice reúne un conjunto de 200 tareas que buscan evaluar la capacidad real de la IA para resolver problemas complejos y propias del trabajo cotidiano de médicos, abogados, analistas financieros y consultores estratégicos.

El diseño de este banco de pruebas no es casual ni superficial. Mercor invirtió más de quinientos mil dólares para contar con la colaboración directa de expertos con trayectoria en firmas de renombre internacional como Goldman Sachs, JPMorgan, McKinsey, Boston Consulting Group, Latham & Watkins, y hospitales prestigiosos como Mount Sinai. Estos profesionales, con una experiencia promedio de más de siete años, elaboraron escenarios fidedignos que reflejan la complejidad, el rigor y la ambigüedad que enfrentan en la práctica diaria.

En el ámbito médico, la IA debe enfrentarse a desafíos tales como diagnosticar la enfermedad de un niño de seis años a partir de nueve fuentes multimedia diferentes: radiografías, reportes clínicos, gráficos de evolución e incluso grabaciones. El reto no solo exige correlacionar información, sino ponderar evidencias y proponer soluciones terapéuticas fundamentadas en protocolos pediátricos vigentes.

En el campo legal, las pruebas exigen resolver complejas disputas sucesorias en casos que involucran múltiples testamentos y derechos de autor que se superponen. La IA debe aplicar normativas complejas y redactar dictámenes legales sólidos, asegurando claridad y precisión frente a posibles impugnaciones.

Las tareas financieras requieren la construcción de modelos de flujos de caja descontados para valorar empresas innovadoras del sector tecnológico sanitario, incorporando variables como tasas de crecimiento, riesgos específicos y análisis de mercado.

Finalmente, en los ejercicios de consultoría, se pide a la IA diseñar planes estratégicos de reestructuración corporativa basados en análisis detallados de la competencia y proyecciones macroeconómicas. Estas tareas demandan no solo precisión, sino también visión estratégica y capacidad de comunicar planes en lenguaje claro y accesible a altos directivos.

Cada ejercicio está meticulosamente parametrizado para evitar respuestas ambigüas o genéricas, incluyendo supuestos claros, parámetros cuantitativos y criterios de evaluación específicos. Esto significa que no cualquier respuesta es válida, sino aquellas que cumplen rigurosamente con las expectativas de un experto.

Este diseño detallado también asevera una paradoja significativa: redactar un prompt con todas las variables y supuestos necesarios para que la IA responda correctamente puede requerir incluso más tiempo y expertise que la resolución misma del ejercicio, un fenómeno reconocido por Matt Seck, un ex analista financiero involucrado en la creación de estos problemas.

Los resultados más recientes del AI Productivity Index muestran avances impresionantes. GPT-4o, modelo lanzado en mayo de 2024, obtuvo un índice de éxito del 35.9% en estas pruebas. Solo un año después, GPT-5 alcanzó un 64.2%, demostrando progreso exponencial. Sin embargo, ese porcentaje no implica que la IA haya alcanzado un nivel correcto de calidad integral. De hecho, GPT-5 logró alcanzar puntajes perfectos en solo dos ejercicios (un caso legal y otro financiero) que incluían operaciones de cálculo simples y recuperación básica de información. La mayoría del resto se componía de respuestas parcialmente correctas, que sin embargo carecían de la integración holística, el juicio experto y la sensibilidad ética que solo un humano puede aportar.

Para superar los obstáculos técnicos y progresar hacia evaluaciones escalables y confiables, Mercor desarrolló sistemas automáticos de corrección de respuestas basados en modelos de IA que simulan evaluación humana. Estos sistemas lograron coincidir con el juicio humano en más del 89% de los casos, revolucionando la forma en que pueden escalarse y validarse estas evaluaciones. Esto es particularmente crucial en campos donde no existen pruebas automatizadas sencillas como en la programación, en donde basta medir si un software corre o no.

Investigaciones paralelas llevadas a cabo por OpenAI corroboran esta tendencia con benchmarks en los que se comparan respuestas humanas con generadas por inteligencia artificial en tareas que incluyen desde la redacción de folletos comerciales hasta el análisis de imágenes médicas. En estas comparaciones, los expertos humanos prefirieron las soluciones asistidas por IA en un 47.6% de las veces, siendo esta ventaja aún más notoria en el periodo comprendido entre junio de 2024 y septiembre de 2025, cuando la efectividad de la IA se duplicó.

El significativo avance tecnológico generado por estos modelos plantea desafíos inéditos para el mercado laboral. Profesiones tradicionalmente ancladas a la experiencia humana podrían experimentar automatización parcial o total en tareas repetitivas o analíticas, presionando a redefinir roles y responsabilidades. Sin embargo, áreas que involucran habilidades interpersonales, liderazgo, creatividad y juicio moral probablemente continuarán siendo territorio exclusivo del talento humano. Las organizaciones deben prepararse para integrar sistemas colaborativos en los que flujos mixtos de trabajo humano e inteligencia artificial generen sinergias efectivas.

Emergen nuevos perfiles profesionales dedicados a tareas que tradicionalmente no existían: especialistas en la generación avanzada de prompts que permitan una interacción óptima con la IA, supervisores encargados de la detección y corrección de sesgos implícitos en los modelos, auditores de equidad de datos y coaches para la interacción eficaz entre humanos y máquinas. Al mismo tiempo, la formación continua de los trabajadores adquirirá un rol fundamental, encaminada a dotar de competencias híbridas para manejar, interpretar y contextualizar la inteligencia artificial.

Mercor anuncia que su índice de productividad evolucionará en el mediano plazo para incorporar pruebas más interactivas, ejercicios con múltiples soluciones válidas, simulaciones en tiempo real que incorporen colaboración entre humanos y máquinas, y ejercicios basados en software real. Estas nuevas pruebas pretenden replicar con mayor fidelidad la complejidad que caracteriza al trabajo profesional cotidiano, donde la flexibilidad y la adaptabilidad constituyen valores ineludibles.

Más allá del impulso tecnológico, este avance plantea la urgente necesidad de marcos éticos y legales que regulen la integración de la inteligencia artificial en profesiones críticas. La automatización de decisiones en salud o derecho sin supervisión rigurosa implica riesgo potencial para la seguridad y la privacidad. Los organismos reguladores, instituciones profesionales y gobiernos deberán establecer protocolos claros, exigencias de transparencia y sistemas de responsabilidad robustos para que estas tecnologías contribuyan al bien común manteniendo los estándares de calidad.

El AI Productivity Index representa un salto cualitativo sin precedentes al medir directamente el valor económico potencial de la IA en tareas cognitivas y especializadas. Aunque aún depende de supervisión y control humano en escenarios complejos o impredecibles, proyecta un horizonte en el que máquinas y personas trabajarán en equipo, combinando la precisión, velocidad y capacidad analítica de la IA, con la creatividad, intuición y comprensión ética humanas.

El futuro del trabajo en el siglo XXI probablemente estará marcado por esta colaboración simbiótica, donde la inteligencia artificial ampliará las capacidades humanas sin suplantarlas, alcanzando niveles inéditos de eficiencia, innovación y bienestar colectivo.

Publicaciones Recientes

ChatGPT Image 15 oct 2025, 02_50_09

Extinción o despegue: los escenarios de IA según la Fed de Dallas

El artículo del Federal Reserve Bank of Dallas, de junio de 2025, “Advances in AI will boost productivity, living sta
Leer Más
3339bb68-0021-4526-976d-b40765fb726f

Los modelos de IA revelan un sesgo arraigado por la escritura humana

En las profundidades de un laboratorio digital en Princeton, un relato breve sobre un altercado en un autobús se transf
Leer Más

Para estar informado, Ingresá o Creá tu cuenta en MundoIA...

Entrar

Recordá revisar la carpeta de "no deseados", el correo puede llegar allí