Suscríbete a MUNDO IA

RESEARCHRUBRICS: por qué la IA falla donde más importa

Generated Image November 18, 2025 - 3_09AM

RESEARCHRUBRICS: por qué la IA falla donde más importa

La gran prueba de fuego: así se mide realmente si la inteligencia artificial puede investigar como un experto

Cuando le pedimos a un sistema de inteligencia artificial que investigue un tema complejo, esperamos más que una simple lista de enlaces o un resumen superficial. Queremos algo parecido a lo que haría un investigador humano: que explore múltiples fuentes, que conecte ideas de distintos campos, que evalúe la calidad de la evidencia y que construya un argumento coherente respaldado por datos verificables. Sin embargo, evaluar si estos sistemas realmente pueden hacerlo ha resultado ser un desafío monumental. Ahora, un equipo de investigadores de Scale AI y varias universidades ha creado RESEARCHRUBRICS, un marco de evaluación que promete cambiar la forma en que medimos las capacidades de investigación profunda de los agentes de IA.

El problema es más sutil de lo que parece a primera vista. Cuando evaluamos la capacidad de respuesta de un modelo de lenguaje en tareas convencionales, podemos comparar su respuesta con una solución correcta predefinida. Pero la investigación profunda no funciona así. No existe una única respuesta correcta cuando se pregunta, por ejemplo, sobre el impacto general de las redes sociales en la sociedad. Diferentes investigadores pueden llegar a conclusiones válidas pero distintas, dependiendo de qué fuentes consulten, cómo pesen la evidencia y qué marcos conceptuales empleen. Esta ambigüedad inherente hace que los métodos tradicionales de evaluación sean inadecuados.

Los autores de este trabajo identificaron tres dimensiones fundamentales que determinan la complejidad de una tarea de investigación profunda. La primera es la amplitud conceptual, que mide cuántos dominios o temas distintos debe integrar el sistema para responder adecuadamente. Una pregunta puede requerir conocimientos de un solo campo o exigir la síntesis de perspectivas de ciencia, economía y política simultáneamente. La segunda dimensión es la profundidad lógica, que refleja cuántos pasos de razonamiento encadenados son necesarios. Algunas consultas se resuelven con una simple búsqueda, mientras que otras demandan análisis, síntesis, evaluación y revisión en secuencia. La tercera dimensión es el nivel de exploración, que captura cuán especificada está la tarea: algunas preguntas tienen objetivos claros y criterios definidos, mientras que otras son deliberadamente abiertas y requieren que el agente clarifique primero qué aspectos son relevantes.

Esta estructura triaxial permite categorizar cada tarea de investigación con precisión y diseñar un conjunto equilibrado de desafíos que cubra todo el espectro de complejidad. El equipo recopiló ciento un tareas que abarcan desde análisis histórico hasta planificación empresarial, desde documentación técnica hasta preguntas cotidianas de consumidores. Cada una fue diseñada para reflejar el tipo de consultas que los usuarios realmente hacen a estos sistemas, no ejercicios académicos artificiales.

El corazón del sistema: rúbricas escritas por humanos

Lo verdaderamente innovador de RESEARCHRUBRICS no está solo en las preguntas, sino en cómo se evalúan las respuestas. En lugar de depender de métricas automatizadas o de comparaciones con textos de referencia generados por máquinas, el equipo desarrolló más de dos mil quinientos criterios de evaluación escritos íntegramente por expertos humanos. Cada tarea viene acompañada de entre veinte y cuarenta y tres criterios específicos que detallan qué debería incluir una respuesta adecuada y qué errores comunes deben evitarse.

Estos criterios están organizados en seis categorías fundamentales. Los requisitos explícitos verifican si la respuesta aborda todos los puntos que se pidieron directamente. Los requisitos implícitos van más allá, evaluando si el sistema incluyó información que cualquier experto consideraría relevante aunque no se mencionara explícitamente en la pregunta. La categoría de síntesis de información examina si el agente conectó datos de múltiples fuentes en lugar de simplemente listarlos. El uso de referencias mide si las citas son apropiadas, específicas y realmente respaldan las afirmaciones. La calidad de comunicación evalúa claridad, organización y tono. Finalmente, el seguimiento de instrucciones verifica el cumplimiento de restricciones o formatos específicos solicitados.

Cada criterio recibe un peso numérico que refleja su importancia. Los pesos de cuatro o cinco puntos, ya sean positivos o negativos, corresponden a criterios obligatorios sin los cuales la respuesta es fundamentalmente defectuosa. Los pesos menores representan características deseables pero no esenciales. Esta distinción entre lo obligatorio y lo opcional resulta crucial, porque permite diferenciar entre un sistema que apenas cumple los requisitos mínimos y uno que produce trabajo de calidad excepcional.

La creación de estas rúbricas requirió un proceso riguroso de tres etapas. Un primer experto propone una tarea y sus criterios de evaluación. Un segundo experto revisa el trabajo del primero y ambos iteran hasta alcanzar un acuerdo. Finalmente, un tercer experto realiza una revisión independiente y ajustes finales. Este proceso, que consumió más de dos mil ochocientas horas de trabajo humano especializado, garantiza que cada criterio sea claro, relevante y libre de sesgos introducidos por sistemas automatizados.

La prueba de tres gigantes

Los investigadores aplicaron su marco de evaluación a tres de los sistemas de investigación profunda más avanzados disponibles comercialmente: Deep Research de OpenAI, Deep Research de Gemini y Deep Research de Perplexity. Los resultados fueron reveladores y, en cierta medida, inquietantes. Incluso el sistema con mejor desempeño, Gemini, apenas alcanzó un sesenta y ocho por ciento de cumplimiento promedio con las rúbricas cuando se permitía crédito parcial. Cuando la evaluación era binaria, todo o nada, ese porcentaje cayó a sesenta y dos.

El análisis detallado de los fallos reveló patrones sistemáticos que trascienden las diferencias entre plataformas. Entre cuarenta y cinco y cincuenta por ciento de todos los errores se concentraron en dos categorías: razonamiento implícito y síntesis de información. Los sistemas mostraron competencia razonable en recuperar hechos explícitos y en mantener una comunicación clara, con tasas de fallo inferiores al veinte por ciento en esas dimensiones. Sin embargo, fallaron consistentemente en inferir requisitos no declarados y en integrar evidencia de múltiples documentos en argumentos coherentes.

La distinción entre criterios obligatorios y opcionales arrojó luz adicional sobre la naturaleza de estas limitaciones. Mientras que los criterios obligatorios dominaban los fallos en requisitos explícitos y síntesis, los criterios opcionales representaban la mayoría de los errores en razonamiento implícito. Esto sugiere que los sistemas actuales pueden satisfacer los requisitos mínimos básicos pero sistemáticamente pierden los indicadores de calidad matizados que distinguen la investigación profesional de la meramente adecuada.

El rendimiento también se estratificó claramente según las dimensiones de complejidad de las tareas. Gemini mantuvo consistentemente alrededor del setenta por ciento de cumplimiento en la mayoría de los niveles de complejidad, seguido de cerca por ChatGPT, mientras que Perplexity quedó rezagado. Un patrón claro emergió: el desempeño se degrada monotónicamente con el aumento de la profundidad de anidamiento lógico. Las tareas de razonamiento superficial se manejaron bien, pero los problemas analíticos o evaluativos de múltiples pasos mostraron caídas pronunciadas, particularmente para arquitecturas centradas en recuperación. La amplitud conceptual también se correlacionó con la dificultad, aunque de manera menos pronunciada.

El dilema de la longitud y la calidad

Un aspecto particularmente intrigante del estudio fue el examen de la relación entre la longitud de las respuestas y su calidad percibida. Los agentes de investigación profunda generan salidas que son entre diez y cien veces más largas que las respuestas estándar de modelos de lenguaje, con rangos de cinco mil a más de cincuenta mil tokens. Gemini produjo las respuestas más extensas en promedio, con alrededor de siete mil quinientas palabras, seguido de ChatGPT con seis mil trescientas, mientras que Perplexity fue sustancialmente más conciso con aproximadamente mil ochocientas palabras.

El análisis de correlación mostró una relación positiva moderada entre longitud y puntuación. Para Gemini y ChatGPT, los coeficientes de correlación rondaron entre cero punto veinticuatro y cero punto veintiocho, indicando que las respuestas más largas generalmente lograron puntuaciones más altas. Perplexity, con las salidas más cortas, mostró las correlaciones más bajas. Esta observación respalda la hipótesis de la conflación longitud-calidad: los informes más largos tienden a desempeñarse mejor porque cubren más criterios de la rúbrica, no necesariamente porque los evaluadores prefieran la verbosidad.

Sin embargo, dado que las puntuaciones de RESEARCHRUBRICS se basan en criterios específicos y no en impresiones holísticas, la correlación observada refleja parcialmente densidad informativa genuina en lugar de inflación estilística. Los informes exhaustivos que sintetizan más de cien fuentes necesariamente requieren extensión. Aun así, existe un sesgo documentado hacia la verbosidad independiente de la calidad del contenido, y distinguir estas explicaciones requiere experimentos controlados que varíen la longitud mientras mantienen constante el contenido informativo.

Citas: amplitud versus precisión

El análisis de citas reveló un dilema fundamental en el diseño de estos sistemas. Gemini produjo un promedio de ciento once citas por respuesta con una precisión del ochenta y uno por ciento, mientras que Perplexity logró noventa por ciento de precisión con solo treinta y una citas. Los sistemas optimizados para cobertura exhaustiva sacrifican precisión, mientras que aquellos orientados a la exactitud pierden perspectivas cruciales. Ninguna estrategia maneja exitosamente el juicio implícito sobre relevancia y autoridad de las fuentes.

Esta brecha en el razonamiento implícito explica el dilema amplitud-exactitud. Los sistemas actuales no pueden identificar de manera confiable qué fuentes son realmente pertinentes para un argumento específico ni evaluar su peso relativo. Simplemente recuperan todo lo relacionado con las palabras clave de la consulta o, alternativamente, restringen arbitrariamente la búsqueda para mantener alta precisión. Ambos enfoques fallan en replicar el juicio experto humano sobre qué evidencia merece inclusión.

Jueces humanos versus jueces automatizados

Una contribución metodológica importante del trabajo fue la evaluación sistemática de qué tan bien los modelos de lenguaje pueden actuar como jueces de la calidad de investigación. Los investigadores compararon las evaluaciones de tres modelos avanzados (GPT-5, Claude Sonnet 4.5 y Gemini 2.5 Pro) con las de nueve anotadores expertos humanos a través de trescientas tres respuestas.

Los resultados mostraron que la calificación binaria (criterio cumplido o no cumplido) logra un acuerdo sustancial con humanos, con puntuaciones F1 macro entre cero punto setenta y dos y cero punto setenta y seis. Cambiar de evaluación ternaria (cumplido totalmente, parcialmente, no cumplido) a binaria aumentó el acuerdo en aproximadamente veinte puntos porcentuales, confirmando que el crédito parcial introduce ambigüedad sin mejorar el poder discriminativo. Los niveles de consistencia validan la viabilidad de la evaluación automatizada para los dos mil quinientos noventa y tres criterios de RESEARCHRUBRICS, superando las puntuaciones F1 macro de cero punto setenta reportadas en otros marcos de evaluación comparables.

Gemini 2.5 Pro emergió como el juez más confiable, alcanzando cero punto setenta y seis de acuerdo en calificación binaria, aunque la brecha de doce a diecisiete puntos porcentuales respecto al mejor acuerdo humano indica espacio considerable para mejora. Los experimentos de ablación revelaron que incluir ejemplos concretos dentro de los criterios de la rúbrica mejoró el alineamiento en tres a cuatro por ciento en modo binario y dos a tres por ciento en modo ternario. Sin embargo, la augmentación automática de rúbricas mediante modelos de lenguaje, es decir, expandir o reformular criterios con calificadores y ejemplos sintéticos, degradó catastróficamente el alineamiento en quince a veinte por ciento.

Este hallazgo desafía suposiciones sobre que la verbosidad mejora la claridad. Las rúbricas concisas escritas por humanos con ejemplos específicos superan las descripciones verbosas generadas por máquinas, probablemente porque la augmentación introduce deriva semántica y distorsión de énfasis. La implicación para los dos mil quinientos noventa y tres criterios de RESEARCHRUBRICS es clara: la curación experta no puede reemplazarse por expansión automatizada, y la claridad emerge de la precisión más que de la elaboración.

Limitaciones arquitectónicas más allá de la ingeniería de prompts

La consistencia de los patrones de fallo a través de los sistemas evaluados (cuarenta y cinco a cincuenta por ciento de fallos en criterios implícitos, razonamiento multisalto deficiente, cuellos de botella en síntesis) indica restricciones arquitectónicas fundamentales más que diferencias de implementación. Estudios sobre razonamiento multisalto demuestran que, aunque los agentes logran más del ochenta por ciento de éxito en inferencia de primer salto, la resolución de entidades puente en las primeras capas neuronales crea límites estrictos en la profundidad de razonamiento subsiguiente. Esto explica las mejoras limitadas que se obtienen solo con ingeniería de prompts.

El dilema amplitud-exactitud ilustra además estas restricciones. Ningún sistema equilibra exitosamente cobertura exhaustiva con precisión. La amplitud de ciento once citas de Gemini sacrifica exactitud mientras que la precisión del noventa por ciento de Perplexity proviene de una cobertura restrictiva de treinta y una citas. Esto no es un problema de ajuste sino que refleja objetivos de optimización incompatibles que las arquitecturas actuales no pueden satisfacer simultáneamente.

El análisis de tareas complejas confirma el marco de descomposición profundidad-amplitud: la degradación del rendimiento se acelera con requisitos de razonamiento secuencial (profundidad) más que con demandas de capacidad paralela (amplitud). Las tareas que exceden cuatro pasos de inferencia secuencial o treinta y cinco minutos de tiempo equivalente humano muestran colapso universal del rendimiento en todos los sistemas evaluados. Con RESEARCHRUBRICS promediando veinticinco punto siete criterios por consulta, aproximándose a la complejidad de componentes de dos elevado a n menos uno para n igual a cinco características, operamos cerca del punto de saturación teórico para evaluación confiable.

Inversiones de dominio y efectos de complejidad de tareas

El análisis reveló inversiones sorprendentes de rendimiento entre dominios. Los agentes logran setenta y seis por ciento de cobertura en preguntas abiertas de consultoría pero tienen dificultades con tareas de precisión técnica, contradiciendo expectativas intuitivas de dificultad. Esto se alinea con hallazgos de otros marcos de evaluación que muestran que los sistemas sobresalen en razonamiento exploratorio mientras fallan en requisitos determinísticos. El patrón sugiere que las arquitecturas actuales favorecen inherentemente la síntesis creativa sobre la ejecución sistemática, explicando por qué incluso los sistemas líderes logran menos del cuarenta por ciento en cobertura de información técnica específica a pesar de puntuaciones del ochenta y cinco por ciento en estructura organizacional.

El análisis de complejidad de tareas confirma el marco de descomposición profundidad-amplitud: la degradación del rendimiento se acelera con requisitos de razonamiento secuencial más que con demandas paralelas de capacidad. Las tareas que exceden cuatro pasos de inferencia secuencial muestran colapso universal del rendimiento. Este hallazgo tiene implicaciones profundas para el diseño futuro de agentes de investigación: el problema no es simplemente agregar más parámetros o datos de entrenamiento, sino desarrollar arquitecturas fundamentalmente diferentes que puedan mantener coherencia a través de cadenas largas de razonamiento dependiente.

Implicaciones y direcciones futuras

Los resultados de RESEARCHRUBRICS señalan con claridad que mejorar los agentes de investigación profunda requiere innovación arquitectónica en lugar de refinamiento incremental. Los fallos sistemáticos en razonamiento implícito, síntesis multidocumento y razonamiento secuencial sostenido apuntan a limitaciones fundamentales en cómo los sistemas actuales representan y manipulan estructuras de información complejas.

La brecha del razonamiento implícito resulta particularmente instructiva. Los sistemas actuales pueden seguir instrucciones explícitas razonablemente bien pero fallan en anticipar qué información adicional sería relevante o valiosa sin que se les solicite directamente. Esta capacidad de inferir el contexto no declarado y las expectativas tácitas del usuario representa uno de los aspectos más sofisticados de la experiencia humana. Replicarla requiere más que simplemente entrenar en corpus más grandes; demanda modelos que puedan construir representaciones más ricas del contexto pragmático y las normas de comunicación.

La dificultad con la síntesis multidocumento apunta a otra limitación fundamental. Los sistemas actuales son excelentes para recuperar información relevante de documentos individuales, pero tienen problemas para identificar conexiones temáticas a través de múltiples fuentes, resolver contradicciones aparentes y construir narrativas coherentes que integren perspectivas diversas. Esta tarea requiere no solo comprensión superficial sino modelado profundo de las relaciones causales, temporales y argumentativas entre afirmaciones provenientes de diferentes contextos.

El colapso del rendimiento en tareas de razonamiento profundo revela quizás la limitación más seria. Cuando una pregunta requiere más de tres o cuatro pasos de inferencia dependiente, incluso los mejores sistemas actuales comienzan a perder el hilo. Los errores se acumulan, las cadenas lógicas se rompen y las conclusiones se vuelven poco confiables. Este problema no puede resolverse simplemente haciendo los modelos más grandes; requiere arquitecturas que puedan mantener y actualizar representaciones de estado complejas a través de secuencias largas de operaciones de razonamiento.

Los investigadores proponen varias direcciones prometedoras para trabajos futuros. Una es el desarrollo de mecanismos de memoria y atención más sofisticados que puedan rastrear dependencias a largo plazo y relaciones jerárquicas en el espacio del problema. Otra es la integración de módulos de planificación explícitos que puedan descomponer consultas complejas en subproblemas manejables y coordinar su resolución. Una tercera es la incorporación de capacidades de verificación y autocorrección que permitan a los sistemas detectar y corregir errores en su propio razonamiento.

Más allá de las mejoras técnicas, el trabajo también sugiere la necesidad de repensar fundamentalmente cómo diseñamos e implementamos agentes de investigación. En lugar de intentar crear sistemas monolíticos que puedan manejar cualquier tipo de consulta, podría ser más productivo desarrollar arquitecturas modulares donde componentes especializados colaboren para abordar diferentes aspectos de una tarea compleja. Un módulo podría enfocarse en recuperación y filtrado de información, otro en análisis y síntesis, otro en verificación de hechos y evaluación de calidad, y así sucesivamente.

El benchmark RESEARCHRUBRICS mismo representa una contribución valiosa para la comunidad de investigación en IA. Al proporcionar un conjunto curado de tareas realistas con criterios de evaluación detallados escritos por humanos, establece un estándar riguroso contra el cual medir el progreso futuro. Su diseño modular y su énfasis en la transparencia facilitan tanto la reproducibilidad como la extensión por parte de otros investigadores.

Igualmente importante es la metodología de evaluación desarrollada por los autores. El uso de rúbricas de múltiples criterios en lugar de puntuaciones holísticas únicas permite diagnósticos mucho más finos de las fortalezas y debilidades del sistema. La distinción entre criterios obligatorios y opcionales proporciona un marco útil para pensar sobre umbrales de calidad mínimos versus desempeño aspiracional. Y la validación del uso de modelos de lenguaje como jueces automatizados, con la advertencia importante de que las rúbricas deben ser escritas por humanos, ofrece un camino hacia evaluación escalable sin sacrificar completamente el juicio experto.

Un llamado a la reflexión crítica

Los resultados de este estudio invitan a una reflexión más amplia sobre el estado actual de la inteligencia artificial y las expectativas que depositamos en ella. El entusiasmo comprensible por los avances recientes en modelos de lenguaje ha generado a veces afirmaciones exageradas sobre sus capacidades. Cuando empresas prominentes lanzan productos con nombres como Deep Research, crean una expectativa de que estos sistemas pueden realizar investigación genuinamente profunda y confiable. Los datos de RESEARCHRUBRICS sugieren que aún estamos lejos de ese objetivo.

Esto no significa que estos sistemas carezcan de valor. Incluso con un cumplimiento del sesenta y ocho por ciento de los criterios de calidad, pueden ser herramientas útiles para exploración inicial de temas, generación de ideas y síntesis de información básica. Pero los usuarios deben entender sus limitaciones y no depender de ellos para tareas donde la exactitud y la exhaustividad son críticas sin verificación humana cuidadosa.

La brecha entre el desempeño actual y el desempeño deseado también plantea preguntas importantes sobre prioridades de investigación. Gran parte del esfuerzo reciente en IA se ha centrado en escalar modelos existentes a tamaños cada vez mayores. Los resultados de RESEARCHRUBRICS sugieren que este enfoque, aunque valioso, puede encontrar rendimientos decrecientes sin innovaciones arquitectónicas más fundamentales. Necesitamos no solo modelos más grandes sino modelos más inteligentes, con capacidades cualitativamente diferentes para razonamiento complejo, integración de información y comprensión contextual.

Finalmente, el trabajo subraya la importancia continua del juicio y la experiencia humanos. Aunque los sistemas automatizados pueden procesar vastas cantidades de información rápidamente, todavía dependemos de expertos humanos para formular las preguntas correctas, diseñar criterios de evaluación significativos e interpretar los resultados en contexto. La relación más productiva entre humanos e IA probablemente no sea una de reemplazo sino de colaboración, donde cada uno aporta capacidades complementarias.

Lo que nos deja este estudio

RESEARCHRUBRICS establece un nuevo estándar para evaluar agentes de investigación profunda basados en inteligencia artificial. A través de tareas cuidadosamente diseñadas que capturan la complejidad real de las consultas de investigación y criterios de evaluación detallados escritos por expertos humanos, proporciona una medida rigurosa de las capacidades actuales y las brechas que aún deben cerrarse.

Los resultados son aleccionadores pero instructivos. Ninguno de los sistemas líderes actuales alcanza ni el setenta por ciento de cumplimiento de los criterios de calidad, con deficiencias particulares en razonamiento implícito, síntesis multidocumento y cadenas largas de inferencia secuencial. Estos no son problemas menores que puedan resolverse con ajustes incrementales, sino limitaciones fundamentales que requieren innovación arquitectónica seria.

Al mismo tiempo, el trabajo demuestra la viabilidad de evaluación rigurosa pero escalable mediante la combinación de rúbricas escritas por humanos con jueces automatizados. Este enfoque equilibra la necesidad de evaluación experta con las demandas prácticas de evaluar sistemas a gran escala. Proporciona un modelo que otros investigadores pueden adoptar y extender.

Mirando hacia el futuro, RESEARCHRUBRICS servirá como un punto de referencia importante para medir el progreso en agentes de investigación de IA. A medida que se desarrollen nuevas arquitecturas y técnicas, este benchmark permitirá comparaciones rigurosas y objetivas de su efectividad. Más importante aún, al identificar con precisión dónde fallan los sistemas actuales, señala el camino hacia las innovaciones necesarias.

La investigación profunda genuina requiere más que simplemente buscar información en la web. Exige razonamiento sofisticado, síntesis creativa, juicio crítico y comunicación clara. Los sistemas de IA han avanzado notablemente en muchas de estas dimensiones, pero aún tienen un largo camino por recorrer antes de poder realmente igualar la profundidad y la matización del análisis humano experto. RESEARCHRUBRICS nos ayuda a ver con claridad tanto cuánto hemos progresado como cuánto trabajo queda por hacer.

Referencias

Sharma, M., Zhang, C. B. C., Bandi, C., Wang, C., Aich, A., Nghiem, H., Rabbani, T., Htet, Y., Jang, B., Basu, S., Balwani, A., Peskoff, D., Ayestaran, M., Hendryx, S. M., Kenstler, B., Liu, B. (2025). RESEARCHRUBRICS: A Benchmark of Prompts and Rubrics For Evaluating Deep Research Agents. arXiv preprint arXiv:2511.07685v1.

Scale AI. (2025). RESEARCHRUBRICS: Evaluating Deep Research Agents. Recuperado de https://scale.com/research/researchrubrics

OpenAI. (2025). Introducing Deep Research. Recuperado de https://openai.com/index/introducing-deep-research/

Google. (2025). Gemini Deep Research: Your personal research assistant. Recuperado de https://gemini.google/overview/deep-research/

Perplexity AI. (2025). Introducing Perplexity Deep Research. Recuperado de https://www.perplexity.ai/hub/blog/introducing-perplexity-deep-research

Phan, L., Gatti, A., Han, Z., Li, N., et al. (2025). Humanity's Last Exam. arXiv preprint arXiv:2501.14249.

Krishna, S., Krishna, K., Mohananey, A., Schwarcz, S., Stambler, A., Upadhyay, S., Faruqui, M. (2025). Fact, Fetch, and Reason: A Unified Evaluation of Retrieval-Augmented Generation. arXiv preprint arXiv:2409.12941.

Mialon, G., Fourrier, C., Swift, C., Wolf, T., LeCun, Y., Scialom, T. (2023). GAIA: A Benchmark for General AI Assistants. arXiv preprint arXiv:2311.12983.

Publicaciones Recientes

Google_AI_Studio_2025-12-08T04_16_04.949Z

El auge de los centros de datos y su impacto en la economía real

<p>El nuevo sistema nervioso del planeta: una fiebre del hormigón y silicio reescribe la economía global Mientras los
Leer Más

Para estar informado, Ingresá o Creá tu cuenta en MundoIA...

Entrar

Recordá revisar la carpeta de "no deseados", el correo puede llegar allí