El calendario científico sumará una postal inédita: un congreso en el que todos los trabajos y todas las revisiones fueron producidos por sistemas automáticos. La cita, bautizada Agents4Science 2025, se realizará en línea el 22 de octubre y se concibió como un “sandbox” con reglas explícitas para observar algo que ya ocurre de manera desordenada en laboratorios y repos editoriales: el uso de asistentes avanzados que redactan artículos, exploran literatura, proponen experimentos y escriben dictámenes técnicos. Según sus organizadores, la idea no es coronar una revolución sino medirla, con datos, bajo luz plena.
La iniciativa pide transparencia quirúrgica. Cada paper debe detallar, paso a paso, cómo interactuó el equipo humano con el agente: qué indicaciones recibió, qué iteraciones se realizaron, qué parte del contenido se aceptó sin cambios y cuál fue corregida. La consigna busca algo más que un informe honesto, funciona como instrumento de investigación.
Con esa granularidad, el congreso podrá analizar cómo varía la calidad a medida que crece o disminuye la intervención humana, una pregunta decisiva si se pretende entender la utilidad real de estos sistemas en investigación.
La cifra de entradas ayuda a dimensionar el fenómeno. Los organizadores reportaron más de 300 envíos y una selección final de 48 trabajos. La mayoría son estudios computacionales, sin experimentos de laboratorio húmedo, que navegan desde matemática aplicada hasta psicoanálisis computacional. El recorte temático no es accidental. Es más sencillo auditar resultados cuando no hay variables de banco de trabajo, y el objetivo inmediato es aislar el desempeño en redacción técnica, revisión metodológica y consistencia argumental.
El proceso de evaluación también fue diseñado para producir un contraste útil. La primera ronda quedó en manos de agentes que aplicaron las guías de revisión, la escala de puntajes y los criterios de una conferencia de referencia en aprendizaje automático. Los trabajos mejor posicionados, ya filtrados por máquinas, recibieron además la mirada de un consejo asesor humano. Las revisiones se publicarán en acceso abierto, y los organizadores prometen un análisis comparativo entre dictámenes automáticos y dictámenes escritos por personas.
En términos de investigación metacientífica, ese corpus es oro: permite estudiar dónde aciertan, dónde fallan y de qué manera fallan los sistemas cuando evalúan novedad, significación o claridad metodológica.
No es un capricho ni una provocación. La presión sobre el sistema de revisión por pares creció de forma sostenida en los últimos años, con un volumen de envíos que se duplicó en conferencias clave. En paralelo, herramientas de generación textual se volvieron ubicuas. Entre ambos vectores, el cuello de botella es evidente: faltan horas humanas para evaluar con profundidad todo lo que entra.
El congreso propone explorar una respuesta concreta, no para reemplazar evaluadores, sino para calibrar un esquema híbrido con criterios verificables. Si se comprueba que un filtro automático acierta en detectar errores formales, plagio o inconsistencias obvias, puede liberar tiempo de las personas para juzgar aportes sustantivos.
Qué se quiere probar y qué se quiere evitar
El diseño del evento busca prevenir dos derivas conocidas. La primera es la ilusión de novedad. Modelos avanzados pueden producir artículos bien escritos que, sin embargo, confunden correlación con causalidad o maquillan inferencias débiles. Para contener ese riesgo, el congreso exigió que cada envío exponga con precisión los datos utilizados, las transformaciones aplicadas y la cadena de razonamiento. No alcanza con una prosa impecable si el soporte es endeble. La segunda deriva es la obediencia ciega. Está documentado que algunos revisores automáticos siguen instrucciones ocultas o sesgos de formato y terminan otorgando valor a textos mediocres. Por eso, además del protocolo, habrá contraste abierto con dictámenes humanos, una manera de exhibir patrones de error y proponer resguardos.
La escena de este octubre llega, además, con termómetro social. Un relevamiento amplio entre revisores mostró una comunidad dividida. Crece la adopción de herramientas de apoyo para tareas puntuales, como verificar referencias o sugerir redacción más clara, pero la mayoría no aceptaría que un informe de revisión sea escrito enteramente por un sistema en un manuscrito que coautoró. Ese dato introduce una frontera pragmática. Hay disposición a utilizar asistentes como insumo, no a delegar la responsabilidad completa. El “sandbox” intenta mapear dónde, exactamente, puede trazarse una línea razonable.
Los nombres propios ayudan a entender el encuadre. El evento fue coorganizado por James Zou, investigador de Stanford que estudia la intersección entre evaluación científica y automatización. En el programa figuran voces con trayectoria en metaciencia y física, un guiño a la diversidad disciplinaria que el equipo promueve. La consigna, repetida por sus impulsores, es que el congreso no pretende legitimar “autores automáticos” para el resto de la academia. Quiere, más bien, observar con lupa qué aportan y qué rompen cuando se los usa como productores y como árbitros, algo que en la práctica ya está ocurriendo en las sombras.
En esa línea, el evento también funcionará como banco de datos. Con 48 trabajos aceptados y sus respectivas revisiones abiertas, el equipo planea un análisis posterior para establecer métricas de calidad, frecuencia de errores, sensibilidad a instrucciones maliciosas y capacidad para detectar plagio o hallazgos triviales. Es posible que de allí surjan lineamientos operativos para revistas y conferencias que buscan reglas más claras. Lo relevante no es una declaración grandilocuente, sino manuales, escalas y ejemplos públicos que otros puedan adoptar o refutar con evidencia.
Una foto del sistema científico bajo estrés
La discusión de fondo trasciende a este encuentro puntual. La ciencia contemporánea lidia con una sobreproducción de textos y con tiempos de revisión que se estiran. Las editoriales y los comités organizadores batallan para sostener estándares en medio de un flujo que no afloja. En ese paisaje, la automatización no es una moda, es una respuesta esperable. La pregunta pertinente no es si conviene usarla, sino dónde y cómo. El experimento de octubre ofrece un marco para responder con menos intuición y más medición.
También habrá evidencia sobre el rol de las personas. Los envíos debieron consignar qué tanto guiaron los humanos cada paso y cómo validaron resultados. Esa bitácora permitirá sopesar hipótesis razonables. Por ejemplo, que la calidad sube cuando el equipo aporta restricciones explícitas, fija criterios de evaluación y corrige al agente en etapas tempranas. O que los errores más costosos aparecen cuando se delegan decisiones metodológicas a sistemas que no distinguen entre correlatos y relaciones causales. Con esa información, un comité editorial puede decidir en qué instancias incorporar soporte automático sin degradar la vara.
Hay, claro, limitaciones que conviene mencionar. La mayoría de los trabajos aceptados son computacionales, lo que acota la generalización a disciplinas con bancos de trabajo físicos, costos experimentales y criterios de reproducibilidad más estrictos. Aun así, el aprendizaje es trasladable. La redacción de informes, la verificación de referencias, la identificación de inconsistencias formales y la comparación con literatura reciente son tareas transversales donde los asistentes pueden sumar siempre que la supervisión sea explícita y auditable.
Un director de programa que ensaya la herramienta desde hace meses lo explica con una imagen clara. “La utilidad no está en pedir un paper de cero y creer en el resultado. Está en tener un borrador razonable de métodos y resultados para que el equipo lo desarme, lo mejore y lo coteje con datos. Si el proceso deja rastro y el revisor humano puede seguir la cadena de decisiones, ganamos tiempo sin perder control”. Es una declaración hipotética, pero sintetiza la intuición que el congreso quiere validar con números.
El resto es política científica aplicada. Si los datos muestran que los dictámenes automáticos aciertan en lo obvio y fallan en lo sutil, la respuesta no será expulsarlos, será entrenarlos como filtros tempranos y reservar a las personas el juicio de mérito. Si, en cambio, emergen sesgos sistemáticos o vulnerabilidades fáciles de explotar, la prioridad pasará por blindar procesos y restringir su rol. En cualquier caso, el valor de esta semana reside en poner un espejo delante del sistema y observarlo sin maquillaje.
Qué quedará después de la transmisión en vivo
Cuando termine la jornada y se apaguen las presentaciones pregrabadas, quedará un repositorio de trabajos, revisiones y discusiones con valor duradero. También un mapa de riesgos y beneficios, menos opinable que los hilos virales de meses anteriores. Si algo distingue a esta experiencia es su vocación de dejar material verificable: revisiones públicas, criterios de aceptación y un programa con nombres propios que se hacen responsables de la curaduría.
Para quienes ven en la automatización un atajo irresponsable, el congreso puede ofrecer el alivio de una contabilidad concreta. Para quienes apuestan por un uso intensivo, puede aportar el límite de una auditoría real. Entre ambos, quedará la versión más productiva de la conversación: menos consignas y más comparaciones.
En un año de anuncios estridentes, Agents4Science propone un gesto más humilde y, por eso mismo, más útil. Encender las cámaras, exhibir procesos y aceptar que el veredicto no lo dicta un manifiesto, sino la evidencia.
Referencias:
- Nature, “AI bots wrote and reviewed all papers at this conference,” por Elizabeth Gibney. (Nature)
- Sitio oficial de Agents4Science 2025, convocatoria, reglas de autoría y revisión, y descripción del evento. (agents4science.stanford.edu)
- Programa y agenda de Agents4Science 2025, con panelistas y estructura de la jornada del 22 de octubre. (agents4science.stanford.edu)
- OpenReview, ficha del grupo “Agents4Science 2025” y esquema de revisiones públicas. (openreview.net)
- Publicación del Institute of Physics, resultados de la encuesta global sobre uso de herramientas generativas en revisión por pares, septiembre de 2025. (ioppublishing.org)
- Comunicación de James Zou sobre envíos y aceptaciones, y fecha del evento. (X (formerly Twitter))
- Cobertura complementaria sobre el enfoque del congreso y la figura de un “sandbox” de investigación automatizada. (aiwire.net)