NEWSLETTER

Altman y Deutsch proponen un Test de Turing 2.0: hacia un estándar de conocimiento inventivo

480fc66f-ce5a-4499-8f99-d83b5d4e41e9

Altman y Deutsch proponen un Test de Turing 2.0: hacia un estándar de conocimiento inventivo

La discusión sobre cómo medir la inteligencia de las máquinas acompaña a la informática desde su origen. Durante décadas, la referencia popular fue el experimento propuesto por Alan Turing en 1950, que reducía la evaluación a una situación de conversación encubierta. Si un observador no distinguía entre una persona y una máquina, podía declararse un triunfo de la simulación. El poder de aquel planteo fue simbólico y pedagógico, pero el mundo cambió. Hoy los sistemas conversan con soltura, escriben informes extensos, organizan presentaciones y programan. En paralelo, siguen sin claridad los umbrales que separan la imitación del descubrimiento. Por eso resulta significativo que el director ejecutivo de OpenAI, Sam Altman, y el físico David Deutsch hayan coincidido en una propuesta que sube la vara y desplaza el foco: un Test de Turing 2.0 que no premie la apariencia, sino la capacidad de generar conocimiento nuevo y explicarlo con detalle.

La tesis central de esta idea es sencilla de enunciar y compleja de implementar. Ya no bastaría con dialogar de modo convincente. La nueva vara exigiría que una inteligencia artificial resolviera un problema científico abierto de máxima dificultad y, además, ofreciera una explicación comprensible de su itinerario mental. La atención mediática se concentró en el ejemplo más provocador: si un modelo lograra una teoría consistente de gravedad cuántica y pudiera relatar por qué, cómo y con qué pruebas llegó a ese resultado, estaríamos ante una evidencia poderosa de inteligencia a nivel humano. La formulación no busca agrandar el espectáculo, sino evitar atajos. El objetivo es separar la capacidad de producir discursos verosímiles de la facultad de inventar soluciones verificables que integren predicciones, método y justificación.

El contexto inmediato ayuda a entender la ambición. En los últimos dos años hubo avances notables en sistemas de lenguaje, razonamiento asistido y uso de herramientas. Al mismo tiempo, creció el escepticismo frente a indicadores que premian la memorización o la optimización sobre exámenes estandarizados. El llamado Test de Turing 2.0 se inscribe en ese giro: propone un terreno donde el resultado no sea un diálogo pulcro, sino un hallazgo que soporte escrutinio, refutación y réplica. Es un cambio de paradigma metodológico que, con independencia de su ejecución concreta, ordena la conversación pública en torno de un estándar más exigente.

Para establecer el marco mínimo de hechos: la propuesta se planteó en un evento en Berlín, donde Altman recibió un reconocimiento y sostuvo una conversación pública en la que participó Deutsch. Allí ambos coincidieron en que un desafío científico de frontera, resuelto y explicado por una máquina, podría constituir un umbral razonable para hablar de inteligencia general. La idea fue reportada por diversos medios con detalles coincidentes sobre la escena y el sentido de la discusión. En ese intercambio, el físico subrayó la diferencia entre un sistema que imita y uno que crea conocimiento, y el ejecutivo avanzó con la hipótesis operativa de la gravedad cuántica como ejemplo de vara máxima.

Qué es el Test de Turing 2.0

La primera característica del nuevo estándar es conceptual. En lugar de una prueba de engaño, propone una evaluación de producción. En una conversación, un sistema puede ocultar carencias mediante generalidades elegantes, frases de transición y un estilo que suene natural. En ciencia, en cambio, el listón es más alto. Para que un resultado sea aceptado requiere consistencia interna, capacidad de predicción y un relato metodológico que permita a terceros replicar el procedimiento. La diferencia es clave. Un modelo que escribe con soltura puede dar la ilusión de comprensión sin haber entendido, mientras que una teoría con poder explicativo no resiste sin anclaje empírico y sin un esqueleto lógico.

La segunda pieza es la exigencia de transparencia. El ejemplo de la gravedad cuántica funciona como síntesis de lo que se pide: no solo entregar fórmulas o conclusiones, sino reconstruir el camino. En un sentido, se trata de exigir una “biografía del descubrimiento”. Por qué se siguió una pista, qué hipótesis alternativas se descartaron, qué experimentos mentales llevaron a privilegiar un enfoque, qué predicciones se derivan y cómo podrían contrastarse. En la práctica, la prueba no se limita a la respuesta final. Incluye el proceso, un aspecto que en el trabajo científico real resulta tan o más importante que el desenlace.

El tercer rasgo es la novedad real. Las inteligencias actuales son excelentes combinadoras. Toman patrones, reordenan piezas y producen textos razonables a partir de ejemplos previos. El nuevo test obliga a ir más allá del remix. No alcanza con reorganizar hipótesis existentes; hace falta un salto que entregue conocimiento no contenido explícitamente en los datos de entrenamiento. La vara no exige milagros. Pide que la máquina demuestre la capacidad de proponer principios y derivar consecuencias inesperadas que, al ser examinadas, resistan la crítica.

Hay, además, una cuestión de validación. En el planteo original, el problema ejemplar es la unificación de la mecánica cuántica con la relatividad. Podría ser otro de dificultad comparable, seleccionado por una comunidad de referencia. La clave es que exista un comité científico externo que evalúe la coherencia, examine predicciones y pida clarificaciones. El espíritu no es convertir a la IA en un oráculo infalible, sino someterla a la misma disciplina que enfrentan las personas en una comunidad de pares. La vara es alta por diseño.

Por último, el Test 2.0 no necesita limitarse a la física. Puede diseñarse como un conjunto de “grandes desafíos” en distintas disciplinas con mecanismos de prueba y auditoría propios. La agricultura, la energía, la medicina o la logística tienen enigmas suficientes que requieren teoría, método y verificación. El ejemplo de la gravedad cuántica resultó conveniente por su carácter icónico, pero el concepto es adaptable a otras áreas donde el progreso medible sea posible.

Por qué ahora y quiénes lo impulsan

Hay un motivo inmediato para que esta propuesta aparezca en este momento. Los sistemas han cruzado una frontera de plausibilidad que hace diez años parecía lejana. La facilidad con que redactan informes, sintetizan literatura y generan presentaciones cambió el modo de trabajar de profesionales en múltiples sectores. Sin embargo, esa soltura convive con fragilidades bien documentadas: errores sutiles, invenciones de citas, conclusiones plausibles que se caen ante el primer contraste. En ese contexto, el argumento de Altman y Deutsch busca restablecer una distinción operativa: no confundir facilidad de hablar con capacidad de conocer.

En el fondo, se trata de una pregunta filosófica con dientes prácticos. Deutsch viene insistiendo desde hace años en que la inteligencia humana se caracteriza por crear explicaciones universales y por refinarlas a través de la crítica. No es solo un asunto de procesar más datos, sino de proponer principios que organizan fenómenos y permiten deducir consecuencias no triviales. En ese sentido, el Test 2.0 traslada esa concepción al terreno de la evaluación tecnológica. Si un sistema logra esa clase de invención, y puede exponer su razonamiento, habrá dado un paso cualitativo.

Para Altman, que lidera una empresa en el centro de la conversación pública sobre inteligencia artificial, el planteo tiene otra función. Permite ordenar expectativas, diferenciar avances incrementales de hitos y respirar aire fresco en un ecosistema saturado de métricas que ya no discriminan. Los récords en exámenes académicos perdieron poder informativo, porque es posible entrenar modelos para optimizarlos. Un desafío con verificación externa y con un relato metodológico exigente es más difícil de sobreajustar. Aporta señal donde hay ruido.

También hay una lectura política: un estándar alto y auditable da argumentos más sólidos a reguladores, universidades y laboratorios para delimitar el discurso sobre inteligencia general. En un mercado que multiplica promesas, la existencia de una vara aceptada convalidaría afirmaciones con consecuencias económicas y sociales. No se trata de prohibir exageraciones por decreto, sino de empujar a los actores a someter sus proclamaciones a pruebas más creíbles.

El dónde y el cuándo suman contexto. La propuesta brotó en una conversación pública en Berlín, ciudad que se ha consolidado como polo de debate europeo sobre tecnología. No fue un paper ni un comunicado, sino un intercambio en vivo que permite leer la idea como punto de partida más que como sentencia cerrada. Ese formato tiene valor. Abre la puerta a que comunidades científicas, foros regulatorios y grupos de trabajo articulen versiones operativas del test, definan criterios y construyan procedimientos.

Hay otro “por qué” relevante: disciplinar los incentivos. En ausencia de una vara robusta, un laboratorio puede concentrarse en impresionar a usuarios con chat fluido y gráficos atractivos. Cuando se instala un desafío de contenido duro, el incentivo se desplaza hacia capacidades de razonamiento, trazabilidad y explicación. En lugar de premiar el brillo superficial, se premia la ingeniería del conocimiento.

Cómo podría evaluarse y qué problemas pretende resolver

Para que el Test de Turing 2.0 no se quede en metáfora, necesita diseño. Una versión razonable podría organizarse en tres capas. La primera, de desafío, establece el problema con precisión. Debe definir hipótesis plausibles a contrastar, acotar los datos que el sistema puede usar y fijar el formato de entrega. La segunda, de explicación, exige una narrativa del proceso: por qué se tomaron decisiones, cómo se descartaron alternativas, qué aproximaciones se evaluaron y cuáles fueron los criterios. La tercera, de verificación, asigna a un comité independiente la tarea de reproducir cálculos, evaluar predicciones y pedir aclaraciones. Esta última capa es central. La comunidad humana valida y, si corresponde, otorga el reconocimiento de éxito.

El protocolo de evaluación podría incorporar varias salvaguardas. Una es la trazabilidad del razonamiento. No alcanza con un texto final impecable; hace falta la “bitácora” del camino. Otra es el control del material de entrenamiento para evitar que el modelo haga pasar por hallazgo algo que ya estaba contenido en el corpus. Esto requiere técnicas de auditoría que identifiquen coincidencias sustanciales y verifiquen novedad. Una tercera salvaguarda es la reproducibilidad computacional: que otros equipos, con recursos comparables, puedan ejecutar el procedimiento y llegar a resultados compatibles.

El test también debería prever la posibilidad de avances parciales. Resolver de un golpe un problema colosal es improbable. Sin embargo, hay progresos que merecen reconocimiento. Por ejemplo, una conjetura demostrada que reduce el espacio de hipótesis, una metodología novedosa que aporta un atajo o una predicción empírica que, puesta a prueba, coincide con observaciones. En esos casos, el estándar podría funcionar como un sistema de niveles que reconoce escalas de logro sin diluir la exigencia máxima.

La idea pretende corregir tres problemas frecuentes en la discusión actual. Primero, la confusión entre apariencia y comprensión. Un informe bien escrito puede dar la ilusión de dominio sin sustancia. Un test centrado en conocimiento nuevo limita esa posibilidad. Segundo, la tendencia a optimizar sobre exámenes repetidos. Cuando la métrica es estable y pública, los modelos pueden aprender a rendirla sin que eso implique habilidades transferibles. Un desafío abierto y cambiante dificulta ese sobreajuste. Tercero, la ambigüedad de las proclamaciones. La noción de “inteligencia general” se usa de forma laxa. Una vara externa reduce el margen de marketing.

La selección del problema es el punto más delicado. El ejemplo de la gravedad cuántica es útil por su simbolismo y su dificultad. También por su carácter interdisciplinario, que obliga a una integración de herramientas matemáticas, intuición física y diseño conceptual. Ahora bien, un comité amplio podría elegir una batería de grandes cuestiones para no concentrar todo el valor en un único campo. En medicina, por ejemplo, se podría pedir una teoría que unifique mecanismos de resistencia bacteriana con predicciones verificables de intervención. En energía, un esquema de almacenamiento de larga duración que cierre en términos físicos, logísticos y económicos, acompañado de una ruta de validación.

El diseño del jurado es igual de importante. No debería ser un círculo endogámico ni un grupo con interés directo en el éxito o fracaso del laboratorio evaluado. La independencia y la diversidad de enfoques científicos fortalecen la credibilidad del resultado. Un comité puede incluir especialistas, metodólogos, estadísticos y una cuota minoritaria de representantes de sectores sociales afectados por la implementación, como reguladores o instituciones públicas. Su función no sería sancionar papers, sino verificar estándares.

Un desafío adicional es el de las explicaciones accesibles. Un resultado técnico puede ser verdadero y, a la vez, difícil de comunicar. El Test 2.0 introduce una exigencia dual: verdad y claridad. Se puede resolver con formatos complementarios. Un dossier técnico para pares, con formalismo completo, y un texto expositivo para públicos más amplios, con analogías y ejemplos. La claridad no degrada la verdad. La hace auditable.

Por último, el protocolo debe contemplar la cuestión de tiempo y recursos. Si la prueba exige meses de cómputo y presupuestos solo al alcance de un puñado de empresas, se corre el riesgo de convertir el estándar en una competencia de músculo financiero. Ese sesgo puede mitigarse con límites de recursos, con categorías diferenciadas y con incentivos para equipos académicos. De nuevo, la idea no es construir una carrera de marketing, sino un instrumento de evaluación útil.

Balance y horizonte

La propuesta conjunta de Altman y Deutsch produce un efecto saludable. En un ecosistema de titulares ruidosos, vuelve a centrar la conversación en el contenido. No se trata de si una máquina escribe bonito ni de si contesta con solvencia sobre un tema cualquiera. Se trata de si es capaz de empujar el borde del conocimiento, de producir una explicación con poder predictivo y de sostenerla ante crítica experta. Ese giro pone la vara donde corresponde y ofrece un camino de adopción responsable.

Esto no significa que mañana una IA vaya a resolver problemas que resistieron décadas de trabajo humano. Tampoco que el Test 2.0 sea una bala de plata que organiza por sí solo el campo. Significa que, si el sector toma en serio la idea, habrá incentivos distintos. Habrá más inversión en trazabilidad del razonamiento, más trabajo en verificación externa, más disciplina metodológica. Es un ecosistema donde la confianza se construye con procedimientos, no con promesas.

Quedan preguntas en agenda. Una es si el estándar corre el riesgo de elegir problemas tan difíciles que nadie pueda superarlos a corto plazo, convirtiendo la evaluación en un horizonte siempre lejano. La respuesta razonable es trabajar con escalas, reservar la vara máxima como norte y diseñar logros intermedios con valor intrínseco. Otra pregunta es cómo evitar la dependencia de un único jurado o de una única institución. Aquí la solución pasa por federar instancias: varias sedes, comités independientes, registro público de procedimientos, documentación abierta donde sea posible.

También hay una dimensión cultural. El viejo test de Turing se instaló porque era comprensible. Permitía a cualquiera imaginar la escena y sacar conclusiones. El Test 2.0, al desplazar el foco a resultados científicos, corre el riesgo de volverse esotérico. Para evitarlo, hará falta un esfuerzo de comunicación que traduzca logros y explique qué se evaluó, por qué importa y cómo se verificó. Si se hace bien, puede convertirse en un relato inspirador sobre el trabajo intelectual y su valor social.

La industria tiene incentivos para colaborar. Un estándar alto y creíble favorece a quienes invierten en capacidades profundas y desalienta las carreras por el titular fácil. Las universidades y los centros públicos de investigación, por su parte, pueden ganar un terreno de cooperación con laboratorios privados en el diseño de desafíos y auditorías. Los reguladores, finalmente, encuentran una herramienta para discriminar afirmaciones en licitaciones, compras y protocolos de adopción.

La situación de partida, además, es propicia. La madurez alcanzada por los sistemas de lenguaje y los avances en razonamiento asistido permiten, por primera vez, plantear una prueba que no suene utópica. Nadie espera una solución inmediata a enigmas de frontera, pero sí un camino de progreso con hitos auditables. Ese simple cambio de expectativas ya es valioso.

Quizás el mayor aporte de este Test de Turing 2.0 sea devolver a la discusión su eje original. La pregunta nunca fue si una máquina puede sonar humana, sino si puede construir conocimiento con el rigor que exigimos a las personas. Mientras la tecnología avance, el desafío será sostener la exigencia y evitar atajos. Si el sector acepta someterse a una vara de explicación, predicción y verificación, ganará legitimidad ante el público y reducirá la distancia entre promesa y realidad.

En esa dirección, el acuerdo entre un líder industrial y un pensador de la epistemología moderna es una señal de época. Aporta un mapa para canalizar la energía del sector hacia metas que importan fuera del marketing. Si las máquinas quieren reclamar el título de inteligentes en sentido fuerte, deberán contarnos una historia verdadera sobre sus descubrimientos, aceptar la crítica y volver con una versión mejor. Solo entonces podremos decir que cruzaron un umbral que vale la pena reconocer. Y solo entonces la conversación sobre inteligencia artificial tendrá, por fin, una vara a la altura de su ambición.

Publicaciones Recientes

ChatGPT Image 15 oct 2025, 02_50_09

Extinción o despegue: los escenarios de IA según la Fed de Dallas

El artículo del Federal Reserve Bank of Dallas, de junio de 2025, “Advances in AI will boost productivity, living sta
Leer Más
3339bb68-0021-4526-976d-b40765fb726f

Los modelos de IA revelan un sesgo arraigado por la escritura humana

En las profundidades de un laboratorio digital en Princeton, un relato breve sobre un altercado en un autobús se transf
Leer Más

Para estar informado, Ingresá o Creá tu cuenta en MundoIA...

Entrar

Recordá revisar la carpeta de "no deseados", el correo puede llegar allí