Suscríbete a MUNDO IA

Adiós a la supremacía del texto: el paradigma visual en ARC

Generated Image November 20, 2025 - 11_56PM

Adiós a la supremacía del texto: el paradigma visual en ARC

ARC es un Problema de Visión

En los corredores de la investigación en inteligencia artificial, resuena desde hace años una pregunta fundamental, casi filosófica: ¿qué es la verdadera inteligencia? Más allá de la asombrosa capacidad de los modelos actuales para predecir la siguiente palabra en una frase o generar imágenes fotorrealistas, subyace un objetivo más profundo y esquivo: la agilidad mental, la capacidad de extrapolar, de entender conceptos abstractos y aplicar reglas lógicas a situaciones completamente nuevas. Esta es la esencia del razonamiento fluido, el pilar de la cognición humana que las máquinas, hasta ahora, apenas lograban imitar. La industria, en su frenética carrera, parecía haber apostado todo a una sola modalidad: el lenguaje. La hipótesis dominante era que, si un sistema podía dominar la vasta complejidad de la gramática humana y el conocimiento codificado en el texto, el razonamiento abstracto emergería como una consecuencia natural.

Para medir este salto de la imitación al entendimiento, el investigador de Google François Chollet diseñó en 2019 un desafío formidable, una especie de prueba de fuego para la cognición artificial. Lo llamó el Abstraction and Reasoning Corpus, o ARC. No es un test de conocimiento enciclopédico, sino una colección de endiablados rompecabezas visuales. Cada problema presenta un puñado de ejemplos, usualmente tres pares de cuadrículas de colores. El primer par muestra una cuadrícula de entrada y su correspondiente cuadrícula de salida. El segundo par hace lo mismo, al igual que el tercero. Luego, se presenta una cuadrícula de prueba final. La tarea de la IA es deducir la regla abstracta o la transformación lógica que conecta las entradas con las salidas en los ejemplos, y aplicarla correctamente a la cuadrícula de prueba.

Ejemplo 1
Ejemplo 2
Prueba
?

Figura 1: Representación esquemática de un desafío ARC. La IA debe deducir la regla visual (rellenar la forma más grande) y aplicarla al caso de prueba.

Este desafío se reveló como el Everest de la IA. Las reglas son de una variedad inmensa: pueden implicar simetría, rotación, conteo, detección de objetos, continuidad o la combinación de múltiples conceptos. Lo crucial es que estas reglas no se encuentran en ningún conjunto de datos de entrenamiento previo. La máquina debe descubrirlas en el acto, usando apenas un par de ejemplos. Los grandes modelos de lenguaje (LLMs), a pesar de su destreza lógica, tropezaban. Intentaban traducir el rompecabezas visual a una descripción textual, razonar sobre esa descripción y luego revertir el proceso. Era un método indirecto, torpe y, con frecuencia, erróneo. El consenso tácito era que ARC era, quizás, un problema irresoluble para la generación actual, o que requería arquitecturas de razonamiento simbólico radicalmente nuevas.

Hasta ahora. Un nuevo trabajo de investigación proveniente del Instituto de Tecnología de Massachusetts (MIT) ha roto drásticamente con este consenso, planteando una hipótesis tan elegante como revolucionaria, resumida en el propio título del artículo: ARC Is a Vision Problem! (¡ARC es un problema de visión!). El equipo, que incluye a figuras de la talla de Kaiming He, una leyenda en el campo de la visión por computador, sugiere que la comunidad de IA ha estado intentando resolver el acertijo con la herramienta equivocada. Argumentan que el camino para descifrar estos puzzles lógicos no pasa por la elocuencia del lenguaje, sino por la agudeza de la percepción.

La propuesta del MIT es despojar al problema de su ropaje lingüístico y abordarlo en su forma más pura: como una tarea de traducción de imagen a imagen. En lugar de pedirle a un modelo que describa la transformación, le piden que la vea. Para lograrlo, desarrollaron un sistema llamado Vision ARC (VARC), que utiliza una arquitectura estándar de visión artificial, un Vision Transformer (ViT). Este sistema no fue preentrenado con la ingente cantidad de datos de internet, como los LLMs, sino que se entrenó desde cero utilizando únicamente los propios datos de ARC. Y para generalizar a reglas nunca vistas, el equipo implementó una técnica ingeniosa llamada entrenamiento en tiempo de prueba (test-time training).

Los resultados son asombrosos. VARC alcanzó una precisión del 60.4% en el benchmark ARC-I, un subconjunto de la prueba. Esta cifra no solo pulveriza los resultados de métodos anteriores entrenados desde cero, sino que se muestra competitiva con los gigantescos modelos de lenguaje que partían con la ventaja de haber digerido bibliotecas enteras. El trabajo del MIT no solo presenta un sistema más eficaz, sino que obliga a la comunidad científica a reevaluar sus supuestos fundamentales sobre la relación entre la visión, el lenguaje y el núcleo mismo de la inteligencia.

El Everest de la inteligencia artificial

Para comprender la magnitud de este avance, primero hay que entender la profundidad del abismo que representa ARC. François Chollet, una voz a menudo crítica con las métricas de IA centradas en el rendimiento sobrehumano en tareas específicas, diseñó el corpus con una filosofía clara. Buscaba medir algo más cercano a la inteligencia fluida: la capacidad de un agente para adaptarse y resolver problemas novedosos, independientemente del conocimiento o las habilidades previamente adquiridas.

Un ser humano que se enfrenta a un puzzle de ARC no activa una base de datos de problemas resueltos. En lugar de eso, observa. Percibe patrones, colores, formas. Nota que el objeto rojo de la entrada parece haberse movido dos casillas a la derecha en la salida. Observa que todas las formas azules han sido eliminadas. O quizás, que la salida es una versión rellenada del contorno más grande presente en la entrada. El humano formula hipótesis visuales y las contrasta con los ejemplos. Este proceso es inherentemente perceptivo.

Los intentos anteriores de la IA fracasaron precisamente porque carecían de esta intuición visual. Los sistemas de aprendizaje profundo tradicionales, entrenados en millones de imágenes, son excelentes para reconocer gatos, perros y señales de tráfico, pero fallan estrepitosamente cuando se les pide que reconozcan un concepto abstracto como simetría o el objeto más grande en una cuadrícula minimalista que no se parece en nada a una fotografía.

Los grandes modelos de lenguaje (LLMs) ofrecieron un camino alternativo. Al ser maestros de la lógica codificada en el texto, los investigadores intentaron convertir el problema. Crearon representaciones textuales de las cuadrículas (por ejemplo, "Fila 1: rojo, azul, negro. Fila 2: negro, rojo, azul..."). Luego, le pedían al LLM que razonara sobre esta descripción y predijera la descripción textual de la cuadrícula de salida. Este enfoque, aunque obtuvo cierto éxito, siempre pareció una solución provisional. Se perdía una cantidad inmensa de información espacial en la traducción. ¿Cómo describir textualmente la forma de un objeto irregular de manera eficiente? ¿Cómo capturar la proximidad o la textura visual? El modelo lingüístico estaba operando con una suerte de ceguera autoimpuesta, tratando de resolver un rompecabezas espacial a través de un intermediario textual.

Un giro copernicano: de la palabra a la imagen

El equipo del MIT, con la autoridad que confiere la presencia de Kaiming He, propuso un giro radical. El argumento central es que el razonamiento abstracto en ARC no es una tarea de alto nivel separada de la percepción; por el contrario, emerge directamente de ella. Los humanos no vemos primero y razonamos después; el acto de ver es razonar.

Enfoque Tradicional (LLM)

🧩 Grid Visual
↓ Traducción a Texto
📄 "Fila 1: Azul, Rojo..."
↓ Razonamiento de Texto
🤖 Salida de Texto (Propenso a error)

Nuevo Enfoque (VARC)

🖼️ Lienzo (Canvas)
↓ Visión Directa
👁️ Vision Transformer (ViT)
Solución Visual Exacta

Figura 2: Comparativa del flujo de información. Mientras el método antiguo pierde contexto espacial al traducir a texto, VARC mantiene la integridad visual mediante un procesamiento directo de imagen a imagen.

La propuesta fue, por tanto, reformular el desafío. Abandonaron el paradigma lingüístico y adoptaron uno puramente visual: la traducción de imagen a imagen. Este es un campo muy establecido en la visión por computador. Tareas como colorear una foto en blanco y negro, convertir un boceto en una imagen fotorrealista o transformar una foto diurna en una nocturna, son todas formas de traducción de imagen a imagen. Los investigadores del MIT plantearon que pasar de la cuadrícula de entrada de ARC a la de salida era, conceptualmente, el mismo tipo de problema. La regla abstracta no era más que una traducción visual muy compleja.

Para que esto funcionara, debían encontrar una forma de representar las cuadrículas de ARC de manera que una arquitectura de visión estándar pudiera procesarlas. Aquí es donde entra el concepto del lienzo (canvas). En lugar de tratar las cuadrículas como matrices simbólicas de números, las dibujaron en un lienzo visual, de forma muy parecida a como se representaría una imagen digital. Cada celda de la cuadrícula se convirtió en un parche de píxeles en esta imagen más grande.

Este paso, aparentemente sencillo, es de una importancia capital. Al tratar la entrada como una imagen natural, permitieron que el modelo de visión aplicara sus priors visuales innatos. Un prior visual es un sesgo o suposición fundamental que un sistema de visión tiene sobre cómo funciona el mundo visual. Por ejemplo, la idea de que los objetos tienden a ser continuos, que las texturas son uniformes, o que los píxeles cercanos están más relacionados entre sí que los lejanos. Al convertir la cuadrícula de ARC en una imagen, el sistema podía ver un grupo de celdas rojas no como una lista de coordenadas, sino como un objeto coherente. Podía entender la proximidad y la forma de manera nativa, sin necesidad de una descripción textual.

La elegancia de la simplicidad: un transformador desnudo

Para ejecutar esta traducción de imagen a imagen, el equipo del MIT no inventó una nueva arquitectura exótica. Optaron, en cambio, por la elegancia de la simplicidad. Utilizaron una versión vainilla (es decir, estándar, sin modificaciones) de un Vision Transformer (ViT). La arquitectura Transformer es la misma que impulsa a los grandes modelos de lenguaje, pero el ViT la adapta al dominio visual. Lo hace dividiendo la imagen de entrada (en este caso, el lienzo de ARC) en una serie de parches o trozos más pequeños. Luego, analiza las relaciones contextuales entre todos estos parches simultáneamente.

El hecho de que utilizaran un ViT estándar es en sí mismo una declaración. Demuestra que la clave del éxito no residía en un diseño de modelo esotérico, sino en la correcta formulación del problema.

Aún más significativo es cómo entrenaron este modelo. La tendencia actual en IA es el preentrenamiento masivo. Modelos como GPT-4 o Claude son entrenados en billones de palabras extraídas de la totalidad de internet. Absorben todo el conocimiento humano codificado antes de ser afinados para tareas específicas. El equipo del MIT rechazó deliberadamente este enfoque. Su modelo, VARC, fue entrenado desde cero (from scratch).

Esto significa que la red neuronal comenzó como una pizarra en blanco, sin ningún conocimiento previo del mundo, del lenguaje, de la física o del arte. El único dato que vio en su vida fue el conjunto de entrenamiento de ARC. Este es un punto crucial. Entrenar desde cero es muchísimo más difícil, pero garantiza que el rendimiento del modelo proviene de su capacidad para aprender a razonar a partir de los propios rompecabezas, y no de haber memorizado soluciones análogas de algún rincón de la web. Este enfoque se asemeja mucho más a la inteligencia fluida que Chollet quería medir: la habilidad pura de encontrar patrones y abstraer reglas.

El hecho de que un modelo entrenado desde cero pudiera no solo funcionar, sino superar a los modelos preentrenados en tareas específicas, era algo que muchos consideraban improbable. El éxito de VARC sugiere que el conjunto de datos de ARC, aunque pequeño, contiene la estructura suficiente para enseñar el razonamiento abstracto visual si se le aborda con la modalidad perceptiva correcta.

El as en la manga: aprender en el momento del examen

El entrenamiento desde cero permitía a VARC aprender patrones generales de transformaciones visuales (como "mover formas" o "cambiar colores"). Pero, ¿cómo podía generalizar a una regla completamente nueva, definida por solo tres ejemplos, en el momento de la prueba? Aquí es donde el equipo del MIT desplegó su mecanismo más ingenioso: el entrenamiento en tiempo de prueba (Test-Time Training o TTT).

El procedimiento estándar de la IA es entrenar un modelo durante meses, congelarlo (dejar de modificarlo) y luego usar ese modelo estático para hacer predicciones sobre datos nuevos. El TTT subvierte esta lógica. Es un enfoque dinámico que permite al modelo seguir aprendiendo incluso después de haber sido desplegado.

Cuando a VARC se le presenta un nuevo rompecabezas de ARC, no se limita a aplicar ciegamente su conocimiento general. Primero, toma los pares de demostración (los ejemplos de entrada y salida) y los trata como un diminuto conjunto de datos de entrenamiento. Realiza un rápido micro-entrenamiento sobre la marcha, ajustando sus propios parámetros internos para encontrar una transformación que convierta con éxito cada entrada de demostración en su salida correspondiente.

Figura 3: Curva de aprendizaje en tiempo real. El gráfico muestra cómo el error de predicción (eje Y) disminuye drásticamente a medida que el modelo realiza ciclos de entrenamiento (eje X) sobre el problema específico que tiene delante.

Este proceso es el análogo mecánico de la deliberación humana. Es el momento en que una persona mira los ejemplos, frunce el ceño y piensa: "Ajá, en este puzzle en particular, parece que la regla es reflejar la forma verticalmente". El modelo se afina a sí mismo para especializarse en esa regla específica. Solo después de este rápido proceso de auto-ajuste, el sistema toma la cuadrícula de prueba final y aplica la transformación que acaba de aprender.

Esta capacidad de adaptarse en caliente a la lógica específica de cada nuevo problema es lo que le da a VARC su poder de generalización. No intenta encontrar una regla maestra que resuelva todos los puzzles, sino que se convierte en un experto instantáneo en el micro-universo de cada puzzle individual.

Los números que reescriben el campo

La combinación de la formulación visual, el entrenamiento desde cero y el TTT produjo resultados que han sacudido a la comunidad. El 60.4% de precisión de VARC en el benchmark ARC-I es un salto cuántico. Para ponerlo en contexto, los métodos anteriores que también entrenaban desde cero (sin la ventaja del preentrenamiento masivo) apenas lograban superar el 20% o 30%. VARC no solo fue mejor; redefinió la escala de lo posible.

Figura 4: Comparativa de precisión en ARC-I. VARC (60.4%) supera ampliamente a los métodos previos entrenados desde cero y se acerca al rendimiento de los LLMs masivos, a pesar de ser un modelo mucho más ligero y no usar datos externos.

Más impresionante aún es su comparación con los gigantescos modelos de lenguaje. Aunque las comparaciones directas son difíciles debido a las diferentes metodologías, el rendimiento de VARC es competitivo con los resultados reportados de los LLMs más avanzados, que partían con la ventaja de haber sido entrenados en todo internet. El sistema del MIT, ciego a cualquier conocimiento externo y entrenado solo en los puzzles, logró igualar en destreza a los sistemas más grandes y costosos del planeta.

Por supuesto, el 60.4% no es la perfección. El rendimiento humano promedio en ARC se estima en torno al 80-85%. Todavía hay un trecho significativo hasta la cognición humana. Los propios autores señalan que su sistema aún tiene dificultades con tareas que requieren un conteo preciso de objetos o transformaciones más complejas. Pero el camino ya no es una pared vertical; ahora es una pendiente escalable. El trabajo no cierra el capítulo de la IA, sino que abre uno completamente nuevo y más prometedor.

La miopía de la industria y el nuevo horizonte

El artículo ARC Is a Vision Problem! es mucho más que la presentación de un modelo exitoso. Es una elegante y rigurosa corrección de rumbo para todo el campo de la inteligencia artificial. Sugiere que la obsesión de la industria por escalar modelos de lenguaje, aunque inmensamente productiva para ciertas tareas, puede haber creado una miopía intelectual, descuidando el poder fundamental de la percepción.

La inteligencia humana no surgió en un vacío textual. Evolucionó durante millones de años para navegar un mundo tridimensional complejo, para rastrear presas, para reconocer rostros, para manipular herramientas. Nuestra capacidad para el razonamiento abstracto (para las matemáticas, la física o la filosofía) se construyó sobre esta base perceptiva primordial. El trabajo del MIT nos recuerda que, para construir una máquina que piense como un humano, quizás primero debamos construir una que vea como un humano.

Las implicaciones son profundas. Podría significar que la próxima generación de IA verdaderamente general no serán modelos de lenguaje puros, sino arquitecturas multi-modales nativas, donde la visión y el lenguaje no estén meramente conectados, sino intrínsecamente entrelazados. La visión por computador, que en los últimos años había sido eclipsada en la conversación pública por el brillo de los LLMs, regresa al centro del escenario como un componente indispensable en la búsqueda de la inteligencia general.

El equipo del MIT no ha resuelto la inteligencia artificial, pero ha iluminado un camino que la comunidad había pasado por alto. Nos han recordado que, en la compleja sinfonía de la cognición, la palabra es poderosa, pero la imagen es, quizás, primigenia.

Referencias

Hu, K., Cy, A., Qiu, L., Ding, X. D., Wang, R., Zhu, Y. E., Andreas, J., & He, K. (2025). ARC Is a Vision Problem! arXiv:2511.14761 [cs.CV].
Chollet, F. (2019). The Measure of Intelligence. arXiv:1911.01547 [cs.AI].

Publicaciones Recientes

Google_AI_Studio_2025-12-08T04_16_04.949Z

El auge de los centros de datos y su impacto en la economía real

<p>El nuevo sistema nervioso del planeta: una fiebre del hormigón y silicio reescribe la economía global Mientras los
Leer Más

Para estar informado, Ingresá o Creá tu cuenta en MundoIA...

Entrar

Recordá revisar la carpeta de "no deseados", el correo puede llegar allí