NEWSLETTER

Mitad de coste, misma IA: el truco de leer píxeles

Google_AI_Studio_2025-10-23T21_07_21.320Z

Mitad de coste, misma IA: el truco de leer píxeles

Artículo: Texto vs. Píxeles en IA

Vivimos en la era de la escala. En el vertiginoso campo de la inteligencia artificial, el tamaño lo es todo. Los modelos de lenguaje que nos asombran, capaces de componer poesía, depurar código o debatir sobre filosofía, han crecido hasta alcanzar proporciones astronómicas. Se han vuelto colosales, no solo en su número de parámetros (los billones de conexiones neuronales que forman su "cerebro" digital), sino también en su apetito. Son devoradores insaciables de datos y, de forma más crítica, de un recurso que se ha convertido en la nueva moneda de cambio de la era digital: el poder computacional.

Cada vez que interactuamos con una de estas arquitecturas avanzadas, se libra una batalla silenciosa contra una barrera fundamental. Queremos que lean más, que comprendan contextos más amplios. No nos basta con que entiendan un párrafo; exigimos que analicen un contrato legal de ochenta páginas, que encuentren una única cláusula vital en un historial médico de décadas o que resuman una novela entera. Esta ambición por un "contexto largo" es la frontera actual de la IA. Y es una frontera ferozmente cara.

El coste no es una abstracción. Se mide en vatios, en dólares y en tiempo. La razón de este peaje exorbitante reside en la propia naturaleza de cómo estas máquinas "leen". No procesan palabras, sino "fichas" (tokens), que son fragmentos de texto, a veces una palabra completa, a veces una sílaba, a veces un solo signo de puntuación.

Un documento extenso puede descomponerse en decenas de miles, o incluso millones, de estas unidades léxicas. El problema es que el mecanismo central de la IA moderna, la "autoatención", obliga a que cada ficha mantenga una conversación computacional con todas las demás. A medida que la longitud del texto crece linealmente, el coste computacional explota de forma cuadrática. Doblar el texto no duplica el coste; lo cuadruplica.

El Problema: El "Impuesto al Token" de la IA

Procesar textos largos en IA es computacionalmente muy caro. La razón es el mecanismo de "auto-atención" del Transformer: el coste no crece linealmente con la longitud del texto, sino de forma cuadrática. Más texto no solo significa más trabajo, sino exponencialmente más trabajo.

10.000 Tokens de Texto
Atención Cuadrática
+100 Millones de Cálculos

Este coste explosivo es el mayor cuello de botella para analizar documentos extensos.

Este es el dilema que ha mantenido en vilo a los ingenieros de Google, OpenAI y todas las grandes casas de investigación. ¿Cómo podemos alimentar a estas bestias con la información que necesitan sin que el coste nos lleve a la bancarrota? La industria ha buscado la respuesta en algoritmos más inteligentes, hardware más rápido y todo tipo de ingeniosas optimizaciones.

Pero, ¿y si la solución no estuviera en el texto? ¿Y si, paradójicamente, la forma más eficiente de que una IA "lea" un texto largo no fuera dándoselo a leer?

Esta es la provocadora premisa de un trabajo de investigación que está reconfigurando silenciosamente nuestras suposiciones. Un equipo de investigadores del Instituto Allen para la IA, la Universidad de Chicago y la Universidad de Stony Brook ha propuesto una solución de una simplicidad desconcertante.

Su trabajo, titulado "Text or Pixels? It Takes Half" ("¿Texto o Píxeles? Cuesta la Mitad"), plantea una pregunta radical: Dado que nuestras IA más potentes ahora son "multimodales", es decir, pueden entender tanto texto como imágenes (pensemos en GPT-4o o Gemini 1.5 Pro), ¿qué pasaría si, en lugar de entregarles un documento de texto, simplemente tomáramos una captura de pantalla muy larga de ese documento y les pidiéramos que *miraran* la imagen?

La respuesta es asombrosa y da nombre al estudio: cuesta la mitad. Los investigadores, Yanhong Li, Zixuan Lan y Jiawei Zhou, han demostrado que convertir un texto largo en una sola imagen vertical reduce drásticamente, a menudo en un 50%, la cantidad de fichas que el modelo necesita procesar para generar una respuesta. Y lo que es más impactante: lo hace sin sacrificar la precisión. La IA puede leer el texto en la imagen con la misma eficacia que el texto original, pero con una fracción del esfuerzo computacional. Es un hallazgo que roza la alquimia digital, un truco de magia que explota un punto ciego en nuestra propia comprensión de estas máquinas que hemos construido.

Anatomía de un coste computacional

Para entender la magnitud de este descubrimiento, primero hay que apreciar la tiranía del token. Durante años, el procesamiento del lenguaje natural se basó en arquitecturas que leían secuencialmente, una palabra tras otra, como un humano. Pero la revolución llegó con el "Transformer", la arquitectura presentada en 2017 que subyace a casi todas las IA generativas actuales. Su innovación clave, como se mencionó, es la autoatención.

Imaginemos una cena. En un modelo antiguo, cada invitado solo podía hablar con su vecino inmediato. En un Transformer, cada invitado en la mesa debe escuchar activamente a todos los demás invitados al mismo tiempo antes de decir su siguiente palabra. Es un sistema increíblemente rico para captar el contexto, los matices y las relaciones a larga distancia en un texto. Pero es un caos logístico. Con diez invitados, hay unas cien conversaciones cruzadas. Con diez mil invitados (o fichas), el número de conversaciones se dispara a cien millones.

Este problema se agrava en la fase de "decodificación", es decir, cuando la IA genera una respuesta. Para decidir la siguiente palabra que va a escribir, el modelo debe "mirar hacia atrás" y consultar todo el contexto de entrada. Cada nueva palabra generada requiere volver a consultar esos millones de conversaciones cruzadas. Este es el verdadero cuello de botella. No es solo el coste de leer el documento una vez; es el coste de *releerlo* constantemente mientras se escribe la respuesta.

El resultado es que procesar contextos largos es un lujo reservado a quienes tienen los centros de datos más grandes. La industria ha intentado mitigar esto con métodos de "atención dispersa" y otras optimizaciones, tratando de que el modelo solo preste atención a las fichas más "relevantes". Pero sigue siendo el problema fundamental.

El texto, tal como lo concebimos, es computacionalmente "caro". Cada letra, cada espacio, debe ser analizado, descompuesto en fragmentos léxicos por un "tokenizador" (un componente de software relativamente simple) y luego alimentado a la costosa maquinaria de atención.

La rebelión de los píxeles

Aquí es donde interviene la elegante solución del equipo de Li, Lan y Zhou. Los modelos multimodales tienen dos formas de entender el mundo: un canal para el texto y otro para las imágenes. El canal de texto utiliza el tokenizador lingüístico tradicional. El canal de imágenes, sin embargo, utiliza un "codificador visual". Este componente no sabe de sílabas ni de gramática. Sabe de formas, texturas, patrones y colores.

Cuando se le presenta una imagen, el codificador visual la descompone en "parches" o regiones de interés. Ha sido entrenado con miles de millones de imágenes de internet: paisajes, gatos, memes, diagramas y, crucialmente, capturas de pantalla de páginas web, señales de tráfico y fotos de libros. Sin que nadie se lo propusiera explícitamente, este sistema ha desarrollado una capacidad de reconocimiento óptico de caracteres (OCR) extraordinariamente potente, simplemente como un subproducto de tener que entender el mundo visual.

La Idea Radical: Leer la *Imagen*, No el Texto

La solución propuesta es simple: en lugar de alimentar al modelo con el archivo de texto, se le da una *captura de pantalla* (una imagen) de ese texto. La IA multimodal usa su "ojo" (codificador visual) para leer la imagen, un proceso que resulta ser mucho más eficiente.

Método Tradicional (Texto)

Documento.txt
Tokenizador de Texto
~10.000+ Tokens Léxicos
Atención MUY Costosa

Nuevo Método (Píxeles)

Documento.png
Codificador Visual
~5.000 Tokens Visuales
Atención Eficiente

El experimento fue el siguiente: tomaron los textos largos de los conjuntos de datos de prueba y, en lugar de pasarlos por el tokenizador de texto, los "renderizaron". Utilizaron software para crear una sola imagen, muy alta y estrecha, que contenía todo el texto, como si fuera un papiro digital. Luego, alimentaron esta única imagen al modelo multimodal.

El primer sistema, el "ojo" de la IA, el codificador visual, analizó la imagen. Vio las formas de las letras, las agrupaciones de las palabras, las líneas de los párrafos. En lugar de descomponer la frase "El cielo es azul" en cuatro fichas lingüísticas ("El", "ciel", "o", "es", "azul", por ejemplo), el codificador visual podría verla como una única textura o parche visual que significa "El cielo es azul".

El resultado fue una compresión de datos implícita y masiva. El codificador visual procesó la imagen y la convirtió en un conjunto de representaciones internas. Cuando la parte del modelo encargada de generar la respuesta (el decodificador) necesitó consultar el contexto, ya no tuvo que mirar cien millones de conversaciones cruzadas de fichas de texto. En su lugar, consultó un conjunto mucho más pequeño de representaciones de imagen. El número de elementos a los que el decodificador debía prestar atención se redujo, en promedio, a la mitad.

El Hallazgo Clave: Cuesta la Mitad

El mayor ahorro proviene del *decodificador* (la parte de la IA que genera la respuesta). Al haber menos "tokens" de entrada a los que prestar atención (visuales vs. textuales), el coste de generar una respuesta se reduce casi a la mitad.

El método de imagen comprime la información de entrada de forma eficaz.

Se trata de un arbitraje genial entre dos sistemas de procesamiento internos del modelo. Es como descubrir que es más barato enviar un paquete por correo visual que por correo textual.

Pruebas de campo: del dicho al hecho

Por supuesto, una idea tan contraintuitiva exige pruebas rigurosas. ¿No se perdería información en el proceso? ¿Sería el "ojo" de la IA tan preciso como su procesador de lenguaje?

Los investigadores sometieron su método a dos pruebas de fuego muy diferentes. La primera fue el benchmark RULER, una tarea de recuperación de información en contextos largos. Esta prueba es el equivalente digital de encontrar una aguja en un pajar. Consiste en "inyectar" un hecho sintético y oscuro en un documento muy largo, por ejemplo: "El número mágico especial para elite-butterfly es 42". Luego, se le pregunta al modelo: "¿Cuál es el número mágico para elite-butterfly?".

Para tener éxito, la IA no puede limitarse a "entender la idea general" del texto. Debe ser capaz de leer perfectamente cada palabra, encontrar esa frase exacta y extraer el dato. Sorprendentemente, el método de "texto como imagen" funcionó igual de bien que el método de texto nativo. El modelo "vio" el número 42 en la imagen y lo devolvió con la misma precisión. Esto demostró que la fidelidad de la información se mantenía intacta. El ojo de la IA no solo estaba ojeando; estaba leyendo.

Prueba 1: Encontrar la Aguja en el Pajar

En la prueba RULER, la IA debía encontrar un dato específico ("el número mágico es 42") oculto en un documento larguísimo. El método de imagen demostró ser igual de preciso que el método de texto.

Conclusión: La IA "lee" los píxeles con la misma precisión que el texto.

La segunda prueba fue el conjunto de datos CNN/DailyMail, una tarea clásica de resumen de documentos. Aquí no se busca un solo dato, sino una comprensión holística. Se le entrega al modelo un artículo de noticias de varios miles de palabras y se le pide que escriba un resumen coherente.

Nuevamente, los resultados fueron notables. Los resúmenes generados a partir de la entrada de imagen eran cualitativamente tan buenos como los generados a partir de la entrada de texto. Obtuvieron puntuaciones casi idénticas en las métricas estándar de evaluación de resúmenes. Esto probó que el método no solo preservaba los hechos individuales (fidelidad), sino también la comprensión semántica general y la capacidad de síntesis (comprensión).

Prueba 2: Entender la Idea General

En tareas de resumen de noticias (CNN/DailyMail), las puntuaciones de calidad (ROUGE-L) fueron casi idénticas. Esto prueba que la IA no solo extrae datos, sino que *comprende* el contexto general a partir de la imagen.

Conclusión: La comprensión semántica se mantiene intacta.

La conclusión era ineludible: para las tareas de lectura más comunes, desde la extracción de datos hasta el resumen, ver el texto como una imagen no era un truco, sino una estrategia perfectamente viable.

El ojo óptico y el punto ciego

¿Por qué funciona esto tan bien? La respuesta parece estar en la naturaleza misma del entrenamiento multimodal. El tokenizador de texto es un sistema heredado, basado en reglas y estadísticas lingüísticas. El codificador visual, en cambio, es un sistema emergente, aprendido. Ha desarrollado sus propias formas de comprimir la información visual del mundo, y resulta que el texto escrito es una forma de información visual increíblemente densa y regular.

En cierto sentido, el codificador visual está mejor adaptado para encontrar patrones en el texto como una textura, permitiéndole agrupar una frase entera en un solo "parche" de imagen, mientras que el tokenizador de texto está obligado por sus reglas a dividirla en múltiples fragmentos.

Sin embargo, el método tiene sus límites, y son límites que los propios investigadores exploraron. La magia se rompe si la calidad de la imagen se degrada demasiado. En sus experimentos, probaron renderizar el texto en diferentes resoluciones. Descubrieron que había un "punto óptimo". Si la imagen era de muy alta resolución, usaba demasiadas fichas visuales y las ganancias de eficiencia desaparecían.

Pero si la imagen era de demasiado baja resolución, el texto se volvía borroso e ilegible, y el rendimiento de la IA se desplomaba. Como cualquier lector humano, si la letra es demasiado pequeña o está mal impresa, el modelo no puede descifrarla. Existe, por tanto, un equilibrio entre la compresión visual (imágenes más pequeñas) y la legibilidad (imágenes más claras). Afortunadamente, ese equilibrio resulta ser un rango muy amplio y práctico.

La Condición: El "Punto Óptimo" de Resolución

El método depende de la resolución de la imagen. Si es demasiado baja, el texto se vuelve borroso y la precisión cae. Si es demasiado alta, genera demasiados tokens visuales y se pierden los ahorros de coste.

Se necesita una resolución media para equilibrar precisión y eficiencia.

La nueva forma del lenguaje

Las implicaciones de este estudio son inmediatas y profundas.

A nivel tecnológico, es una optimización de software casi "gratuita". Las empresas que gastan millones de dólares en potencia de cómputo para ejecutar inferencias de modelos gigantes pueden, teóricamente, implementar este método mañana mismo y reducir significativamente sus costes operativos. No requiere reentrenar los modelos; solo añade un paso de "renderizado" antes de enviar la consulta. Es una forma de "ingeniería de prompts" llevada a un nivel completamente nuevo, donde el "prompt" no es solo el texto, sino la forma en que se presenta.

A nivel científico, el trabajo de Li y sus colegas nos obliga a cuestionar nuestras cómodas categorías. Hemos pasado la última década construyendo sistemas que procesan "lenguaje" y sistemas que procesan "visión", asumiendo que eran dominios separados. Este estudio demuestra que, para una inteligencia verdaderamente general y multimodal, la línea es inexistente. El texto es una imagen. El lenguaje escrito es una tecnología visual, un conjunto de formas que hemos acordado que tienen significado. Y las IA más avanzadas están empezando a entenderlo así.

¿Por qué importa esto? El Impacto

Este descubrimiento no es solo un truco. Es una nueva forma de compresión de entradas que podría hacer que el análisis de documentos largos con IA sea drásticamente más barato, rápido y accesible para todos.

~50%
Reducción del Coste de Cómputo
0%
Pérdida de Precisión Significativa

Finalmente, a nivel social, esta eficiencia podría tener un efecto democratizador. Si el coste de analizar documentos largos se reduce a la mitad, esta potente capacidad deja de ser el dominio exclusivo de los gigantes tecnológicos. Pequeñas empresas, laboratorios de investigación universitarios, periodistas e incluso usuarios individuales podrían permitirse ejecutar análisis complejos que antes eran prohibitivos.

Estamos siendo testigos de una fascinante convergencia. Hemos pasado milenios perfeccionando el lenguaje escrito, una tecnología de símbolos abstractos. Ahora, al enseñar a nuestras máquinas más avanzadas a leer, descubrimos que lo hacen de manera más eficiente no cuando procesan nuestros símbolos abstractos, sino cuando simplemente "miran" las formas que dibujamos en la página. El texto no es solo información; vuelve a ser, como en sus orígenes caligráficos, una forma de arte visual.

Referencias

Li, Y., Lan, Z., & Zhou, J. (2025). *Text or Pixels? It Takes Half: On the Token Efficiency of Visual Text Inputs in Multimodal LLMs*. arXiv:2510.18279v2 [cs.CL]. https://arxiv.org/pdf/2510.18279

Publicaciones Recientes

0dba7e0-24ee8f9d48fd

IA en equipo contra la alucinación

El Consorcio de la Razón En las últimas semanas, el mundo ha sido testigo de cómo Demis Hassabis, la mente detrás de
Leer Más
Google_AI_Studio_2025-10-23T20_52_53.329Z

Romper la cadena causal: el salto conceptual del Free Transformer

    Desde su introducción hace una década, la arquitectura Transformer ha sido el pilar fundamental sobre el
Leer Más

Para estar informado, Ingresá o Creá tu cuenta en MundoIA...

Entrar

Recordá revisar la carpeta de "no deseados", el correo puede llegar allí