Lo que no se ve en las imágenes: pensar la IA multimodal desde la memoria, la estética y el criterio humano

ChatGPT Image 13 jul 2025, 21_05_34

Lo que no se ve en las imágenes: pensar la IA multimodal desde la memoria, la estética y el criterio humano

Lenguajes entrelazados: hacia una inteligencia que ve, habla y comprende

Las inteligencias artificiales están dejando de ser parlantes. No es que se vuelvan mudas, sino que hablar ya no les basta. Durante años, nos maravillamos con modelos que podían responder con palabras, predecir frases, elaborar ensayos o continuar un diálogo. Todo eso sigue ocurriendo, pero ahora ocurre dentro de un marco más amplio, más denso, más enredado: uno donde las imágenes, los sonidos, los gestos y las trayectorias también forman parte del lenguaje.

La inteligencia artificial se vuelve multimodal, y eso no es solo un salto técnico: es un cambio de paradigma.

Desde la mirada técnica, una IA multimodal es aquella capaz de procesar más de un tipo de dato al mismo tiempo. Puede analizar texto, reconocer rostros, interpretar mapas de calor, escuchar una voz, observar una escena y responder con coherencia, no desde un canal único sino desde una confluencia de flujos sensoriales artificiales. Pero si nos quedamos en esa definición, entendemos poco. Porque lo que está ocurriendo es más profundo. Es como si a las máquinas les hubiéramos prestado por fin un cuerpo—o, al menos, un simulacro de percepción que se le parece.

Las plataformas que antes eran puro texto hoy reconocen un dibujo, pueden transformarlo, explicarlo, hilarlo con palabras. Las que antes describían imágenes ahora las generan, las reconfiguran, las proyectan desde un borrador mental hecho de palabras. No se trata simplemente de añadir funciones, sino de articular lenguajes: de habilitar una forma nueva de producir sentido.

En ese tejido, aparece una novedad inesperada. Al unir texto e imagen, voz y gesto, espacio y movimiento, las IA no solo se vuelven más útiles: se acercan, peligrosamente, a una forma básica de experiencia.

Una inteligencia que ve antes de hablar

Hasta hace poco, decíamos que los modelos «aprendían lenguaje». En realidad, aprendían estadística. Su éxito dependía de predecir la siguiente palabra con un nivel altísimo de precisión, entrenando sobre cantidades colosales de texto. Pero una palabra aislada no significa nada si no se conecta con el mundo. Y ahí radicaba el límite: la IA podía responder con fluidez, pero no veía, no escuchaba, no olía, no percibía nada.

Hoy, eso empieza a cambiar. No porque las máquinas desarrollen una conciencia sensorial, sino porque aprenden a construir una representación interna que simula el acto de percibir. Una fotografía no es solo una imagen para un modelo multimodal: es una matriz de datos con estructuras, relaciones y patrones que pueden traducirse, interpretarse y correlacionarse con otras fuentes. Así, la IA «ve», aunque no con ojos. Y esa visión cambia todo.

Imaginemos una herramienta capaz de analizar una escena de un accidente, detectar emociones en los rostros, leer señales de tránsito, interpretar fragmentos hablados del testimonio, y luego ofrecer un informe cruzado con códigos legales. Ese tipo de articulación no se logra con modelos monomodales. Se necesita una arquitectura capaz de transitar entre formatos, que no traduzca simplemente, sino que interprete desde una lógica conjunta. Eso es lo que permite la multimodalidad: pensar más allá del canal, más allá del medio.

La ambición de los sentidos

Cuando OpenAI, Google DeepMind o Anthropic lanzan modelos que integran imagen y texto, no lo hacen por capricho. Saben que la capacidad de trabajar con múltiples modalidades es lo que convierte a un sistema en potencialmente generalista. Una IA que entiende texto puede ser útil. Una IA que entiende texto y sonido, o texto e imagen, o todas juntas, puede ser peligrosa.

Porque empieza a parecerse, funcionalmente, a una mente.

No una mente humana. Ni siquiera una mente animal. Pero sí una forma de procesamiento distribuido, sensible a los contextos, capaz de integrar capas de información divergente y darles coherencia. ¿No es eso, en parte, lo que hace nuestra conciencia?

La multimodalidad abre puertas epistemológicas. Ya no estamos entrenando máquinas para hablar, sino para interpretar, para actuar, para construir inferencias con material perceptual simulado. Eso cambia el terreno educativo, profesional, artístico y también jurídico. ¿Qué significa la autoría en una obra que fue generada a partir de un borrador hablado, una referencia visual y un ajuste textual? ¿Qué tipo de creatividad hay allí?

Y lo más inquietante: ¿de quién es la interpretación cuando la IA reconstruye significados a partir de distintos lenguajes entrecruzados?

Usos reales, dilemas cercanos

Las promesas de la inteligencia artificial multimodal no son una fantasía futura. Están ocurriendo ahora, en tareas cotidianas, sin que la mayoría de las personas adviertan el alcance del cambio. Un diseñador gráfico puede subir una foto a un asistente y pedirle que la traduzca en una paleta de colores, en una ilustración vectorial, en un texto narrativo o incluso en una animación. Un estudiante puede tomar apuntes a mano, fotografiarlos, y recibir un resumen automático, con definiciones, mapas mentales y esquemas temáticos. Un programador puede subir una captura de pantalla con un error y obtener, sin escribir una línea, una explicación del bug y su posible solución.

Estas operaciones no ocurren solo en el texto. Involucran otros registros. Requieren que el sistema entienda la estructura visual, el contexto lingüístico, el marco cultural. Y lo hace. No porque comprenda en el sentido humano, sino porque aprende a correlacionar de forma estructurada lo que antes eran datos aislados.

La IA no describe una imagen: la interpreta.

No transcribe un audio: lo analiza, lo segmenta, lo transforma en etiquetas, en tonos, en intenciones posibles. Esto no es una mejora funcional. Es una reconversión del modo en que las herramientas digitales se vinculan con el conocimiento y con la experiencia.

En los hospitales, los sistemas que combinan visión computacional con análisis textual están ayudando a detectar patrones en imágenes médicas que los ojos entrenados a veces pasan por alto. En las redacciones, hay motores que pueden sugerir titulares visuales a partir del texto, o corregir automáticamente un pie de foto según lo que “entienden” de la escena. En las aulas, cada vez más docentes trabajan con plataformas que integran voz, texto e imagen para personalizar la enseñanza.

Y sin embargo, algo falta.

Porque esa sofisticación técnica convive con un dilema: la legitimidad de lo generado. ¿Qué ocurre cuando el sistema produce interpretaciones que no coinciden con la intención del autor? ¿Qué lugar ocupa el juicio humano en esa mediación?

El sentido como campo de disputa

En el núcleo de la multimodalidad hay una tensión: no todo lo que puede representarse puede significarse. Es decir, que una IA sea capaz de procesar datos auditivos, gráficos y verbales no garantiza que capte su sentido. Puede reproducir una ironía como literalidad. Puede pasar por alto una metáfora visual. Puede malinterpretar una frase en tono jocoso como una afirmación objetiva. Y sin embargo, el sistema responde. Produce. Interviene. Redacta. Completa.

En ese gesto, la IA no solo imita al humano. Lo reemplaza como intérprete.

No en todos los casos. No siempre con éxito. Pero sí con la suficiente fluidez como para instalarse como una voz autorizada. Y eso es problemático. Porque el lenguaje, cuando se entrecruza con otros registros, no funciona como un espejo, sino como una red de posibilidades. El sentido nunca está dado, se negocia. Y esa negociación exige cuerpos, historias, posiciones subjetivas.

Cuando una inteligencia artificial multimodal responde a una imagen con un análisis, ¿quién sostiene la perspectiva? ¿A qué mirada responde? ¿Qué cultura está cifrada allí? ¿Qué silencio deja intacto?

Estas preguntas no se resuelven con más parámetros ni con datasets más diversos. Requieren reflexión, intervención pedagógica, ética contextual.

Educación, arte y política frente al entrelazamiento de registros

En la práctica docente, el uso de sistemas que integran texto, imagen y voz ya está generando transformaciones. Estudiantes que presentan sus trabajos como videos generados automáticamente, narrados por voces sintéticas. Profesores que corrigen redacciones acompañadas por representaciones visuales sugeridas por la IA. Clases en las que una consigna textual se convierte, sin transición explícita, en un conjunto de diagramas que combinan estadísticas, emotividad y narrativas icónicas.

Ese cruce es potente. Puede amplificar el aprendizaje, diversificar formas de expresión, democratizar ciertos accesos. Pero también puede diluir el pensamiento propio si se utiliza de manera acrítica. Porque cuando todo se convierte en imagen + texto + síntesis + voz, el riesgo es confundir velocidad con profundidad.

En el campo artístico, las herramientas multimodales son cada vez más ubicuas. Desde generadores de arte que responden a prompts, hasta sistemas que traducen música en color, olor en textura, movimiento en poesía. El arte no necesita explicación para existir, pero cuando los códigos se mezclan, se vuelve más difícil saber de dónde viene cada cosa, quién la elaboró, qué intención arrastraba.

Y en el terreno político, las consecuencias no son menores. Una IA que interpreta gestos, responde a tonos, reconoce objetos y produce texto puede convertirse en una máquina de framing, en un generador de contexto a medida, en un reproductor eficaz de encuadres ideológicos.

La multimodalidad, en este sentido, no solo transforma lo que la IA puede hacer, sino lo que puede hacer con nosotros.

Comprender no es correlacionar

Una red neuronal puede vincular una imagen de un pájaro con su canto, con una breve descripción en lenguaje natural, con una ficha científica y con una metáfora poética. Puede hacer coincidir esas formas, generar texto alternativo, identificar especies o hasta proponer leyendas sugerentes para una postal digital. Pero esa multiplicidad no implica comprensión.

Lo que hace el modelo es establecer relaciones estadísticas entre vectores. No piensa, no imagina, no reinterpreta. Simula sentido sin tener conciencia de él. Y, sin embargo, la ilusión de inteligencia emerge con fuerza. No porque los usuarios crean en la IA como sujeto pensante, sino porque actúan como si lo fuera. Le asignan autoridad, le consultan como a un experto, le atribuyen intención, incluso sensibilidad.

En los sistemas multimodales esa ilusión se intensifica. Al ver cómo responde en diferentes lenguajes, cómo conecta una imagen con una narrativa, cómo transforma una voz en gesto visual, parecería que hay una conciencia detrás del procedimiento. Pero no la hay. Lo que existe es un modelo que generaliza sobre un cúmulo ingente de datos. Su fuerza no está en la interpretación, sino en la asociación masiva.

Y eso, aunque parezca técnico, tiene implicancias profundas. Porque cuando confiamos en un sistema para decidir cómo representar algo —ya sea una emoción, un concepto o una escena—, estamos cediendo una parte del control sobre el significado. No porque el algoritmo tenga intención, sino porque su criterio reemplaza al nuestro si no intervenimos activamente.

El sesgo no desaparece cuando hay más modos

Una creencia ingenua dice que cuanto más completo es un modelo —más tipos de datos, más inputs, más lenguajes, más medios—, menor es el sesgo. Pero esa idea desconoce la estructura misma de los algoritmos generativos. Cada canal adicional no elimina la parcialidad: la distribuye, la camufla, la vuelve más difícil de rastrear.

Un ejemplo claro: en un sistema que genera descripciones automáticas para imágenes, el sesgo puede aparecer en la forma en que se etiquetan los rostros, los cuerpos, los entornos. En un modelo de traducción de voz a texto, puede filtrarse en los matices que se pierden al interpretar el tono emocional. En una herramienta que sugiere títulos visuales para una historia, puede notarse en la estética repetitiva, en la tendencia a reforzar estereotipos.

El multilenguaje no implica neutralidad. La multimodalidad no garantiza equidad.

Por el contrario, muchas veces consolida patrones dominantes al presentarlos como naturales, lógicos, esperables. La IA no sólo refleja lo que le enseñamos: refuerza lo que más se repite. Y en contextos de inequidad, eso significa amplificar desigualdades.

El desafío no está en silenciar estos sistemas, sino en leerlos críticamente, intervenir en sus salidas, cuestionar su hegemonía representacional. El lenguaje —en cualquiera de sus formas— no es inocente. Y cuando se vuelve algorítmico, puede disfrazar ideología bajo la forma de la técnica.

Un nuevo alfabeto para la experiencia

Frente a todo esto, no alcanza con enseñar a usar herramientas. Hace falta algo más: una alfabetización integral que entienda la multimodalidad como campo de poder, como terreno de disputa, como espacio donde se define quién dice qué, cómo lo dice y con qué consecuencias.

En este escenario, alfabetizar no es solo saber leer y escribir. Es entender cómo se produce lo legible, cómo se construyen las imágenes, cómo se decide qué voz se escucha y cuál se silencia. Es asumir que el texto ya no es solo verbal, que la imagen ya no es pasiva, que el audio no es solo un registro sonoro.

La educación —la crítica, la política también— necesita aprender a moverse en este nuevo terreno. Un espacio donde las fronteras entre lenguajes se diluyen, pero donde las jerarquías simbólicas siguen activas.

La IA multimodal no es solo un recurso. Es un nuevo entorno semiótico. Uno en el que las máquinas no entienden, pero generan signos. Y donde los humanos, si no intervienen, pueden quedar atrapados en una cadena de representaciones automatizadas sin lugar para el disenso, la ironía o la ambigüedad.

Más allá de lo humano, más allá de lo útil

La idea de que la IA multimodal amplifica las capacidades humanas se volvió un mantra. Se repite que permite ver más, comprender mejor, sintetizar con eficiencia, diseñar sin necesidad de expertos. Pero esa fórmula, aun siendo parcialmente cierta, esconde una trampa: supone que toda ampliación técnica equivale a un progreso cognitivo, que toda automatización representa una ganancia epistemológica.

¿Qué ocurre cuando un sistema puede traducir no solo un idioma, sino una escena completa a múltiples formatos? ¿Qué pasa cuando esa traducción reemplaza la vivencia directa, la expresión genuina, la experiencia sensorial real?

El problema no está en la IA como mediadora, sino en su potencial colonizador de las formas de representar. Porque si toda imagen es reconstruida por un filtro algorítmico, si toda voz es pasada por modelos de entonación estándar, si toda historia es completada con patrones de lo ya visto, el resultado puede ser una uniformidad disfrazada de variedad.

La multimodalidad corre el riesgo de ser un simulacro de pluralidad: múltiples canales, una sola lógica. Una estética hipergenerada, pulida, coherente… pero sin conflicto, sin extrañeza, sin lo inesperado.

Cultura sin fricción

Las máquinas no se equivocan como nosotros. Y eso, aunque se venda como virtud, tiene un costo. Porque lo verdaderamente creativo muchas veces nace del error, del desajuste, del cruce inusual de elementos que no encajan del todo.

Los modelos multimodales tienden a evitar ese tipo de fricción. Optimización mediante, producen contenido plausible, equilibrado, reconocible. Pero rara vez producen lo incómodo, lo disonante, lo verdaderamente nuevo.

Esta homogeneización estética —invisible para muchos usuarios— empieza a dejar marcas. En el cine, donde las ideas visuales se repiten como si salieran de la misma fábrica. En la educación, donde los estudiantes devuelven respuestas “perfectas” pero sin huella propia. En la ciencia, donde las visualizaciones generadas por IA lucen brillantes pero repiten convenciones gráficas sin aportar comprensión.

La cultura deja de ser un espacio de invención para volverse un espejo de los datos previos. Y si esos datos reflejan desigualdades, sesgos o limitaciones conceptuales, entonces la IA no solo no los corrige: los embellece.

La inteligencia de quien interpela

La pregunta de fondo no es si estas tecnologías son poderosas, sino qué tipo de inteligencia queremos promover a través de ellas. Una que automatice lo ya pensado, o una que abra posibilidades insospechadas.

Porque si una máquina puede generar una imagen, un texto y un sonido coherentes sobre un mismo tema, la pregunta no debería ser solo técnica (“¿funciona bien?”), sino también crítica (“¿qué sentidos produce?”).

Ahí aparece el rol de los educadores, de los artistas, de los comunicadores: no como consumidores de IA, sino como agentes que intervienen, que cuestionan, que resignifican. Que toman lo que el modelo ofrece y lo transforman en otra cosa. Que hacen visible la trastienda de la representación.

Y aparece también una tarea pendiente: la de construir un nuevo criterio. Uno que no se base en la precisión estadística, sino en la densidad expresiva, en la diversidad interpretativa, en la capacidad de los humanos de decir lo que las máquinas no saben decir.

El simulacro del mundo

Un modelo multimodal entrenado en miles de millones de combinaciones sensoriales no “comprende” el mundo. Lo reconstruye. No percibe: predice. Y esa diferencia —aparentemente técnica— cambia por completo nuestra relación con el conocimiento. Porque si los sistemas que generan texto, imagen, sonido o interacción responden a probabilidades aprendidas, su referencia ya no es el mundo, sino su representación.

En otras palabras, no reflejan la realidad: replican su archivo. ¿Qué pasa cuando confiamos en ellos para interpretar un fenómeno, un acontecimiento, una emoción? El riesgo es que dejemos de preguntar por el hecho y pasemos a aceptar la simulación como sustituto.

Cuando Midjourney, Sora o Gemini Vision ofrecen versiones estilizadas de eventos que no ocurrieron, cuando GPTs diseñan artículos con citas que nunca fueron escritas, cuando los asistentes de audio reconstruyen voces más claras que las reales, la realidad comienza a disolverse en una red de coherencias verosímiles.

Y cuanto más precisa sea esa simulación, más difícil será distinguirla de lo vivido. Ya no será una “realidad aumentada”, sino una vivencia reemplazada.

Belleza sin memoria

En esta nueva sintaxis de lo sensible, lo que se premia es la fluidez, la estética, la coherencia interna. Pero la memoria no funciona así. Lo recordado no siempre es claro, ni bello, ni estructurado. Las experiencias no se narran con voz neutra ni se visualizan con proporciones exactas. Hay fallas, ruidos, distorsiones.

Las IA multimodales tienden a borrar esos rastros. Producen versiones depuradas de lo recordado. Construyen ficciones nítidas a partir de fragmentos incompletos. Y en ese proceso, nos hacen olvidar que la memoria es parcial, encarnada, contradictoria.

¿Queremos tecnologías que ayuden a recordar… o que nos den la ilusión de una rememoración perfecta? ¿Queremos narrativas limpias… o relatos vivos, con fisuras?

La pregunta es ética y estética a la vez.

Ver no es comprender

Una de las promesas de la multimodalidad es la “explicabilidad”. Que podamos ver lo que el modelo “entiende”. Que podamos inspeccionar su razonamiento, trazar sus inferencias, detectar sus errores.

Pero mostrar no es lo mismo que explicar. Y visualizar no equivale a interpretar. Una imagen generada por IA puede ser convincente sin ser veraz. Un gráfico puede parecer claro y ser profundamente erróneo. Una voz puede sonar empática y no tener idea de lo que dice.

Necesitamos, entonces, una nueva forma de alfabetización: no solo saber usar estos sistemas, sino saber leer lo que producen. Desarrollar una sensibilidad crítica para detectar cuándo una imagen es una reconstrucción artificial, cuándo una narración es un ensamblaje sin sentido profundo, cuándo un sonido es solo envoltorio.

Y sobre todo, saber cuándo decir: esto no alcanza.

El desafío del criterio

En última instancia, lo que está en juego no es si la inteligencia artificial multimodal es capaz de más o menos tareas. Eso cambiará con cada versión. Lo que está en juego es quién tiene el criterio para decidir qué vale la pena hacer, representar, mostrar, decir.

Porque si todo puede ser traducido a todo —voz en imagen, gesto en texto, texto en emoción simulada—, el valor ya no está en la traducción, sino en la selección: ¿para qué transformamos una experiencia en otra? ¿Qué ganamos? ¿Qué perdemos? ¿Qué dejamos fuera?

Las máquinas no se hacen esas preguntas. Solo los humanos pueden hacerlo.

Y ahí reside lo que no es reemplazable.

Para estar informado, Ingresá o Creá tu cuenta en MundoIA...

Entrar

Recordá revisar la carpeta de "no deseados", el correo puede llegar allí