La pregunta más repetida sobre los modelos generativos es también una de las menos útiles: si piensan o no piensan. Planteada así, la discusión queda atrapada entre dos caricaturas. Una ve una mente nueva detrás de cada respuesta convincente. La otra despacha el fenómeno como si fuera un truco estadístico sin interés. Ninguna alcanza. Los sistemas actuales hacen demasiado como para tratarlos como juguetes verbales, pero fallan demasiado, y de maneras demasiado reveladoras, como para llamarlos inteligencia humana con otro envase.
El trabajo de Ken Archer y Harald Wiltsche, firmado desde Microsoft y la Universidad de Linköping, apunta justo a ese punto ciego. Su tesis puede decirse sin solemnidad: estos sistemas funcionan porque el lenguaje humano ya viene cargado de mundo. No inventan desde cero las relaciones que usan. Las encuentran en textos, documentos, libros, conversaciones y códigos escritos por personas que sí vivieron, miraron, tocaron, corrigieron, discutieron y aprendieron antes de escribir.
Eso cambia la lectura del fenómeno. Un modelo no necesita tener experiencia propia para explotar los rastros de experiencia ajena. Puede hablar de una taza porque millones de seres humanos ya hicieron el trabajo previo de percibir objetos, distinguir partes, nombrar propiedades y convertir todo eso en lenguaje. El sistema no ve la taza como una persona. Pero hereda textos escritos por quienes sí la vieron.
La potencia viene de ahí. También el problema.
Datos clave del enfoque
El lenguaje trae mundo pegado
La parte más importante del argumento es también la más fácil de perder si se la envuelve en jerga. Las palabras no flotan en el vacío. Antes de decir “árbol”, una persona ya aprendió a reconocer una cosa que permanece aunque cambien la luz, el ángulo o la distancia. Nadie ve primero una colección de fragmentos planos para luego calcular que detrás hay un objeto. En la experiencia común, el árbol aparece como algo estable. Tiene frente, reverso, volumen, continuidad. Lo que no se ve también cuenta.
Esa es la base que el paper toma de la fenomenología de Edmund Husserl. No hace falta convertirlo en un altar filosófico. La idea útil es concreta: percibir no es recibir datos crudos como una cámara rota. Percibir es moverse en un mundo donde las cosas conservan identidad a través de cambios. Una taza sigue siendo la misma cuando se gira. Una bicicleta sigue teniendo partes aunque una rueda quede tapada. Un rostro sigue siendo de alguien aunque cambie la iluminación.
El lenguaje guarda esas conquistas. Cuando alguien escribe “la taza es redonda”, esa frase no es apenas una secuencia de signos. Resume una historia previa de percepción, comparación, corrección y uso compartido. El modelo llega después. Aprende sobre frases, pero esas frases ya contienen un trabajo humano anterior.
Ese punto permite escapar de una falsa pelea. No hay que elegir entre “la máquina entiende como nosotros” y “la máquina no hace nada interesante”. La posición más fuerte es otra: el sistema puede hacer cosas extraordinarias porque trabaja sobre material humano altamente organizado. Pero no posee la fuente original de ese orden.
Tres lecturas posibles
| Lectura | Qué acierta | Dónde se queda corta |
|---|---|---|
| Mente emergente | Reconoce que los modelos pueden resolver tareas muy variadas y producir respuestas sorprendentemente útiles. | Confunde fluidez con experiencia propia y subestima errores repetidos en verdad, composición y objetos. |
| Autocompletado estadístico | Recuerda que el sistema no vive en el mundo ni responde ante él como una persona. | No explica bien por qué produce síntesis, código, análisis y traducciones de alto valor práctico. |
| Extensión humana | Explica al mismo tiempo la fuerza y la fragilidad del sistema: usa lenguaje humano cargado de experiencia, pero no posee esa experiencia. | Necesita traducirse mejor a reglas de diseño, auditoría y regulación. |
La tercera lectura es la más convincente. No porque sea intermedia, sino porque describe mejor el fenómeno. El modelo no es una mente encerrada en servidores. Tampoco es una calculadora de palabras sin espesor. Es una tecnología que aprovecha una capa previa de inteligencia humana ya depositada en el lenguaje.
De la experiencia al modelo
Por qué se equivoca con tanta seguridad
La alucinación no es solo una falla molesta. Es una pista. El modelo puede producir una frase perfectamente formada, con tono convincente y estructura impecable, sin que esa frase esté suficientemente atada a lo que ocurre fuera del texto. Ese desajuste es el centro del problema.
Una persona que afirma algo queda expuesta a corrección. Puede mirar otra vez, comprobar, escuchar una objeción, cambiar el juicio. El mundo le puede decir: no, eso no era así. El modelo no tiene esa relación directa. Puede ajustar respuestas por entrenamiento, herramientas externas o retroalimentación, pero no vive la experiencia de descubrir que algo que daba por cierto se rompe frente a sus ojos. No tiene ojos. Tampoco tiene un mundo propio que lo obligue a retractarse.
Por eso puede mezclar lo verdadero, lo plausible y lo inventado con una serenidad irritante. No porque “quiera engañar”, frase inútil donde las haya, sino porque su materia prima es la continuidad textual. Si una combinación de palabras encaja bien dentro de un patrón aprendido, puede aparecer como respuesta aunque no tenga respaldo suficiente.
El error no está solo en la respuesta
Una respuesta falsa puede sonar correcta porque respeta la forma lingüística esperada.
Una explicación puede ser ordenada aunque no esté bien fundada.
Una cita puede parecer real si reproduce el aspecto de una referencia legítima.
Un razonamiento puede avanzar con elegancia y romperse cuando debe combinar hechos de un modo realmente nuevo.
La misma frontera aparece en el razonamiento. Los modelos son muy buenos para moverse en caminos ya transitados. Resumen, reformulan, comparan, completan código, ordenan información. Pero cuando una tarea exige recombinar piezas de manera poco habitual, bajo reglas estrictas y sin apoyarse en ejemplos parecidos, la seguridad empieza a temblar. No siempre falla. Pero cuando falla, suele hacerlo con una convicción que engaña al lector distraído.
El paper llama la atención sobre esa brecha: recordar hechos no es lo mismo que recomponerlos bien. Una cosa es tener frases disponibles sobre parentesco, lógica o geometría. Otra es manipularlas con la estabilidad de quien entiende las relaciones que esas frases nombran. Ahí la superficie lingüística deja de alcanzar.
También ocurre en visión. Un sistema puede identificar una imagen con precisión notable y aun así fallar en algo que para una persona resulta elemental: mantener la relación entre partes y todo. La diferencia no es trivial. Una persona no reconoce una bicicleta solo porque vio suficientes pixeles parecidos. Entiende que ciertas partes pertenecen a un objeto que persiste. Si algo se oculta, no desaparece de su experiencia. Si cambia la perspectiva, el objeto sigue ahí.
Los modelos multimodales han avanzado muchísimo, pero sus errores muestran que asociar imagen y palabra no equivale a percibir como un cuerpo en movimiento. Esa distinción importa porque buena parte del entusiasmo por los sistemas actuales descansa en la idea de que bastará con agregar más datos, más sensores y más escala. El paper obliga a poner un freno: más escala puede mejorar mucho, pero no necesariamente reemplaza el vínculo vivo con el mundo que originó nuestras categorías.
El riesgo no está donde suele buscarse
La consecuencia más práctica del trabajo está en seguridad. Si el modelo no es una mente autónoma con intenciones propias, el miedo a una voluntad artificial fuera de control describe mal el problema central. El riesgo más serio no es una conciencia escondida esperando escapar. Es una herramienta poderosa conectada a datos, permisos, empresas, hospitales, bancos, juzgados, redacciones y gobiernos sin controles adecuados.
Eso desplaza la pregunta. No alcanza con preguntar si el modelo está “alineado”. Hay que preguntar qué puede hacer, con qué información, bajo qué supervisión, con qué límites, con qué registro de acciones y con qué mecanismo de corrección. La unidad de análisis no debería ser la respuesta aislada en una pantalla. Debería ser el sistema completo.
Ahí entra una idea cada vez más importante: los arneses técnicos. No son adornos. Son capas de control alrededor del modelo: verificadores, permisos, registros, validadores, herramientas externas, restricciones de acción, monitoreo y protocolos de intervención humana. Un modelo que solo conversa tiene un tipo de riesgo. Un modelo que puede ejecutar órdenes, consultar bases internas, modificar archivos o disparar procesos críticos tiene otro. La diferencia no está en la poesía del modelo, sino en su acceso real al mundo.
Modelo aislado vs sistema real
| Elemento | Mirada limitada | Mirada útil |
|---|---|---|
| Error factual | El modelo se equivocó. | El sistema no verificó, no citó bien o no bloqueó una respuesta dudosa. |
| Acción riesgosa | La máquina actuó mal. | Se le dieron permisos excesivos o faltó revisión humana. |
| Daño institucional | El modelo no estaba alineado. | La organización delegó una decisión sin controles, trazabilidad ni responsabilidad clara. |
| Uso profesional | La respuesta parecía convincente. | Importa si puede auditarse, comprobarse y corregirse antes de afectar a terceros. |
Esta es la parte más valiosa del enfoque. Deja de tratar al modelo como si fuera un personaje de ciencia ficción y lo devuelve al terreno donde realmente produce efectos: sistemas sociotécnicos, organizaciones, interfaces, decisiones humanas y cadenas de responsabilidad. La palabra “inteligencia” puede fascinar. Pero para evitar daños importa menos que una pregunta bastante más seca: quién autorizó qué, con qué controles y para qué consecuencia.
El trabajo tiene, sin embargo, un punto débil. Su diagnóstico filosófico es potente, pero no siempre baja con suficiente claridad a instrucciones concretas para diseñadores, reguladores o empresas. Decir que un modelo extiende inteligencia natural ayuda a pensar mejor. No alcanza para decidir cómo debe auditarse una herramienta clínica, un asistente legal o un sistema de gestión pública. Entre la teoría y la implementación todavía hay un puente incompleto.
Aun con esa limitación, el paper acierta en lo esencial. El debate público necesita abandonar dos imágenes pobres: la máquina que despierta y la máquina que no hace nada. Los modelos generativos son otra cosa. Son amplificadores de lenguaje humano, y el lenguaje humano ya contiene una enorme cantidad de experiencia organizada. Por eso sirven. Por eso fallan. Por eso no conviene adorarlos ni despreciarlos.
La frase decisiva podría ser esta: no estamos frente a una inteligencia nueva que apareció de la nada, sino frente a una tecnología que devuelve, a una escala inédita, fragmentos reorganizados de nuestra propia inteligencia acumulada. Eso la vuelve útil. También peligrosa. Porque cuando el reflejo se equivoca, no basta con culpar al espejo. Hay que mirar quién lo instaló, para qué lo conectó y quién decidió confiarle una tarea que todavía requería juicio humano.
Referencias
Archer, Ken; Wiltsche, Harald. “The Origins of Artificial Intelligence in Natural Intelligence”. Microsoft y Linköping University. 1 de mayo de 2026.
Husserl, Edmund. “Formal and Transcendental Logic”. Obra usada por Archer y Wiltsche para explicar la relación entre lógica, lenguaje y experiencia.
Sokolowski, Robert. “Natural and Artificial Intelligence”. Antecedente filosófico sobre el papel del lenguaje como mediación entre inteligencia natural y sistemas artificiales.
Frank, Adam; Gleiser, Marcelo; Thompson, Evan. “The Blind Spot”. Trabajo citado por Archer y Wiltsche como parte del debate sobre experiencia, ciencia y mundo.
Bender, Emily M. “On the Dangers of Stochastic Parrots”. Referencia central en la discusión sobre modelos de lenguaje, significado y comprensión.
Marcus, Gary. Trabajos sobre neuro-simbolismo, composicionalidad y límites de los modelos conexionistas.
Press, Ofir; Smith, Noah A.; Lewis, Mike. “Measuring and Narrowing the Compositionality Gap in Language Models”. arXiv, 2022.
Rahmanzadehgervi, P.; Bolton, L.; Taesiri, M. R.; Nguyen, A. T. Investigación sobre limitaciones de modelos visión-lenguaje en relaciones parte-todo.
Narayanan, Arvind; Kapoor, Sayash. “AI as Normal Technology” y “AI Snake Oil”. Referencias útiles para desplazar el análisis de riesgo desde el modelo aislado hacia sistemas, incentivos y organizaciones.



