Lenguaje, cerebros y máquinas: la “teoría unificada” de Worden bajo la lupa de la IA

Benjamín Vidal, Periodista Especializado en Inteligencia Artificial y Ciencia y Datos, para Mundo IA

¿Puede el lenguaje explicarse como cómputo? Claves de una teoría integradora

Una propuesta reciente intenta juntar piezas que suelen caminar por carriles separados: gramáticas de construcción, inferencia bayesiana, aprendizaje ultrarrápido en humanos, pragmática conversacional, cambio lingüístico y una explicación evolutiva por selección sexual. El manuscrito de Robert Worden, “A Unified Theory of Language”, afirma que todo eso encaja en un mismo mecanismo computacional, la unificación, y en una misma historia evolutiva. Si el marco es correcto, no solo describe cómo hablamos: también sugiere cómo deberíamos construir sistemas de IA del lenguaje que realmente entiendan, aprendan rápido y conversen con tiempos humanos.

¿De qué se trata?

El documento plantea una ambición inusual: unificar en un mismo relato los cuatro frentes que normalmente se estudian por separado, el descriptivo (qué hace el lenguaje), el computacional (cómo se computa), el evolutivo (cómo surgió) y la unidad teórica (si todo esto puede explicarse con economía de supuestos). Worden lo pone explícito como un “test de cuatro dimensiones” y propone medirse contra él. En su núcleo, la teoría adopta las Gramáticas de Construcción: representaciones tipo grafos (estructuras de rasgos) con un polo fonológico y otro semántico. Sobre esa base suma dos novedades: integrar la pragmática al mismo motor y ofrecer un relato de aprendizaje rápido con garantías formales. La pieza central es que la operación de unificación equivale a una máxima verosimilitud bayesiana sobre representaciones simbólicas. El giro evolutivo completa el cuadro: el lenguaje habría crecido como exhibición de inteligencia bajo selección sexual, de la mano de un “motor de interacción” donde turnos rápidos, reparación e inferencia de intenciones preceden al habla.

Antecedentes y marco

El linaje inmediato viene de la familia de Construction Grammars: Berkeley CG, Sign-based CG, Fluid CG, Radical CG y variantes cognitivas. Cambian énfasis, comparten principio. Las construcciones se codifican como estructuras de rasgos (DAGs) y la operación clave es unificar; el resultado contiene ambas estructuras sin duplicar los fragmentos que coinciden. FCG, la plataforma desarrollada por Luc Steels, sirve como toolkit para demostrar en agentes la producción y la comprensión con construcciones. Worden subraya que esta tradición cubre sintaxis y semántica; su aporte es sumar pragmática y aprendizaje veloz al mismo motor.

En el plano computacional, el autor recoge décadas de literatura sobre cognición bayesiana y propone continuidad evolutiva: si los cerebros animales ya toman decisiones óptimas bajo incertidumbre, tiene sentido que el lenguaje humano, cognitivamente caro, se implemente como unificador bayesiano sobre construcciones. No es un adorno: la unificación se define como pattern matching de máxima verosimilitud.

La dimensión evolutiva parte de una crítica a los relatos de selección natural “a secas”: no explican la unicidad del lenguaje humano frente a grandes simios con hábitats similares; tampoco su exceso de potencia (mucho más rápido y expresivo de lo que exigiría coordinar caza o forrajeo); ni su costo metabólico (cerebros caros y riesgos de parto). El documento sugiere que estas tres dificultades se resuelven si se suma selección sexual al cuadro: el lenguaje como exhibición cognitiva que otorga estatus y pareja. En esa pista se seleccionan, además, rasgos como el turn-taking veloz.

¿Cómo funciona?

La teoría arranca con una decisión de diseño: representar cada palabra, giro o movimiento pragmático como construcción multimodal (gesto, secuencia, interacción) codificada en una estructura de rasgos. Ese objeto tiene dos polos: fonológico (formas) y semántico (situaciones del mundo, anidadas). Comprender y producir se reducen a un único mecanismo: unificar. En comprensión, se parte de sonidos y se unifican construcciones por su polo fonológico para recuperar el polo semántico. En producción, el flujo es el inverso: desde intención semántica a serialización fonológica, por las mismas piezas. La clave es la simetría: si hablante y oyente comparten inventario de construcciones, se activa una garantía de comunicación por la cual la comprensión recupera el significado que la producción codificó, aun si el orden de unificación se invierte.

La operación de unificación no es solo casar plantillas: el autor la define como máxima verosimilitud bayesiana aplicada a estructuras de rasgos. En cada paso, se elige la combinación de construcciones que hace más probable el conjunto de estados del mundo compatible con lo dicho y con el contexto. Esto borra la frontera fuerte entre semántica y pragmática: todo (actos de habla, implicaturas, presuposiciones, referencias) se computa por el mismo mecanismo si el common ground necesario está representado. El diseño favorece dos tiempos: una inferencia lenta y consciente (para aprender desde pocos ejemplos) seguida por una aplicación rápida y preconsciente (para conversar a velocidad humana).

Para que el mecanismo funcione a escala natural (latencias de unos cientos de milisegundos entre turnos) hace falta una recuperación asociativa muy eficiente: seleccionar en milisegundos, entre miles de construcciones, las que mejor “encajan” con intención o señal. La literatura empírica en ciencias del lenguaje respalda el desafío temporal: los huecos en conversación humana rondan los 200 ms, cuando producir una oración tarda bastante más. Esto implica proyección del fin de turno ajeno y preparación anticipada de respuesta.

El manuscrito admite con honestidad la laguna de implementación neural: aún no sabemos cómo “dibujar” estas operaciones en circuitos y tiempos fisiológicos. El autor ubica su contribución en los niveles 1–2 de Marr (computacional y algorítmico), dejando el nivel 3 (implementación) como agenda abierta. Aun así, ofrece una demostración previa en línea, centrada en fonología, sintaxis y semántica declarativa, donde pueden observarse las garantías de comunicación y aprendizaje en acción; en este nuevo texto se explica cómo extender esa misma idea para cubrir pragmática y dependencia del contexto.

Comparaciones (benchmarks)

Este no es un paper que compita por BLEU o ROUGE. El criterio de evaluación es otro: capacidad descriptiva (cubrir fenómenos), suficiencia computacional (derivar comprensión y producción), plausibilidad evolutiva y unidad. Aun así, el manuscrito se posiciona frente a los LLM actuales. Señala tres brechas:

(1) los modelos generativos modernos operan sobre secuencias de tokens con significado implícito, sin un anclaje semántico explícito en estructuras de rasgos;

(2) el aprendizaje que requieren es masivo y lento en términos biológicos, a diferencia del aprendizaje animal “en pocos ejemplos”; y

(3) la conciencia del significado, sea lo que sea con precisión operativa, no está en juego en sistemas que optimizan siguiente token. La crítica no niega la utilidad ingenieril de los LLM, cuestiona su valor como modelo biológico del lenguaje humano.

¿Cómo comparar positivamente?

La familia de Construction Grammar está consolidada como tradición con bases empíricas y múltiples variantes; el Oxford Handbook of Construction Grammar es el compendio de referencia. En lo computacional, Fluid Construction Grammar ofrece una plataforma que implementa producción y comprensión en agentes, desde hace más de una década. En ciencias cognitivas, la cognición bayesiana y el principio de energía libre de Friston brindan un telón de fondo para interpretar la unificación como optimización probabilística compatible con el cerebro biológico.

Si el marco prospera, surgirán métricas internas a la teoría: latencia de recuperación y unificación por turno; tasa de reparaciones útiles ante ambigüedad; convergencia producción–comprensión entre agentes que comparten inventario; y capacidad de aprendizaje con pocos ejemplos para nuevas construcciones. El texto incluso sugiere observar la simetría producción–comprensión al aplicar “las mismas construcciones, aproximadamente una por palabra”, en órdenes de unificación distintos.

Voces y fuentes

En el frente lingüístico, la teoría se declara deudora de Fillmore, Goldberg, Croft, Kay y Bybee, y conecta con tradiciones de gramáticas de unificación. En lo computacional, el autor invoca su demostración en línea de aprendizaje y uso del lenguaje. En pragmática, la ancla es Levinson y su noción de un motor de interacción: turnos, reparación, atención conjunta, actos de habla; la idea de que la conversación humana es un juego de intenciones con reglas temporales estrictas. En lo evolutivo, la apuesta es selección sexual: una forma de presión que explica rasgos exagerados, específicos de especie y costosos, difícil de justificar solo por adaptación al hábitat. El manuscrito organiza este linaje en una lista de elementos que incluyen, además, hipótesis sobre conciencia lingüística.

Impactos por sector

Educación. Enseñar lenguaje como arte de unificar con terreno común explícito cambia el currículo. En lugar de drills masivos, se priorizan pocos ejemplos ricos que faciliten generalización. Se enseña a “reparar” malentendidos como parte constitutiva del dominio: pedir aclaraciones, ofrecer señales ostentivas, registrar nuevas inferencias como construcciones. En evaluación, importan la transferencia a contextos nuevos y la latencia de respuesta compatible con diálogo natural.

Salud y neuropsicología. Un protocolo clínico puede modelar fallos como rupturas de unificación: ausencia de construcción (aprendizaje), fracaso de recuperación (fluidez), o representación deficiente del common ground (pragmática). Esto mejora el diagnóstico diferencial en trastornos pragmático-semánticos y guía terapias basadas en reparación.

IA y NLP. El marco sugiere híbridos neuro-simbólicos: un LM paramétrico propone hipótesis y un motor de unificación valida con contexto explícito, dejando huella auditable de qué construcciones y qué piezas del terreno común usó. Para aplicaciones de alto riesgo, esto vale más que unos puntos extra en un benchmark ciego.

Empresas y economía. Si el lenguaje optimiza estatus y lectura de intenciones, conviene modelar audiencias como conjuntos de construcciones compartidas. Un asistente corporativo no solo responde: expone su traza de unificación, justifica por qué descartó alternativas y cuándo pidió reparación.

Política pública y justicia. La lente de la teoría permite auditar normas y fallos como unificaciones entre textos legales y contextos sociales. También obliga a vigilar la asignación de agencia: el lenguaje distribuye mérito y culpa en función del terreno común, lo que puede reforzar estigmas si no se controla.

Seguridad y desinformación. Distinguir verdades de frases verosímiles exige modelar intenciones y contextos. Un detector inspirado en este marco simularía la unificación con escenarios plausibles y dispararía reparaciones proactivas. Filtrar por forma, sin contexto, invita a errores de alto costo.

Cambio lingüístico y diversidad

El marco de Worden no se limita a describir cómo funciona el lenguaje en el presente: también propone un modelo para su dinámica histórica. La clave es una analogía con la evolución biológica.

Cada comunidad hablante se comporta como una ecología, y cada construcción es una especie dentro de esa ecología. El grafo de rasgos de la construcción funciona como su ADN, transmitido con gran fidelidad gracias a la “garantía de aprendizaje”, pero con errores ocasionales que generan variación.

Las construcciones compiten por nichos semánticos y pragmáticos, y están sometidas a varias presiones de selección:

la brevedad en la expresión,
la resolución temprana de ambigüedades,
la facilidad de aprendizaje,
y la competencia con construcciones rivales en nichos similares.

Nuevas construcciones surgen de cambios sociales, técnicos o geográficos, y en pocas generaciones pueden prosperar, dividirse o extinguirse. De ahí surge la diversidad de lenguas: enorme en superficie, pero guiada por fuerzas recurrentes que producen un conjunto limitado de universales.

La conclusión es provocadora: los universales del lenguaje no revelan tanto sobre la estructura del cerebro como sobre los procesos de cambio que gobiernan esta ecología de construcciones. Dicho de otra forma, entender el lenguaje requiere estudiar su evolución cultural tanto como su soporte biológico.

Escenarios (corto/mediano/largo)

Corto plazo (0–24 meses). Supuestos: presión regulatoria por explicabilidad; fatiga de benchmarks sin trazabilidad; demanda industrial de control semántico.

Bitácoras de unificación en prototipos de diálogo: cada respuesta incluye qué construcciones se usaron, qué fragmentos del common ground activaron, qué alternativas se descartaron y con qué latencias. La bitácora sirve para auditoría y para reproducir decisiones. 2) Objetivos temporales explícitos: aproximarse a ~200 ms de hueco entre turnos requiere proyección del fin de turno y preparación anticipada; se medirá, por diseño, la latencia de cada etapa. 3) Currículos educativos con pocos ejemplos ricos: se enseña a generalizar y a reparar, más que a repetir. 4) Clínicas del lenguaje ensayan baterías de reparación: tiempos y éxito cuando el sistema (o el paciente) solicita aclaración.

Mediano plazo (2–5 años). Supuestos: consolidación de híbridos LM + Unificación; interés empresarial por trazas y controles.

Arquitecturas neuro-simbólicas: el LM propone construcciones candidatas; un motor simbólico-bayesiano valida por unificación con contexto explícito. 2) Aprendizaje con pocos ejemplos: la adquisición de nuevas construcciones se dispara al superar un umbral de significancia y se “cierra” al estabilizar generalización; se mide número de ejemplos hasta la convergencia útil. 3) Convergencia interagente: dos sistemas independientes, con inventarios alineados, deben reconstruir la misma intención desde la misma señal. 4) Huella de contexto regulatoria en servicios públicos: detallar qué piezas del terreno común se usaron y por qué.

Largo plazo (5–10+ años). Supuestos: avances en neurociencia del lenguaje, adopción de estándares sectoriales.

Experimentos que detecten marcas temporales de recuperación y unificación, y firmas de generalización en adquisición léxico-constructiva. 2) Modelos con agencia explícita: el sistema estima cómo el estatus o la reputación modulan la interpretación, con frenos éticos para evitar discriminación por estatus. 3) Normas técnicas que exijan garantías computacionales: registro de unificación, evidencia de reparación, número de ejemplos para aprender nuevas construcciones, latencias máximas por turno.

Ética y regulación

Transparencia por diseño. Si la salida resulta de qué construcciones se unificaron con qué elementos del contexto, esa traza es explicable. Para IA en salud, finanzas y sector público se puede exigir: a) bitácora de unificación con marcas temporales; b) justificación de contexto invocado; c) registro de reparaciones automáticas y humanas, con éxito y latencia.

Privacidad del contexto. El common ground puede contener datos sensibles. Políticas de minimización, anonimización y retención limitada deben regir las memorias conversacionales tanto como rigen los datasets de entrenamiento. El derecho al olvido aplica al contexto almacenado.

No discriminación por estatus. La lectura evolutiva subraya que el lenguaje computó estatus para competir por pareja y prestigio. Sistemas que modelen esa dimensión pueden amplificar sesgos sociales si no se controlan. Reglas: medidores de asignación de agencia injustificada; métricas de impacto en grupos; explicaciones contrafácticas que muestren cómo cambiaría la decisión con otro terreno común.

Evaluación responsable. Cinco pruebas mínimas:

1) estrés pragmático (ambigüedades, ironía, presuposiciones);

2) latencia de reparación útil;

3) cobertura del inventario frente a corpus realistas;

4) alineación temporal con turn-taking humano;

5) robustez contextual cuando hay conflicto entre piezas del terreno común. Los indicadores no reemplazan a los benchmarks, los complementan con trazabilidad.

Cierre provisorio

El valor del manuscrito no está en una cifra de BLEU ni ROUGE, sino en ofrecer una arquitectura explicativa que une lingüística, cómputo y evolución. Si el motor real del lenguaje humano es unificar construcciones a máxima verosimilitud con apoyo del common ground, entonces las IA útiles para conversar, enseñar o asesorar tendrán que aprender con pocos ejemplos, mantener memorias de contexto auditable y reparar en tiempo casi humano. Y si el lenguaje creció como exhibición cognitiva con reglas de juego estrictas (turnos veloces, lectura de intenciones, pistas ostentivas), los sistemas del futuro deberán dominar ese juego tanto como la sintaxis.

Queda mucho por demostrar: la implementación neural y los puentes con fisiología aún no están; la selección sexual como explicación cuantitativa necesitará más pruebas; y los híbridos LM + Unificación deberán competir contra sistemas puramente paramétricos cada vez más potentes. Pero la brújula que propone el artículo es clara: si queremos IA que entienda y no solo prediga, hace falta un ancla semántica explícita y un mecanismo de unificación con contexto. Lo demás —por el momento— es apariencia de comprensión.

Glosario

Construcción. Estructura de rasgos con polos fonológico y semántico que codifica forma y significado; unidad básica en gramáticas de construcción.
Unificación. Operación que combina construcciones compatibles y devuelve una representación única; aquí, se interpreta como máxima verosimilitud bayesiana.
Common ground. Conocimiento compartido y reconocido como tal, del que se nutren interpretación, producción y reparación.
Garantía de comunicación. Simetría producción–comprensión: si comparten inventario, unificar en orden inverso recupera la intención original.
Garantía de aprendizaje. De unos pocos ejemplos ricos de contexto se generaliza la construcción y luego se aplica por unificación rápida.
Motor de interacción. Conjunto de habilidades pragmáticas previas al habla: turnos, reparación, ostensión, atención conjunta.
Selección sexual. Presión evolutiva que amplifica rasgos específicos de especie y costosos (display); aquí, usada para explicar el lenguaje humano.

Métricas y benchmarks

Latencia de turn-taking en conversación humana: orden de ~200 ms entre turnos; sugiere preparación anticipada.
Convergencia producción–comprensión: mismas construcciones, una por palabra aprox., con orden inverso y recuperación del significado.
Aprendizaje con pocos ejemplos: transición de inferencia lenta a unificación rápida tras generalización; observable en adquisición.
Cobertura pragmática: reparación, relevancia y tipos de turno codificados como construcciones de alto nivel en la jerarquía.
Tooling: FCG como plataforma demostrativa para variantes de Construction Grammar aplicadas online.

Fuentes

Worden, Robert (2025). A Unified Theory of Language. arXiv:2508.20109v1. Consultado el 29/08/2025. https://arxiv.org/abs/2508.20109v1
Levinson, S. C.; Torreira, F. (2015). Timing in turn-taking and its implications for processing models of language. Frontiers in Psychology. Consultado el 29/08/2025. (PMC)
Hoffmann, T.; Trousdale, G. (eds.) (2013). The Oxford Handbook of Construction Grammar. Oxford University Press. Consultado el 29/08/2025. (Oxford Academic)
Steels, L. et al. (2012–2017). Fluid Construction Grammar: tutoriales, demostraciones y libro. Consultado el 29/08/2025. (ACL Anthology, Benjamins, Academia)
Friston, K. (2010). The free-energy principle: a unified brain theory? Nature Reviews Neuroscience. Consultado el 29/08/2025. (Nature, fil.ion.ucl.ac.uk)
Lande, R. (1981). Models of speciation by sexual selection on polygenic traits. PNAS. Consultado el 29/08/2025. (PMC)

Lenguaje, cerebros y máquinas: la “teoría unificada” de Worden bajo la lupa de la IA