Cuando los loros aprenden gramática

Los modelos de lenguaje grandes (LLMs) han dejado de ser un mero avance tecnológico para convertirse en una fuerza transformadora que permea casi todos los aspectos de la vida contemporánea. En pocas palabras, un LLM es un sistema de inteligencia artificial diseñado para entender, interpretar y generar texto con un nivel de sofisticación similar al humano. Su funcionamiento se basa en el entrenamiento masivo sobre enormes volúmenes de datos textuales extraídos de internet, como libros, artículos de prensa y páginas web. A través de este proceso, aprenden patrones gramaticales, semánticos y de conocimiento general, permitiéndoles realizar una amplia gama de tareas. Las capacidades emergentes de estos modelos, como el razonamiento, la planificación y el aprendizaje en contexto, a menudo surgen por su simple escala, sin haber sido entrenados explícitamente para ello.

La adopción industrial de los LLMs es abrumadora y demuestra que ya son considerados infraestructura esencial en lugar de simples novedades. Empresas líderes como Google, Amazon, Microsoft, Meta y OpenAI no solo los utilizan internamente, sino que los integran en sus productos de consumo masivo. Google Bard, lanzado en 2023, evolucionó desde la base de conocimiento de Google para ofrecer respuestas más precisas. Amazon actualizó su asistente Alexa con un LLM personalizado para mejorar la interacción conversacional, mientras que Duolingo emplea LLMs para generar ejercicios de aprendizaje adaptados y ofrecer funciones tutoriales avanzadas. GitHub Copilot, desarrollado en colaboración con OpenAI, ha revolucionado el desarrollo de software al sugerir y completar código en tiempo real. Esta integración no reemplaza a los profesionales, sino que potencia sus habilidades, permitiendo automatizar tareas repetitivas y enfocar la creatividad y la toma de decisiones en problemas más complejos.

El impacto de los LLMs se extiende a sectores críticos como las finanzas, la salud y la educación. En finanzas, analizan informes complejos para generar predicciones de mercado y ayudan en el cumplimiento normativo. En el ámbito de la salud, resumen historiales clínicos, interpretan datos de ensayos clínicos y apoyan diagnósticos médicos, aunque siempre bajo supervisión humana. Kinsilico Medicine, por ejemplo, utiliza LLMs para acelerar el descubrimiento de fármacos. En la educación, permiten la creación de tutorías adaptativas y proporcionan retroalimentación en tiempo real sobre trabajos escritos. Este despliegue masivo indica una profunda transformación de operaciones empresariales y dinámicas laborales, sentando las bases para una nueva era de productividad e innovación.

Sector	Aplicación de LLMs	Ejemplo Específico
Tecnología	Asistentes Virtuales y Conversacionales	Google Assistant, Siri, Amazon Alexa mejorados con LLMs.
Software	Generación y Completado de Código	GitHub Copilot, Amazon CodeWhisperer, StarCoder.
Comercio Electrónico	Traducción y Localización	Transliteración en tiempo real entre 16 idiomas en Roblox.
Finanzas	Análisis de Datos y Cumplimiento	Detección de fraude, análisis de noticias financieras para trading, evaluación de riesgo crediticio.
Salud	Diagnóstico y Descubrimiento de Fármacos	Resumen de historiales, interpretación de datos de ensayos clínicos, aceleración del descubrimiento de fármacos.
Marketing	Contenido Automatizado y Optimización	Copy.ai para contenido de marketing, SurferSEO para optimización de motores de búsqueda (SEO).
Derecho y Seguridad	Análisis Legal y Ciberseguridad	Análisis de políticas de privacidad, detección y respuesta a ciberataques.
Educación	Tutoría Adaptativa y Creación de Contenido	Duolingo Max para explicar respuestas, Turnitin para corrección automática de trabajos.

A pesar de su éxito, los LLMs enfrentan desafíos significativos. Sus altos costos computacionales y energéticos son una preocupación global; entrenar un modelo como GPT-3 consumió 1.287 megavatios-hora (MWh), y se proyecta que el sector de la IA podría consumir entre 85 y 134 teravatios-hora (TWh) para el año 2027, comparable al consumo anual de los Países Bajos. Además, presentan limitaciones inherentes como el "desajuste de dominio" (rendimiento deficiente fuera de su área de entrenamiento), dificultades con palabras poco comunes y, lo más criticado, la tendencia a generar información falsa o contradictoria, conocida como "alucinaciones". Un famoso ejemplo fue un chatbot de Air Canada que generó instrucciones de seguridad erróneas. Estos desafíos impulsan la investigación hacia arquitecturas más eficientes, técnicas de cuantización y métodos para mitigar sesgos y mejorar la precisión factual, asegurando que esta tecnología tan poderosa sea cada vez más segura y confiable.

La arquitectura transformer y su mecanismo central

La capacidad de los LLMs para comprender y generar lenguaje natural deriva de una arquitectura de red neuronal fundamental: el Transformer. Introducido en 2017 en el artículo seminal "Attention is All You Need", el Transformer marcó un antes y un después en el procesamiento del lenguaje natural (PLN). Anteriormente, las redes neuronales recurrentes (RNN) eran la piedra angular del PLN, pero tenían una debilidad crítica: procesaban los datos secuenciales de forma serial, lo que dificultaba capturar dependencias entre elementos que estaban muy separados en una oración, un problema conocido como "dependencias de largo alcance". Los Transformers solucionaron esto mediante un mecanismo revolucionario llamado "auto-atención" (self-attention).

El mecanismo de auto-atención permite al modelo asignar un peso diferente a cada palabra en una secuencia en relación con todas las demás, lo que le da la capacidad de identificar y enfocarse en las partes más relevantes de los datos durante el procesamiento. A diferencia de las RNN, los Transformers pueden analizar toda la secuencia de entrada simultáneamente, lo que facilita enormemente la paralelización del trabajo y aprovecha eficientemente la potencia de las tarjetas gráficas (GPU) tanto en el entrenamiento como en la inferencia. Esto representa una ventaja computacional enorme, ya que permite reducir drásticamente el tiempo necesario para entrenar modelos de miles de millones de parámetros.

Una red Transformer está compuesta por múltiples capas de dos bloques principales: un codificador (encoder) y un decodificador (decoder). Aunque muchos LLMs actuales se basan en el decodificador, ya que su principal función es la generación de texto, ambos componentes son cruciales. El codificador procesa la entrada (por ejemplo, una pregunta) y crea una representación vectorial de su significado. El decodificador toma esa representación y genera la salida palabra por palabra. Dentro de estas capas se encuentra el corazón del Transformer: el bloque de atención multi-cabeza (multi-head attention). Este mecanismo permite que el modelo examine la secuencia de entrada desde múltiples perspectivas o "puntos de vista" en paralelo, lo que le permite capturar relaciones sintácticas y semánticas complejas de manera mucho más eficaz.

Esta arquitectura se ha convertido en el estándar de facto para la mayoría de los LLMs más importantes. Desde el modelo detrás de ChatGPT hasta los modelos de Google como BERT y PaLM, todos se basan en el Transformer o en variantes inspiradas en él. La familia de modelos PaLM de Google, por ejemplo, utiliza una arquitectura de Mezcla de Expertos (MoE), que permite entrenar modelos con billones de parámetros dividiendo el trabajo entre diferentes "expertos" dentro de la red. Otros avances incluyen sistemas de atención eficiente para manejar largas secuencias de texto y marcos de entrenamiento como DeepSpeed y ZeRO, que distribuyen el entrenamiento de modelos masivos en cientos de GPUs.

La influencia de la arquitectura Transformer es tal que se originó en Google Brain, uno de los laboratorios pioneros en inteligencia artificial que, junto con DeepMind, formó Google DeepMind en 2017. Sin embargo, fue la comunidad académica y otras empresas como OpenAI quienes popularizaron y llevaron esta tecnología a gran escala. Por ejemplo, el equipo de OpenAI, liderado por figuras como Ilya Sutskever y Greg Brockman, desarrolló GPT-2, un modelo de 1.500 millones de parámetros que demostró sorprendentes capacidades de transferencia cero (zero-shot transfer), ejecutando tareas complejas sin ningún ajuste fino específico. Posteriormente, GPT-3, con 175 mil millones de parámetros, demostró una capacidad aún mayor para resolver problemas de razonamiento y comprensión del lenguaje.

La escalabilidad de estos modelos sigue siendo un tema de investigación activa; estudios como los de Kaplan et al. (2020) y Hoffmann et al. (2022) muestran que el rendimiento de los LLMs mejora de forma logarítmica con el aumento del tamaño del modelo, el número de parámetros y el volumen de datos de entrenamiento. Esta combinación de una arquitectura innovadora y un principio de escalabilidad robusto es lo que subyace al extraordinario éxito de los LLMs modernos. El propio Demis Hassabis, CEO de Google DeepMind, reconoce que Google se quedó atrás inicialmente en el boom de la IA generativa porque la arquitectura Transformer fue desarrollada en Google Brain, pero no recibió el mismo enfoque de investigación que el aprendizaje por refuerzo en DeepMind. Esta historia ilustra cómo una idea fundamental puede tener un impacto inesperado cuando se libera y se explora más allá de su origen original.

Figura 1. Relación entre el tamaño del modelo, volumen de datos y rendimiento en tareas de lenguaje, según las leyes de escalado empíricas.

Críticas lingüísticas y limitaciones técnicas

A pesar de su éxito pragmático, los LLMs han sido objeto de severas críticas desde la comunidad lingüística y filosófica, que ven en ellos un peligroso engaño y una distorsión de la comprensión científica. La figura central de este debate es Noam Chomsky, quien ha calificado a los LLMs como "juegos" vacíos de contenido y "loros estocásticos" que carecen de cualquier tipo de comprensión semántica. Según Chomsky, el verdadero objetivo de la ciencia es la genuine explanation (explicación genuina), que busca principios fundamentales y universales, como la Gramática Universal, que postula una estructura lingüística innata en el cerebro humano. Para Chomsky, los LLMs, entrenados con 45 terabytes de datos como LaMDA, no revelan nada sobre estos principios porque operan en un espacio de datos estadísticos, no conceptual. Argumenta que violan principios básicos de la gramática humana (como la regla 'Colorless green ideas sleep furiously' de Chomsky) pero siguen generando resultados coherentes, lo cual, según él, prueba su falta de comprensión real.

Las críticas se centran en la incapacidad de los LLMs para distinguir entre el lenguaje posible y el imposible desde la perspectiva de la cognición humana. Roni Katzir argumenta que los LLMs como ChatGPT fallan sistemáticamente en capturar restricciones lingüísticas que son dominadas por los niños hablantes nativos, como la restricción de Ross (1967) sobre lagunas en oraciones coordinadas. Steven Piantadosi, por su parte, sostiene que los LLMs refutan directamente la teoría chomskiana al demostrar que la competencia gramatical compleja puede aprenderse mediante el aprendizaje estadístico a partir de datos masivos, desmintiendo así el argumento de la "pobreza del estímulo", que postula que los datos que reciben los niños son insuficientes para explicar su dominio lingüístico. Piantadosi señala que los LLMs pueden describir escenarios ficticios (cómo una hormiga hundiría un portaaviones) o explicar teoremas matemáticos en el estilo de Donald Trump, lo que demuestra una capacidad de generalización que va más allá de la memorización.

Sin embargo, esta visión optimista choca con una crítica más profunda. Investigadores como Stefan Müller sostienen que los LLMs no son teorías lingüísticas, sino "modelos sin explicación": pueden simular el lenguaje con gran precisión, pero carecen de reglas explícitas, categorías interpretables y un significado anclado en el mundo físico. Ellos afirman que, aunque un modelo pueda predecir juicios de aceptabilidad verbal con alta correlación (r ≈ 0.9), esto no implica comprensión ni explica los mecanismos cognitivos subyacentes. Los LLMs no modelan la adquisición del lenguaje infantil, ya que se entrena con datos miles de veces mayores que los aportados por un niño, carecen de experiencia encarnada (embodied) y no simulan las limitaciones cognitivas del desarrollo humano. Frederick Jelinek, un influyente investigador en procesamiento del lenguaje natural, hizo una afirmación similar décadas antes, sugiriendo que "cada vez que despidamos a un lingüista, el rendimiento del reconocedor de voz mejora".

Estas limitaciones técnicas y conceptuales se manifiestan en problemas tangibles. Uno de los más destacados es la "alucinación", donde el modelo genera información plausible pero completamente falsa o inventada. Un estudio médico encontró que ChatGPT solo generaba referencias auténticas para un 20% de las citas que producía, un riesgo intolerable en aplicaciones sensibles. Otra limitación clave es la incapacidad para razonar espacialmente o planificar escenarios complejos, a pesar de su fluidez verbal.

El "problema del anclaje" (grounding) es otro punto crítico: los LLMs operan en un vacío semántico, manipulando símbolos sin conexión con los objetos o conceptos del mundo real, lo que les impide entender matices como la ironía o el significado profundo. Steven Piantadosi reconoce esta brecha, señalando que los LLMs construyen un modelo implícito del mundo, pero no tienen una experiencia física asociada. La perplejidad, una métrica que mide la sorpresa de un modelo ante una secuencia de palabras, ilustra este contraste. La oración "Colorless green ideas sleep furiously" tiene una perplejidad extremadamente alta en los LLMs, lo que demuestra que, si bien no la generan, la detectan como semanticamente anómala. Esto contrasta con la premisa de Chomsky, pero también muestra que su comprensión es puramente estadística, no semántica.

Finalmente, el alto costo computacional y ambiental del entrenamiento de estos modelos plantea dudas sobre la sostenibilidad de su paradigma de escalado, lo que ha llevado a buscar alternativas como modelos neuro-simbólicos o agentes de IA basados en la cognición incorporada (embodied cognition).

Figura 2. Comparación de perplejidad en oraciones gramaticales, agramaticales y semánticamente anómalas.

La nueva teoría: Witold Mańczak y el empiricismo lingüístico

En medio de este intenso debate, el paper "Language Models Model Language" propone un cambio de paradigma radical, sugiriendo que la polémica entre Chomsky y los partidarios de los LLMs surge de malentendidos fundamentales sobre qué es el lenguaje. El trabajo, escrito por Łukasz Borchmann, argumenta que las críticas a los LLMs son "especulativas e improductivas" porque se basan en marcos teóricos que han perdido relevancia. En lugar de Saussure o Chomsky, Borchmann invoca al lingüista polaco Witold Mańczak (1924–2016), cuya obra ofrece una base empírica para justificar el éxito de los modelos de lenguaje. Mańczak redefine el lenguaje no como un "sistema de signos" (Saussure) o un "sistema computacional del cerebro" (Chomsky), sino como la totalidad de todo lo dicho y escrito.

El principio organizador primordial del lenguaje, según Mańczak, es la frecuencia de uso de sus elementos. Desde esta perspectiva, un LLM no es un sistema defectuoso que intenta alcanzar una competencia ideal humana; es un instrumento que realiza la tarea para la que está diseñado: modelar estadísticamente el uso del lenguaje tal como ocurre en el mundo real.

El paper sostiene que la síntesis de lenguaje coherente por parte de los LLMs no es una prueba de su fracaso, sino la validación empírica de la tesis de Mańczak: si un modelo puede sintetizar texto legible, entonces su análisis estadístico de la frecuencia es, por definición, exitoso. Esta idea, citada en el paper como "la síntesis valida el análisis", invierte la carga de la prueba. En lugar de exigir a los LLMs que demuestren una "competencia" chomskiana, el empiricismo de Mańczak exige que los críticos chomskianos demuestren que existe una estructura lingüística superior que el modelo de Markov de los LLMs no puede capturar.

Este marco teórico ofrece una guía para evaluar los modelos de una manera más pragmática. El objetivo del entrenamiento de un LLM no es aprender una gramática universal, sino minimizar la "sorpresa" del siguiente token, una tarea perfectamente alineada con la maximización de la probabilidad de las secuencias de palabras observadas en sus vastos corpus de entrenamiento. Cuanto más grande y diverso sea el conjunto de datos, mejor podrá el modelo aprender las frecuencias subyacentes. El paper cita estudios que confirman que los embeddings (las representaciones vectoriales que los modelos usan para entender el lenguaje) retienen información de frecuencia. Por lo tanto, el significado en un LLM no es una correspondencia con el mundo externo, sino una entidad relacional y axiomática derivada de la red de conexiones establecidas por la co-ocurrencia en el texto.

Un modelo no necesita saber qué es una "hormiga" para usarla correctamente; simplemente ha aprendido sus relaciones estadísticas con otros conceptos como "hundir" y "un portaaviones". El paper incluso presenta ejemplos históricos para ilustrar el papel de la frecuencia, como la regularización analógica de numerales latinos o la gramaticalización de la palabra "habere" en los verbos romances, argumentando que los LLMs están haciendo, a una escala sin precedentes, precisamente lo que la historia del lenguaje ha demostrado que ocurre constantemente: el aprendizaje basado en la frecuencia.

Aunque esta teoría es intrigante, debe ser evaluada cuidadosamente. El propio autor del paper, Lukasz Borchmann, reconoce que los LLMs son "incompletos en la práctica", lo que significa que su éxito es una validación a gran escala de la tesis de Mańczak, pero no necesariamente una refutación completa de Chomsky. Si la teoría de Mańczak fuera incorrecta, la probabilidad de que los LLMs hayan funcionado tan bien sería menor a 1 en 10 millones, una afirmación audaz que requiere más investigación para ser confirmada.

El valor de esta propuesta reside en su potencial para desescalar el debate. En lugar de preguntarnos si un LLM "entiende" el lenguaje como un humano, el marco de Mańczak nos permite preguntarnos si un LLM "modela" el uso del lenguaje. Y aquí, el resultado es inequívoco: los LLMs son herramientas estadísticas extraordinariamente potentes que efectivamente capturan los patrones de uso del lenguaje, gobernados por la frecuencia. La controversia, por tanto, no es si los LLMs "son el lenguaje", sino si la totalidad del lenguaje es, en efecto, el conjunto de todo lo dicho, y si la frecuencia es el único principio organizador que necesitamos para modelarlo.

Figura 3. Distribución de frecuencia de palabras en corpus lingüísticos y su relación con la probabilidad de aparición en LLMs.

Capacidades emergentes y la prueba del mundo real

Si aceptamos el marco de Mańczak, la discusión sobre si los LLMs poseen "competencia" cambia radicalmente. En lugar de medir su capacidad contra la "competencia idealizada" de un hablante nativo, deberíamos evaluar su habilidad para navegar y operar eficazmente en el mundo del lenguaje real. Sorprendentemente, los LLMs no solo pasan esta nueva prueba, sino que la superan en muchas facetas. Han demostrado la aparición de capacidades emergentes que no fueron programadas explícitamente, sino que surgieron de su escala masiva y su entrenamiento en datos heterogéneos. Estas capacidades incluyen razonamiento, planificación, aprendizaje en contexto y una notable capacidad de transferencia a tareas nuevas y no vistas.

Por ejemplo, GPT-2 small, un modelo relativamente pequeño, demostró ser capaz de aprender gramáticas de lenguajes deliberadamente diseñadas para ser imposibles, mostrando una dificultad significativamente mayor en los lenguajes imposibles, lo que contradice la afirmación de que los LLMs no pueden distinguir entre lenguajes posibles e imposibles. Esto sugiere que, aunque no internalicen reglas de forma explícita, el modelo está aprendiendo algo sobre los tipos de regularidades estructurales que caracterizan a los lenguajes.

Un experimento particularmente revelador proviene del MIT CSAIL. Un equipo entrenó un LLM en miles de puzzles de programación, sin enseñarle nunca las reglas del entorno. Con más de un millón de ejemplos, el modelo logró resolver nuevos puzzles con una precisión del 92.4%. Los investigadores descubrieron que el modelo había desarrollado espontáneamente una simulación interna del entorno, una representación abstracta de las reglas que le permitía actuar con éxito. Este hallazgo es crucial: el modelo no estaba memorizando soluciones, sino construyendo una comprensión abstracta del dominio, una capacidad que trasciende la simple predicción de palabras. Esto contradice la idea de que los LLMs operan de forma meramente superficial y sugiere que pueden estar desarrollando representaciones internas que capturan las estructuras subyacentes de los dominios que modelan.

Además, los LLMs están demostrando ser útiles herramientas en campos científicos y médicos. En psiquiatría, se han utilizado métricas de perplejidad para evaluar la coherencia semántica en el habla de personas con trastornos del espectro esquizofrénico, obteniendo una correlación de Spearman de 0.61 con las valoraciones humanas, superando a los métodos tradicionales. En medicina, modelos especializados como Med-PaLM 2 han alcanzado una precisión del 86.5% en exámenes médicos, y Med-Gemini superó a su predecesor en 4.6 puntos porcentuales. Incluso en la propia biología, AlphaFold, un sistema de IA de DeepMind, predijo con alta precisión la estructura 3D de casi todas las proteínas conocidas, un hito que le valió el Premio Nobel de Química a sus creadores.

AlphaCode, otro producto de DeepMind, resolvió problemas de programación competitiva a un nivel superior al del 85% de los participantes humanos. Estos éxitos en dominios complejos y específicos de dominio demuestran que los LLMs, cuando se aplican correctamente, no son meros juguetes, sino herramientas de análisis y resolución de problemas cada vez más poderosas. El debate, por lo tanto, no debería centrarse en si los LLMs son "inteligentes" en el sentido humano, sino en cómo, desde una perspectiva pragmática, han demostrado ser modelos increíblemente eficaces de la competencia del lenguaje humano en el mundo real. El éxito de estos modelos en tareas que requieren una comprensión contextual y una aplicación de conocimientos, como la genética médica o la física teórica, sugiere que su "competencia" es funcional y efectiva, incluso si no es formal en el sentido de Chomsky.

Más allá de la refutación para construir una ciencia del lenguaje nuevamente

El debate entre la visión chomskiana y el éxito empírico de los LLMs ha llegado a un punto de inflexión. La estrategia de simplemente afirmar que los LLMs refutan a Chomsky es un error categorial, ya que uno es un programa de investigación científica y el otro es una herramienta de ingeniería. La verdadera implicación de este choque de paradigmas es la necesidad de reinventar la lingüística computacional y la ciencia del lenguaje. El futuro no reside en una victoria de una escuela sobre otra, sino en la construcción de un nuevo campo de estudio que incorpore lo mejor de ambas visiones.

Primero, la existencia de los LLMs obliga a repensar conceptos fundamentales. La Prueba de Turing, que juzga la indistinguibilidad de una máquina de un humano, ahora tiene un nuevo estándar: GPT-4 pasó la prueba en el 41% de los casos, superando a los humanos en algunos aspectos. La "Habitación China" de Searle, que postulaba la falta de comprensión, parece menos convincente cuando la máquina puede responder correctamente a preguntas en chino sin haber experimentado el lenguaje en un contexto social. El futuro de la investigación debe centrarse en cómo los LLMs pueden servir como "microscopios" para la lingüística. Podrían ayudar a explorar hipótesis sobre la tipología lingüística o a probar teorías sobre el aprendizaje del lenguaje.

El proyecto BabyLM, que busca entrenar modelos con cantidades de datos similares a las que recibe un niño, es un paso en esta dirección. Además, el propio comportamiento de los LLMs puede ofrecer pistas sobre la cognición humana. El hecho de que los modelos entrenados con retroalimentación de los humanos tienden a una "homogenización" del lenguaje generado, reduciendo la diversidad para minimizar la entropía, sugiere una similitud con la presión social que conduce a la convergencia lingüística en comunidades humanas. La disminución de la variabilidad en los ensayos escritos con ayuda de LLMs, por ejemplo, podría ser una analogía del impacto que tendría la homogeneización de las fuentes de información en la evolución del lenguaje. El futuro de la lingüística teórica podría, paradójicamente, depender de herramientas que, desde una perspectiva tradicional, son defectuosas.

En última instancia, el conflicto entre el innatismo chomskiano y el empiricismo mańczakiano, mediado por los LLMs, está forzando una refundación de nuestra comprensión del lenguaje. Si los LLMs, entrenados exclusivamente con datos de texto, pueden desarrollar estructuras sintácticas emergentes, como mecanismos de atención que capturan acuerdos sujeto-verbo, entonces la pregunta pasa de "¿dónde reside la gramática?" a "¿cómo emerge la gramática?". El éxito de los LLMs sugiere que la estructura del lenguaje puede ser una propiedad emergente de la exposición masiva a patrones estadísticos, una idea que, aunque existía antes de los LLMs, ahora tiene una evidencia empírica a una escala sin precedentes.

El futuro de la ciencia cognitiva y la lingüística no será ignorar la IA, sino integrarla. Los LLMs son, como afirma Steven Piantadosi, "cuentas precisas y formales" de la adquisición del lenguaje, y su éxito marca un "notable declive" de la teoría de la Gramática Universal, pero no su eliminación definitiva. La próxima frontera es utilizar esta poderosa herramienta de modelado para construir teorías más ricas y detalladas sobre cómo la mente humana, con sus limitaciones y su contexto social, interactúa con el vasto corpus de datos que es el lenguaje en uso. La ciencia del lenguaje debe pasar de ser una teoría sobre lo que debería ser el lenguaje a ser una ciencia sobre lo que es: una compleja red de frecuencias, contextos y usos. En este nuevo paradigma, los LLMs no son "loros estocásticos", sino laboratorios computacionales que, aunque imperfectos, nos brindan una ventana única hacia el funcionamiento del lenguaje humano.

Referencias

Bender, E. M., Gebru, T., McMillan-Major, A., & Shmitchell, S. (2021). On the dangers of stochastic parrots: Can language models be too big? Proceedings of the 2021 ACM Conference on Fairness, Accountability, and Transparency, 610–623.
Borchmann, Ł. (2025). Language Models Model Language. arXiv preprint arXiv:2510.12766. https://arxiv.org/abs/2510.12766
Bybee, J. L. (2006). From usage to grammar: The mind’s response to repetition. Language, 82(4), 711–733.
Chomsky, N., Roberts, I., & Watumull, J. (2023). The false promise of ChatGPT. The New York Times.
Christiansen, M. H., & Chater, N. (2008). Language as shaped by the brain. Behavioral and Brain Sciences, 31(5), 489–558.
Hoffmann, J., et al. (2022). Training compute-optimal large language models. arXiv preprint arXiv:2203.15556.
Kaplan, J., et al. (2020). Scaling laws for neural language models. arXiv preprint arXiv:2001.08361.
Piantadosi, S. T., & Hill, F. (2022). Meaning without reference in large language models. arXiv preprint arXiv:2208.02957.
Zhou, K., Ethayarajh, K., & Jurafsky, D. (2021). Frequency-based distortions in contextualized word embeddings. arXiv preprint arXiv:2104.08465.

Cuando los loros aprenden gramática