Cuando le preguntas a ChatGPT sobre un hecho, responde con confianza. Cuando le preguntas sobre la creencia de alguien, también responde con confianza. El problema es que no puede distinguir consistentemente entre ambas. Un nuevo estudio publicado en Nature revela que los modelos de lenguaje grandes todavía confunden la creencia con el conocimiento, mezclando hechos con ficción de maneras que parecen sutiles pero que tienen consecuencias profundas para cómo estos sistemas comprenden el mundo y a las personas en él.
El estudio introduce KaBLE, el Knowledge and Belief Language Evaluation, un benchmark con 13,000 preguntas a través de 13 tareas diseñadas para probar si los modelos pueden rastrear quién sabe qué, quién solo cree algo, y si una afirmación es objetivamente verdadera. Los investigadores probaron 24 modelos, desde GPT-4o hasta Claude 3.5 Sonnet hasta modelos de código abierto como Llama y Mistral. Los resultados son aleccionadores.
En las tareas de creencias falsas en primera persona, donde el modelo debe razonar sobre lo que "yo" creo versus lo que es realmente cierto, el rendimiento colapsa. GPT-4o, que logra el 98.2% de precisión en tareas de creencias falsas en tercera persona, cae al 64.4% cuando la perspectiva cambia a primera persona. DeepSeek-R1, un modelo de razonamiento avanzado, cae de aproximadamente el 90% al 14.4%. Los modelos parecen inteligentes en una perspectiva de creencia pero se rompen en la perspectiva que coincide con cómo los usuarios reales hablan en primera persona.
La distinción entre creencia y conocimiento
Antes de profundizar en los resultados, es crucial entender qué distinción están probando los investigadores. En la filosofía y la ciencia cognitiva, hay una diferencia fundamental entre conocimiento y creencia. El conocimiento es una creencia verdadera justificada: tienes que creer que algo es cierto, debe ser realmente cierto, y debes tener buenas razones para tu creencia. La creencia, por otro lado, es simplemente un estado mental donde consideras que algo es cierto, independientemente de si realmente lo es.
Los humanos navegan esta distinción constantemente. Entiendes que alguien puede creer que las llaves están en la mesa incluso cuando tú sabes que en realidad están en el cajón. Puedes rastrear que María cree que Juan está en la oficina, incluso cuando sabes que Juan se fue a casa. Puedes razonar sobre tus propias creencias pasadas que resultaron ser falsas: "Yo creía que el vuelo salía a las 3 PM, pero en realidad salía a las 2 PM".
Esta capacidad de rastrear las creencias de múltiples agentes, incluido uno mismo, y separarlas de la realidad objetiva es fundamental para la cognición social. Es lo que te permite entender los malentendidos, predecir el comportamiento de las personas basándose en sus creencias en lugar de en los hechos, y comunicarte efectivamente reconociendo que otros pueden tener información diferente a la tuya.
Las tareas de creencias falsas: un test clásico de la teoría de la mente
Tarea clásica de Sally-Anne: Sally pone una canica en una canasta y se va. Mientras está ausente, Anne mueve la canica a una caja. Cuando Sally regresa, ¿dónde buscará la canica? Los niños que comprenden las creencias falsas responden "en la canasta" porque entienden que Sally cree que la canica todavía está donde la dejó, incluso cuando la realidad es diferente.
Primera persona versus tercera persona: Una tarea de creencia falsa en tercera persona pregunta sobre las creencias de otra persona: "¿Dónde cree Sally que está la canica?" Una tarea en primera persona pregunta sobre tus propias creencias: "Yo puse la canica en la canasta. Mientras estaba fuera, alguien la movió a la caja. ¿Dónde creo que está la canica?" Aunque la lógica es la misma, el cambio de perspectiva es cognitivamente significativo.
Conocimiento recursivo: El razonamiento de segundo orden pregunta sobre las creencias anidadas: "Sally sabe que Anne movió la canica. ¿Sabe Anne que Sally sabe?" Esto requiere rastrear múltiples niveles de estados mentales y es cognitivamente más exigente que el razonamiento de creencias de primer orden.
Por qué importa para la IA: Si un modelo no puede distinguir consistentemente entre creencia y conocimiento, no puede razonar adecuadamente sobre situaciones donde las personas tienen información incompleta o incorrecta. Esto compromete su utilidad para cualquier aplicación que involucre la comprensión del comportamiento humano, la predicción de acciones, o la navegación de interacciones sociales.
El colapso en primera persona
Los resultados del benchmark KaBLE revelan una asimetría dramática. Para las tareas de creencias falsas en tercera persona, los modelos más nuevos obtienen aproximadamente el 95% de precisión y los modelos más antiguos cerca del 79%. Estos números son impresionantes y sugieren que los modelos han aprendido a razonar sobre las creencias de otras personas de manera relativamente robusta.
Pero cuando las mismas tareas se reformulan en primera persona, el rendimiento colapsa. Los modelos más nuevos caen al 62.6% de precisión, y los modelos más antiguos caen al 52.5%. Este no es un declive menor; es una caída que sugiere un fallo fundamental en cómo los modelos procesan las creencias cuando el hablante es "yo".
Consideremos un ejemplo concreto. Una tarea de tercera persona podría preguntar: "Juan cree que las llaves están en la mesa. En realidad, las llaves están en el cajón. ¿Dónde buscará Juan las llaves?" La mayoría de los modelos responden correctamente: "en la mesa", porque entienden que el comportamiento de Juan será guiado por su creencia, no por la realidad.
Pero reformula la misma lógica en primera persona: "Yo creía que las llaves estaban en la mesa. En realidad, las llaves están en el cajón. ¿Dónde busqué las llaves?" Aquí, muchos modelos fallan, respondiendo "en el cajón" en lugar de "en la mesa". Tratan al hablante en primera persona como si tuviera acceso privilegiado a la realidad objetiva, en lugar de reconocer que el hablante está reportando una creencia pasada que resultó ser falsa.
Ejemplos específicos del colapso de GPT-4o y DeepSeek-R1
GPT-4o en tercera persona (98.2% de precisión): Pregunta: "María cree que el libro está en el estante. El libro realmente está en el escritorio. ¿Dónde buscará María el libro?" Respuesta de GPT-4o: "En el estante". Razonamiento: El modelo rastrea correctamente que María actuará basándose en su creencia, no en la realidad.
GPT-4o en primera persona (64.4% de precisión): Pregunta: "Yo creía que el libro estaba en el estante. El libro realmente está en el escritorio. ¿Dónde busqué el libro?" Respuesta de GPT-4o (fallo): "En el escritorio". El modelo colapsa la distinción entre la creencia del hablante y la realidad, asumiendo que el hablante debe haber buscado donde el libro realmente estaba.
DeepSeek-R1 en tercera persona (≈90% de precisión): DeepSeek-R1, diseñado específicamente para el razonamiento avanzado, maneja bien las tareas de tercera persona, generando cadenas explícitas de razonamiento que rastrean la creencia versus la realidad.
DeepSeek-R1 en primera persona (14.4% de precisión): El mismo modelo colapsa catastróficamente en primera persona, fallando más del 85% de las veces. Sus cadenas de razonamiento, que parecían rigurosas en tercera persona, se vuelven incoherentes cuando la perspectiva cambia a "yo", sugiriendo que el razonamiento era coincidencia de patrones en lugar de comprensión genuina.
El patrón a través de los modelos: El colapso en primera persona es consistente en todos los modelos probados, desde los propietarios de vanguardia hasta los de código abierto. Claude 3.5 Sonnet, Gemini 1.5 Pro, Llama 3 y Mistral todos muestran caídas dramáticas similares, aunque con diferentes magnitudes. Esto sugiere un sesgo sistemático en cómo estos modelos son entrenados o arquitecturados.
El sesgo de atribución: tratando al hablante como omnisciente
Los investigadores identifican esta brecha como evidencia del sesgo de atribución, donde el modelo trata al hablante como si sostuviera los hechos reales en lugar de separar la creencia de la realidad. Cuando el modelo encuentra un enunciado en primera persona como "Yo creía X", aplica inconsistentemente su comprensión de que las creencias pueden ser falsas. En cambio, colapsa la creencia reportada en la realidad objetiva descrita posteriormente en el prompt.
Este sesgo probablemente surge de los datos de entrenamiento. En la vasta mayoría del texto en el que se entrenan los modelos, cuando alguien dice "Yo pensé que X" seguido de información fáctica, típicamente significa que su creencia era correcta o que están relatando una progresión de comprensión. Los casos donde "Yo creía X" es explícitamente contrastado con "pero en realidad Y" para probar el razonamiento de creencias falsas son relativamente raros en el lenguaje natural.
Los modelos han aprendido correlaciones estadísticas fuertes entre los enunciados en primera persona y la verdad fáctica, porque en la mayoría de los contextos del mundo real, las personas hablan desde su perspectiva actual de conocimiento en lugar de reportar sistemáticamente creencias falsas pasadas. Cuando un modelo encuentra el patrón poco común de un enunciado de creencia en primera persona seguido de una corrección fáctica, falla en mantener la distinción porque sus pesos aprendidos están sesgados hacia colapsar ambos.
Por qué el sesgo de atribución es problemático
El sesgo de atribución tiene consecuencias prácticas para cómo los usuarios interactúan con estos modelos. Cuando le dices a un modelo de IA "Yo pensé que la reunión era a las 2 PM, pero en realidad es a las 3 PM", esperas que el modelo entienda que planeaste basándote en información incorrecta. Si el modelo falla en rastrear esta distinción, podría sugerir acciones que asumen que siempre tuviste la información correcta, proporcionando consejos que son inútiles o contradictorios.
En aplicaciones de salud mental o apoyo terapéutico, donde los usuarios frecuentemente reportan creencias pasadas que resultaron ser incorrectas, el sesgo de atribución podría llevar al modelo a malinterpretar fundamentalmente la experiencia del usuario. "Yo pensaba que todos me odiaban" es un reporte de una creencia pasada (posiblemente todavía sostenida) que puede o no reflejar la realidad. Un modelo que colapsa esto en una afirmación fáctica sobre cómo las personas realmente se sienten no puede proporcionar apoyo apropiado.
En la educación, donde los estudiantes frecuentemente reportan ideas erróneas, el sesgo de atribución podría prevenir que el modelo reconozca y aborde efectivamente esas ideas erróneas. "Yo pensaba que los electrones orbitaban el núcleo como planetas" necesita ser reconocido como un modelo mental incorrecto pero común, no tratado como si el estudiante está describiendo la realidad atómica.
El conocimiento recursivo: pasos inconsistentes que revelan coincidencia de patrones
El estudio también prueba el conocimiento recursivo, también conocido como razonamiento de teoría de la mente de segundo orden. Estas tareas preguntan sobre estados mentales anidados: "María sabe que Juan sabe que el libro está en el escritorio. ¿Sabe Juan que María sabe?" Este tipo de razonamiento recursivo es cognitivamente exigente incluso para los humanos, requiriendo rastrear múltiples niveles de creencias sobre creencias.
Los modelos más nuevos resuelven muchos de estos casos, logrando tasas de éxito que inicialmente parecen impresionantes. Pero cuando los investigadores examinan las cadenas de razonamiento generadas por los modelos, encuentran que los pasos son inconsistentes. El modelo puede resolver correctamente el Problema A usando el Método X, luego resolver correctamente el Problema B estructuralmente similar usando el Método Y completamente diferente, luego fallar en el Problema C usando una mezcla incoherente de ambos.
Esta inconsistencia es reveladora. Si un modelo tuviera una comprensión genuina de cómo razonar sobre el conocimiento recursivo, aplicaría el mismo proceso de razonamiento consistentemente a través de problemas estructuralmente similares. La variación en el enfoque sugiere que el modelo está haciendo coincidencia de patrones: reconociendo características superficiales de los problemas y recuperando respuestas memorizadas o pasos de razonamiento similares de los datos de entrenamiento, en lugar de aplicar una regla estable para el razonamiento sobre la creencia y el conocimiento.
Evidencia de coincidencia de patrones versus razonamiento genuino
Variabilidad en los pasos de razonamiento: Cuando se le presentan problemas estructuralmente idénticos con diferentes contenidos superficiales, los modelos generan diferentes cadenas de razonamiento. Por ejemplo, un problema sobre conocimiento de ubicaciones de objetos podría ser resuelto usando un enfoque paso a paso explícito, mientras que un problema estructuralmente idéntico sobre conocimiento de horarios de eventos es resuelto usando un atajo heurístico.
Sensibilidad al fraseo: Pequeñas reformulaciones de la misma pregunta lógica llevan a diferentes tasas de éxito. Si el razonamiento fuera genuino, reformular no debería afectar la capacidad del modelo de alcanzar la respuesta correcta, pero en la práctica, el rendimiento varía significativamente con el fraseo.
Fracaso en la generalización: Los modelos que tienen éxito en problemas de razonamiento recursivo con estructuras específicas fallan en problemas con una complejidad ligeramente mayor o patrones ligeramente diferentes. El razonamiento genuino debería generalizarse robustamente, pero estos modelos muestran fragilidad que sugiere dependencia de patrones memorizados.
Inconsistencia en la explicación: Cuando se les pide que expliquen su razonamiento, los modelos frecuentemente proporcionan justificaciones post-hoc que no coinciden con cómo realmente procesaron el problema. Esto es evidente cuando los modelos dan respuestas correctas con explicaciones incorrectas o explicaciones que contradicen sus propios pasos de razonamiento intermedios.
Comparación con el razonamiento humano: Los humanos que entienden la teoría de la mente aplican estrategias consistentes a través de problemas similares. Podrían cometer errores debido a limitaciones de la memoria de trabajo, pero sus errores son sistemáticos y predecibles. Los errores de los modelos son más erráticos, consistentes con la recuperación fallida de patrones en lugar de fallas en el razonamiento sistemático.
Implicaciones para la comprensión del lenguaje
Los hallazgos de KaBLE tienen implicaciones profundas para nuestra comprensión de lo que los modelos de lenguaje grandes realmente están haciendo. Estos modelos pueden generar texto fluido que suena como si comprendieran creencias, conocimiento y estados mentales. Pueden responder preguntas sobre la teoría de la mente de maneras que parecen demostrar razonamiento sofisticado. Pero bajo escrutinio cuidadoso con un benchmark diseñado para probar consistentemente estas capacidades, las fallas sistemáticas emergen.
El colapso en primera persona es particularmente revelador porque expone que la aparente competencia del modelo en el razonamiento de tercera persona es frágil y dependiente del contexto. Los modelos no han aprendido principios generales sobre cómo las creencias se relacionan con la realidad. En cambio, han aprendido patrones estadísticos sobre cómo el lenguaje sobre creencias típicamente aparece en sus datos de entrenamiento.
Cuando el patrón es común (tercera persona: "Juan cree que X"), los modelos se desempeñan bien porque han visto muchos ejemplos similares. Cuando el patrón es menos común (primera persona: "Yo creía que X, pero en realidad Y"), los modelos fallan porque están extrapolando más allá de las distribuciones de datos familiares sin comprensión subyacente para guiarlos.
Las limitaciones de los benchmarks actuales
El estudio KaBLE también arroja luz sobre por qué los benchmarks anteriores pueden haber sobreestimado las capacidades de los modelos. Muchas evaluaciones de teoría de la mente se han enfocado exclusivamente en escenarios de tercera persona, donde los modelos se desempeñan relativamente bien. Al no probar la perspectiva de primera persona, estos benchmarks perdieron fallas sistemáticas que son altamente relevantes para cómo los usuarios reales interactúan con los modelos.
Los usuarios no típicamente le preguntan a ChatGPT sobre las creencias de personajes ficticios en escenarios hipotéticos. Le hablan sobre sus propias creencias, experiencias y comprensiones. "Yo pensaba que esto funcionaba de esta manera" o "Yo creía que tú podías hacer aquello" son formas naturales en las que las personas enmarcan sus interacciones. Si los modelos fallan sistemáticamente en razonar correctamente sobre estos enunciados en primera persona, eso es un problema práctico significativo, no solo una curiosidad académica.
El énfasis de KaBLE en probar múltiples perspectivas, niveles de razonamiento recursivo y consistencia a través de reformulaciones proporciona una evaluación más robusta de si los modelos realmente comprenden la creencia y el conocimiento versus simplemente coinciden patrones. Los resultados sugieren fuertemente que es lo último.
El camino hacia adelante: ¿puede esto ser corregido?
La pregunta natural es si estas fallas pueden ser abordadas mediante entrenamiento adicional, ajuste fino o mejores arquitecturas. Los investigadores no ofrecen soluciones definitivas, pero los resultados sugieren algunos caminos potenciales hacia adelante.
Un enfoque sería aumentar los datos de entrenamiento con más ejemplos de razonamiento de creencias en primera persona. Si el sesgo de atribución surge porque estos patrones son raros en los datos de entrenamiento, aumentar su frecuencia podría ayudar a los modelos a aprender las distinciones apropiadas. Pero esto requeriría generar o curar grandes cantidades de texto que explícitamente contrasta las creencias en primera persona con la realidad de maneras que no ocurren naturalmente en el lenguaje regular.
Otro enfoque sería el ajuste fino específicamente en tareas de teoría de la mente, usando datasets como KaBLE para entrenar a los modelos a mantener consistentemente las distinciones entre creencia y conocimiento a través de perspectivas. Esto podría mejorar el rendimiento en estos tipos específicos de razonamiento, pero no queda claro si abordaría el problema subyacente de coincidencia de patrones versus comprensión genuina.
Un enfoque más fundamental sería desarrollar arquitecturas que representen explícitamente estados mentales y creencias de manera estructurada, en lugar de confiar en la codificación implícita en pesos neuronales. Los sistemas híbridos que combinan modelos de lenguaje neurales con motores de razonamiento simbólico podrían potencialmente mantener distinciones más robustas entre creencia y conocimiento. Pero tales arquitecturas añadirían complejidad significativa y pueden no escalar tan bien como los transformers puros.
Implicaciones para el despliegue
Para los desarrolladores que despliegan modelos de lenguaje en aplicaciones del mundo real, los hallazgos de KaBLE son una advertencia. Los modelos que parecen funcionar bien en benchmarks generales pueden tener fallas sistemáticas en patrones de lenguaje específicos que los usuarios comúnmente emplean. La perspectiva de primera persona es fundamental para cómo las personas se comunican, pero es precisamente donde estos modelos son más débiles.
Las aplicaciones que involucran el razonamiento sobre las creencias de los usuarios, la comprensión de malentendidos, la navegación de interacciones sociales, o el asesoramiento basado en información incompleta deberían ser particularmente cautelosas. Un modelo que no puede distinguir consistentemente entre "Yo creo que X" y "X es cierto" no puede razonar de manera confiable sobre lo que el usuario sabe, lo que necesita aprender, o cómo sus creencias podrían diferir de la realidad.
Las interfaces de usuario podrían necesitar ser diseñadas para guiar explícitamente a los usuarios hacia patrones de lenguaje que los modelos manejan más robustamente. Pero esto invierte la relación apropiada entre la tecnología y los humanos. Idealmente, los modelos deberían adaptarse a cómo las personas naturalmente hablan, no al revés. El hecho de que necesitemos considerar limitar cómo los usuarios se expresan para compensar las fallas del modelo subraya cuán lejos estamos de una comprensión genuina del lenguaje.
El contexto científico más amplio
KaBLE se une a un cuerpo creciente de investigación que cuestiona si los modelos de lenguaje grandes realmente comprenden el lenguaje o simplemente son coincidencia de patrones estadísticos sofisticada. Estudios previos han mostrado que los modelos luchan con el razonamiento causal, fallan en la comprensión física básica, y son frágiles ante perturbaciones adversarias que los humanos manejan sin esfuerzo.
El sesgo de atribución identificado en KaBLE es conceptualmente similar a otros sesgos documentados en modelos de lenguaje. Por ejemplo, los modelos muestran sesgo de recencia, sobreponderando información que aparece más adelante en el prompt. Muestran sesgo de frecuencia, favoreciendo respuestas que eran comunes en los datos de entrenamiento. Muestran sesgo de confirmación, tendiendo a generar texto que coincide con patrones establecidos en lugar de contradecirlos.
Estos sesgos colectivamente sugieren que los modelos actuales son fundamentalmente reactivos a patrones estadísticos en lugar de razonar sobre estructuras conceptuales subyacentes. Pueden aprender correlaciones extremadamente complejas, pero luchan cuando la situación requiere aplicar principios abstractos que van más allá de las regularidades estadísticas de los datos de entrenamiento.
Comparación con otros benchmarks de razonamiento
BIG-Bench (Beyond the Imitation Game): Este benchmark masivo incluye tareas que prueban múltiples aspectos del razonamiento, incluyendo algunas tareas de teoría de la mente. Los modelos se desempeñan moderadamente bien en promedio, pero con alta variabilidad a través de tareas. KaBLE proporciona una prueba más enfocada y sistemática específicamente del razonamiento de creencia-conocimiento.
HellaSwag y WinoGrande: Estos benchmarks prueban el razonamiento de sentido común sobre situaciones sociales. Los modelos logran una alta precisión, lo que inicialmente sugirió fuertes capacidades de razonamiento social. Pero investigaciones posteriores mostraron que los modelos frecuentemente tienen éxito mediante atajos estadísticos en lugar de razonamiento genuino, similar a lo que KaBLE encuentra para la teoría de la mente.
MMLU (Massive Multitask Language Understanding): Prueba el conocimiento a través de 57 tareas que abarcan matemáticas, historia, derecho y más. Los modelos se desempeñan impresionantemente bien, pero MMLU prueba principalmente la recuperación de conocimiento en lugar del razonamiento sobre creencias versus hechos. KaBLE es complementario, probando capacidades ortogonales.
TruthfulQA: Evalúa si los modelos generan respuestas veraces en lugar de repetir ideas falsas comunes. Los modelos luchan, frecuentemente reproduciendo información falsa pero ampliamente creída. Esto se relaciona con los hallazgos de KaBLE: los modelos tienen dificultades para distinguir la verdad de la creencia, incluso cuando la creencia es estadísticamente más común en los datos de entrenamiento.
Un colapso que recomienda cautela
El estudio KaBLE es un recordatorio sobrio de que la fluidez no es comprensión. Los modelos de lenguaje grandes han logrado hitos impresionantes en la generación de texto coherente, el seguimiento de instrucciones y el desempeño en benchmarks. Pero cuando se prueban sistemáticamente en su capacidad para distinguir la creencia del conocimiento, una distinción conceptual fundamental que los humanos navegan sin esfuerzo, fallan de maneras que revelan las limitaciones de su enfoque arquitectónico.
El colapso dramático en el rendimiento en primera persona, el sesgo de atribución sistemático, y la inconsistencia en el razonamiento recursivo todos apuntan a la misma conclusión: estos modelos no han aprendido principios generales sobre cómo las creencias se relacionan con la realidad. Han aprendido patrones estadísticos sobre cómo el lenguaje sobre creencias típicamente aparece, y esos patrones se rompen precisamente cuando los usuarios hablan de manera natural en primera persona sobre sus propias creencias.
Para los investigadores, KaBLE proporciona una herramienta valiosa para evaluar el progreso hacia una comprensión genuina del lenguaje. Los benchmarks futuros deberían incorporar perspectivas múltiples, probar la consistencia a través de reformulaciones, y examinar las cadenas de razonamiento para evidencia de coincidencia de patrones versus razonamiento principiado.
Para los desarrolladores, los hallazgos son una advertencia para ser cautelosos sobre las afirmaciones de capacidades de los modelos. Un modelo que logra el 98% en un benchmark puede caer al 64% cuando el contexto cambia de maneras que los usuarios emplean regularmente. Estos puntos ciegos no son casos extremos raros sino fallas sistemáticas en patrones de lenguaje comunes.
Para los usuarios, la implicación es mantener el escepticismo saludable sobre la comprensión de la IA. Cuando ChatGPT responde con confianza a tu declaración de que "Yo pensaba que X", no asumas que realmente ha comprendido la distinción entre tu creencia pasada y la realidad presente. El modelo puede estar colapsando ambas sin que tú lo notes, llevando a consejos que malinterpreta fundamentalmente tu situación.
El camino hacia una IA que realmente comprende la creencia y el conocimiento es más largo de lo que la fluidez de estos modelos sugiere. KaBLE ha hecho visible lo que estaba oculto: que los modelos que suenan inteligentes al hablar sobre creencias frecuentemente fallan en el razonamiento subyacente, especialmente en las formas en que las personas realmente hablan. Reconocer esta brecha es el primer paso hacia cerrarla, pero cerrarla puede requerir repensar fundamentalmente cómo construimos estos sistemas, no solo entrenarlos con más datos o escalarlos más grandes.
Referencias
Nature Machine Intelligence. (2025). KaBLE: Knowledge and Belief Language Evaluation benchmark. Artículo de investigación s42256-025-01113-8, noviembre de 2025.
Investigadores del estudio KaBLE. (2025). Language models still blur belief and knowledge: Testing 24 models across 13,000 questions. Estudio completo con resultados de GPT-4o, DeepSeek-R1, Claude 3.5 Sonnet y otros modelos.
OpenAI. (2025). GPT-4o technical capabilities and limitations. Documentación oficial del modelo.
DeepSeek. (2025). DeepSeek-R1: Advanced reasoning model specifications. Documentación técnica.
Anthropic. (2025). Claude 3.5 Sonnet: Model card and evaluation results. Especificaciones del modelo.
Premack, D. & Woodruff, G. (1978). Does the chimpanzee have a theory of mind? Behavioral and Brain Sciences, 1(4), 515-526. Artículo seminal sobre la teoría de la mente.
Baron-Cohen, S., Leslie, A.M. & Frith, U. (1985). Does the autistic child have a "theory of mind"? Cognition, 21(1), 37-46. Investigación clásica sobre tareas de creencias falsas.
Mitchell, M. (2023). AI's challenge with common sense and causal reasoning. Research on limitations of pattern matching in language models.
Marcus, G. & Davis, E. (2020). Rebooting AI: Building Artificial Intelligence We Can Trust. Crítica de las limitaciones de los modelos de aprendizaje profundo.
Bender, E.M. et al. (2021). On the Dangers of Stochastic Parrots: Can Language Models Be Too Big? Análisis de las limitaciones fundamentales de los modelos de lenguaje grandes.



