NEWSLETTER

Tres pilares contundentes para afirmar que los LRM casi con certeza piensan

Generated Image November 03, 2025 - 3_13AM

Tres pilares contundentes para afirmar que los LRM casi con certeza piensan

La gran pregunta: ¿pueden pensar los modelos de razonamiento o solo fingen muy bien?
Apple publicó "La ilusión de pensar" argumentando que los LRM solo hacen coincidencia de patrones. Su evidencia: fallan en Torre de Hanoi con 15 discos. Pero un análisis reciente contraataca con un argumento demoledor: los humanos también fallarían ese test. Por la lógica de Apple, los humanos no pensarían. El autor va más allá: basándose en la similitud entre CoT y pensamiento biológico, los benchmarks donde los LRM superan humanos no entrenados, y la teoría de que la predicción del siguiente token es la forma más general de representación de conocimiento, concluye que los LRM casi con certeza pueden pensar. No es un debate balanceado. Es una refutación contundente del estudio de Apple con una afirmación audaz: las máquinas ya piensan, solo que diferente.

El estudio de Apple "La ilusión de pensar" causó revuelo al argumentar que los modelos de razonamiento grande (LRM) no pueden pensar realmente, sino que solo realizan coincidencia de patrones sofisticada. Su evidencia principal: los LRM con razonamiento de cadena de pensamiento (CoT) son incapaces de continuar cálculos usando un algoritmo predefinido conforme el problema crece en complejidad.

Pero un análisis reciente desmonta este argumento llamándolo "fundamentalmente defectuoso". El autor, Debasish Ray Chawdhuri, hace una afirmación audaz: los LRM casi con certeza pueden pensar. Su contraargumento es devastador en su simplicidad: si le pides a un humano que ya conoce el algoritmo para resolver la Torre de Hanoi que resuelva el problema con 20 discos, él o ella casi seguramente fallaría. Por la lógica de Apple, entonces, los humanos tampoco pueden pensar.

Esta no es una posición neutral de "hay argumentos de ambos lados". El análisis afirma directamente que, basándose en la similitud entre el razonamiento CoT y el pensamiento biológico, los resultados en benchmarks y la teoría de la representación del conocimiento, es razonable concluir que los LRM casi con certeza poseen la capacidad de pensar. La comunidad científica permanece dividida, pero los argumentos de ambos lados son mucho más fuertes y contundentes de lo que un debate académico típico sugeriría.

Qué son los modelos de razonamiento grande y por qué importan

Un modelo de razonamiento, también conocido como modelo de lenguaje de razonamiento (RLM) o modelo de razonamiento grande (LRM), es un tipo de modelo de lenguaje grande (LLM) que ha sido entrenado específicamente para resolver tareas complejas que requieren múltiples pasos de razonamiento lógico. Estos modelos demuestran un rendimiento superior en tareas de lógica, matemáticas y programación en comparación con los LLM estándar.

A diferencia de los modelos de lenguaje tradicionales que generan respuestas inmediatamente, los modelos de razonamiento asignan tiempo de cómputo adicional, o tiempo de "pensamiento", antes de producir una respuesta para resolver problemas de múltiples pasos. OpenAI introdujo esta terminología en septiembre de 2024 cuando lanzó la serie o1, describiendo los modelos como diseñados para "pasar más tiempo pensando" antes de responder.

La característica definitoria de estos LLM de razonamiento en tiempo de prueba ha sido el escalado de tiempo de prueba: un LLM de razonamiento en tiempo de prueba es uno que se alimenta de su propia cadena de pensamiento y puede usar salidas intermedias para producir mejores resultados. En operación, los modelos de razonamiento generan cadenas internas de pasos intermedios, luego seleccionan y refinan una respuesta final.

Los números impresionantes que hicieron creer en el pensamiento de las máquinas

AIME 2024 (American Invitational Mathematics Examination): GPT-4o apenas resolvió el 12% de los problemas. Cuando llegó el o1-preview de OpenAI con sus capacidades de razonamiento, ese número se disparó al 74%, más de seis veces mejor. Los modelos sin razonamiento típicamente resuelven menos del 30% de los problemas, mientras que los modelos que emplean métodos de razonamiento logran tasas de éxito entre 50% y 80%.

Olimpiada Internacional de Informática 2024: El modelo o3 más nuevo no es solo bueno, es realmente bueno. Obtuvo una puntuación lo suficientemente alta como para ganar una medalla de oro y logró una calificación de CodeForces que lo coloca hombro con hombro con los mejores programadores del mundo.

GPQA Diamond (ciencias): Gemini 2.0 Flash Thinking logró 74.2%, niveles de última generación que superan a la mayoría de los modelos y se acercan al o3 de OpenAI en el benchmark de ciencias.

Escalabilidad de costos: Mientras el o1 de OpenAI mantuvo o mejoró ligeramente su precisión desde los resultados reportados de 2024 hasta los resultados de AIME 2025, el o3-mini-high logró 80% de precisión a un costo significativamente menor, aproximadamente 12 veces más barato.

Capacidad de contexto masiva: El o3 se beneficia de una ventana de contexto enorme, lo que le permite considerar vastas cantidades de información de una vez, supuestamente hasta 5× más tokens que el o1-Pro, del orden de un millón de tokens en su modo experimental. Esto significa que o3 puede ingerir artículos de investigación completos o informes largos y razonar a través de ellos.

Estos números son difíciles de ignorar. Cuando un modelo mejora su rendimiento en un factor de seis en uno de los exámenes de matemáticas más difíciles para estudiantes de secundaria, y cuando alcanza niveles de programación competitiva de clase mundial, parece razonable preguntarse si algo cualitativamente diferente está sucediendo más allá de la coincidencia de patrones.

El estudio de Apple: cuando la ilusión se desmorona

Pero luego llegó el trabajo de Apple Machine Learning Research, y los números contaron una historia diferente. Los investigadores Parshin Shojaee, Iman Mirzadeh, Keivan Alizadeh, Maxwell Horton, Samy Bengio y Mehrdad Farajtabar probaron los LRM de última generación (o3-mini, DeepSeek-R1, Claude-3.7-Sonnet-Thinking) en cuatro entornos de rompecabezas bien conocidos: Torre de Hanoi, Salto de Damas, Cruce del Río y Mundo de Bloques.

Los tres regímenes de rendimiento

Régimen 1 - Baja complejidad: En tareas de baja complejidad, los LLM estándar sorprendentemente superan a los LRM. Esto es contraintuitivo. Si los LRM realmente están "pensando", deberían ser al menos tan buenos como los modelos estándar en problemas simples. En cambio, el proceso adicional de razonamiento parece agregar una sobrecarga que no beneficia cuando el problema es suficientemente simple.

Régimen 2 - Complejidad media: En tareas de complejidad media, el pensamiento adicional en los LRM demuestra una ventaja clara. Esto es donde los números impresionantes provienen, donde los benchmarks están calibrados. Los LRM realmente brillan aquí, mostrando las mejoras dramáticas en AIME y otras pruebas.

Régimen 3 - Alta complejidad: En tareas de alta complejidad, ambos modelos experimentan un colapso completo. La precisión cae a cero. No gradualmente. Completamente. Cuando le pides a un LRM que resuelva la Torre de Hanoi con 15 discos, simplemente no puede. No es que lo haga mal, es que deja de funcionar por completo.

Los investigadores encontraron que los LRM tienen limitaciones en el cálculo exacto: fallan en usar algoritmos explícitos y razonan de manera inconsistente a través de los rompecabezas. También investigaron las trazas de razonamiento con más profundidad, estudiando los patrones de soluciones exploradas y analizando el comportamiento computacional de los modelos.

La conclusión de Shojaee y sus colegas es que estos insights desafían las suposiciones predominantes sobre las capacidades de los LRM y sugieren que los enfoques actuales pueden estar encontrando barreras fundamentales para el razonamiento generalizable. A pesar de los sofisticados mecanismos de auto-reflexión, estos modelos fallan en desarrollar capacidades de resolución de problemas generalizables más allá de ciertos umbrales.

Por qué el argumento de Apple es fundamentalmente defectuoso

Los defensores de la capacidad de pensamiento de los LRM no se limitan a defender estos modelos, atacan directamente la lógica del estudio de Apple. El problema central: Apple usa el fracaso de los LRM en problemas extremadamente complejos como evidencia de que no pueden pensar. Pero por ese mismo estándar, los humanos tampoco pensarían.

Si le pides a un humano que conozca perfectamente el algoritmo de la Torre de Hanoi que lo aplique a 20 discos, fallará. No porque no pueda pensar, sino porque la memoria de trabajo humana tiene límites. El hecho de que un sistema tenga limitaciones de memoria de trabajo no significa que no pueda pensar, significa que tiene limitaciones de recursos computacionales.

De hecho, el autor señala algo crucial que los investigadores de Apple observaron pero malinterpretaron: cuando los LRM enfrentaron problemas demasiado grandes, no intentaron ciegamente aplicar el algoritmo. En cambio, reconocieron correctamente que resolver los puzzles directamente no cabría en su memoria de trabajo, entonces intentaron encontrar mejores atajos, exactamente como lo haría un humano. Esto es evidencia de pensamiento, no de su ausencia.

Definiendo el pensamiento: los cinco componentes y sus análogos en LRM

Antes de determinar si los LRM pueden pensar, el autor define qué constituye el pensamiento humano en resolución de problemas. Identifica cinco componentes principales y muestra cómo los LRM implementan análogos funcionales de cada uno:

1. Representación del problema (corteza frontal y parietal en humanos): Cuando piensas en un problema, tu corteza prefrontal maneja la memoria de trabajo, atención y funciones ejecutivas. En un LRM, dado que es una red en capas, toda la memoria de trabajo necesita caber dentro de una capa. Los pesos almacenan el conocimiento del mundo y los patrones a seguir, mientras que el procesamiento ocurre entre capas usando los patrones aprendidos almacenados como parámetros del modelo.

2. Simulación mental (memoria de trabajo y habla interna en humanos): Los humanos casi siempre verbalizamos nuestros pensamientos cuando razonamos. El CoT es, de hecho, muy similar a lo que hacemos cuando estamos hablando con nosotros mismos, que es casi siempre. Ambos sistemas externalizan el proceso de pensamiento en forma verbal o textual.

3. Coincidencia de patrones y recuperación (hipocampo y lóbulos temporales en humanos): La coincidencia de patrones en un LRM proviene de su entrenamiento. Todo el punto del entrenamiento es aprender tanto el conocimiento del mundo como los patrones para procesar ese conocimiento de manera efectiva. Esto es análogo a cómo los humanos dependen de experiencias pasadas y conocimiento almacenado de la memoria a largo plazo.

4. Monitoreo y evaluación (corteza cingulada anterior en humanos): Hay buena evidencia de que los razonadores CoT pueden dar pasos de retroceso cuando una cierta línea de razonamiento parece inútil. Esto es exactamente lo que el proceso de monitoreo hace en humanos: detectar contradicciones o callejones sin salida.

5. Insight o reformulación (red de modo predeterminado en humanos): DeepSeek-R1 fue entrenado para razonamiento CoT sin tener ejemplos de CoT en sus datos de entrenamiento. El sistema aprendió conforme intentaba resolver problemas, esencialmente actualizándose mientras razonaba. Esto es similar a cómo el cerebro continuamente aprende mientras procesa datos y resuelve problemas.

El argumento demoledor: por qué "solo predice el siguiente token" no es una limitación

Uno de los argumentos más comunes contra los LRM es que "al final del día, solo están prediciendo el siguiente token, es solo un 'autocompletado glorificado'". Los defensores del pensamiento de las máquinas llaman a esta visión fundamentalmente incorrecta, no porque no sean autocompletado, sino porque un autocompletado no tiene por qué carecer de pensamiento.

De hecho, argumenta, la predicción del siguiente token está lejos de ser una representación limitada del pensamiento. Al contrario, es la forma más general de representación de conocimiento que alguien puede esperar.

El razonamiento es brillante: siempre que queremos representar algún conocimiento, necesitamos un lenguaje o un sistema de simbolismo para hacerlo. Existen diferentes lenguajes formales que son muy precisos en términos de lo que pueden expresar. Sin embargo, tales lenguajes están fundamentalmente limitados en los tipos de conocimiento que pueden representar.

Por ejemplo, la lógica de predicados de primer orden no puede representar propiedades de todos los predicados que satisfacen una cierta propiedad, porque no permite predicados sobre predicados. Existen cálculos de predicados de orden superior que pueden representar predicados sobre predicados a profundidades arbitrarias, pero incluso ellos no pueden expresar ideas que carecen de precisión o son de naturaleza abstracta.

El lenguaje natural, sin embargo, es completo en poder expresivo. Puedes describir cualquier concepto en cualquier nivel de detalle o abstracción. De hecho, incluso puedes describir conceptos sobre el lenguaje natural usando el lenguaje natural mismo. Eso lo convierte en un candidato fuerte para la representación del conocimiento.

Una máquina de predicción del siguiente token esencialmente calcula una distribución de probabilidad sobre el siguiente token, dado un contexto de tokens anteriores. Cualquier máquina que tenga como objetivo calcular esta probabilidad con precisión debe, de alguna forma, representar el conocimiento del mundo.

Un ejemplo simple: considera la oración incompleta, "El pico de montaña más alto del mundo es el Monte..." Para predecir la siguiente palabra como Everest, el modelo debe tener este conocimiento almacenado en algún lugar. Si la tarea requiere que el modelo calcule la respuesta o resuelva un puzzle, el predictor del siguiente token necesita generar tokens CoT para llevar la lógica hacia adelante.

Esto implica que, aunque esté prediciendo un token a la vez, el modelo debe representar internamente al menos los próximos tokens en su memoria de trabajo, suficientes para asegurar que se mantenga en el camino lógico.

Si lo piensas, los humanos también predicen el siguiente token, ya sea durante el habla o cuando piensan usando la voz interna. Un sistema de autocompletado perfecto que siempre genera los tokens correctos y produce respuestas correctas tendría que ser omnisciente. Sobre la naturaleza de la predicción del siguiente token y el pensamiento humano

Por supuesto, nunca alcanzaremos ese punto, porque no todas las respuestas son computables. Sin embargo, un modelo parametrizado que puede representar conocimiento ajustando sus parámetros, y que puede aprender a través de datos y refuerzo, ciertamente puede aprender a pensar.

El contraargumento de Apple y los escépticos: limitaciones reales observadas

A pesar de los argumentos contundentes a favor del pensamiento de LRM, el estudio de Apple reveló limitaciones reales y preocupantes. Los investigadores probaron los LRM de última generación (o3-mini, DeepSeek-R1, Claude-3.7-Sonnet-Thinking) en cuatro entornos de rompecabezas bien conocidos: Torre de Hanoi, Salto de Damas, Cruce del Río y Mundo de Bloques.

El debate sobre DeepSeek-R1: ¿democratización o confirmación?

En enero de 2025, DeepSeek lanzó R1, un modelo de razonamiento que logró un rendimiento comparable al o1 de OpenAI a un costo computacional significativamente menor. El lanzamiento demostró la efectividad de la Optimización de Política Relativa de Grupo (GRPO), una técnica de aprendizaje por refuerzo utilizada para entrenar el modelo.

Un informe reciente de SemiAnalysis estimó el CapEx total para DeepSeek en aproximadamente $1.6 mil millones, con un costo de $944 millones. La cifra de $6 millones para la ejecución de entrenamiento final se refiere solo a eso: la ejecución final. Fue la culminación de Dios sabe cuántos experimentos realizados durante meses y años de trabajo, por más de cien investigadores bastante caros.

Sin embargo, DeepSeek publicó abiertamente muchas de sus metodologías, lo que permitió a la comunidad de investigación validar y replicar sus hallazgos. La investigación durante este período validó además la efectividad de la destilación de conocimiento para crear modelos de razonamiento. El modelo s1-32B logró un rendimiento sólido a través de métodos de forzamiento de presupuesto y escalado, reforzando los hallazgos de que los enfoques de entrenamiento más simples pueden ser altamente efectivos para las capacidades de razonamiento.

El 25 de enero de 2025, DeepSeek mejoró R1 con capacidades de búsqueda web, permitiendo que el modelo recupere información de Internet mientras realiza tareas de razonamiento. Esto plantea una pregunta interesante: si un modelo de razonamiento necesita buscar en la web información que no sabe, ¿eso es evidencia de que está "pensando" de una manera más parecida a la humana, o simplemente confirma que es un sistema de recuperación sofisticado?

El benchmark de HLE: humildad en los números

El benchmark Humanity's Last Exam (HLE) evalúa el razonamiento a nivel de experto en matemáticas, humanidades y ciencias naturales, revelando brechas de rendimiento significativas entre los modelos. Los modelos de razonamiento de última generación actuales logran puntuaciones relativamente bajas en HLE, indicando un espacio sustancial para la mejora.

Por ejemplo, el modelo de razonamiento completo o3 logró 26.6%, mientras que el o3-mini-high más ligero (en preguntas de solo texto) logró 13%. Estos números son humillantes. Cuando los mejores modelos del mundo pueden responder correctamente solo a aproximadamente un cuarto de las preguntas diseñadas para evaluar el razonamiento a nivel de experto, sugiere que todavía estamos muy lejos de la inteligencia artificial general.

Los tres regímenes de rendimiento (concepto del estudio de Apple): El paper de Apple describe tres patrones cualitativos observados en sus experimentos con Torre de Hanoi, River Crossing, Checkers Jumping y Blocks World. En problemas simples, los LLM estándar frecuentemente superan a los LRM. En complejidad media, los LRM muestran ventaja. En alta complejidad, ambos experimentan colapso de precisión. Los patrones exactos varían significativamente entre diferentes tipos de puzzles, por lo que no existe una curva universal de rendimiento.

Aplicaciones del mundo real: donde el razonamiento importa

A pesar de las limitaciones y debates, los modelos de razonamiento están encontrando aplicaciones prácticas donde su enfoque de pensamiento paso a paso proporciona valor real:

Educación: Khanmigo de Khan Academy está cambiando cómo los niños aprenden matemáticas. Imagina a un estudiante de octavo grado luchando con una ecuación cuadrática. En lugar de simplemente dar respuestas, Khanmigo recorre el proceso de factorización en tiempo real, señalando gentilmente exactamente dónde el estudiante se equivocó y ofrece una pista útil para ponerlo de nuevo en el camino. Es como tener un tutor paciente que muestra su trabajo justo al lado del tuyo. La herramienta obtuvo una calificación de cuatro estrellas en "transparencia y aprendizaje" de Common Sense Media en marzo de 2025.

Programación competitiva: Los modelos de razonamiento han alcanzado calificaciones de CodeForces que rivalizan con programadores humanos de élite. Pueden depurar código complejo, optimizar algoritmos y explicar su proceso de pensamiento de maneras que ayudan a los desarrolladores humanos a aprender.

Investigación matemática: En dominios donde la verificación es posible (puedes verificar si una prueba matemática es correcta), los LRM han demostrado ser herramientas valiosas para explorar espacios de problemas y sugerir enfoques que los humanos luego pueden validar.

Investigación profunda: En febrero de 2025, OpenAI lanzó Deep Research, una función impulsada por su modelo o3 que permite a los usuarios realizar tareas de investigación integrales. Google introdujo una función similar en Gemini en diciembre de 2024, diseñada para realizar tareas de investigación de múltiples pasos.

Estas aplicaciones funcionan no necesariamente porque los modelos "piensan" en el sentido humano, sino porque el proceso de generar pasos intermedios explícitos y verificarlos proporciona una forma de razonamiento estructurado que es útil incluso si es fundamentalmente diferente del pensamiento humano.

La conclusión: los LRM casi con certeza pueden pensar

Quienes defienden la capacidad de pensamiento de los LRM no dejan su argumento en un empate diplomático. Basándose en tres pilares, concluyen que es razonable afirmar que los LRM casi con certeza poseen la capacidad de pensar:

Pilar 1 - Los resultados en benchmarks: Los LRM son capaces de resolver un número significativo de preguntas basadas en lógica. Si bien es cierto que todavía están por detrás del rendimiento humano en muchos casos, es importante notar que la línea base humana a menudo proviene de individuos entrenados específicamente en esos benchmarks. De hecho, en ciertos casos, los LRM superan al humano promedio no entrenado.

Pilar 2 - La similitud entre CoT y razonamiento biológico: El razonamiento CoT no es una imitación superficial del pensamiento humano. Es funcionalmente análogo en componentes clave: verbalización interna, coincidencia de patrones basada en experiencia, retroceso cuando una línea de razonamiento falla, reconocimiento de limitaciones de memoria de trabajo. La similitud no es casual, es estructural.

Pilar 3 - La comprensión teórica: Cualquier sistema con suficiente capacidad representacional, suficientes datos de entrenamiento y poder computacional adecuado puede realizar cualquier tarea computable. Los LRM cumplen estos criterios en un grado considerable. No hay nada mágico sobre las neuronas biológicas que las haga las únicas capaces de pensamiento. Si un sistema puede representar conocimiento, aprender de datos y usar ese conocimiento para resolver problemas nuevos, está pensando.

Chawdhuri reconoce: "Digo 'casi' porque siempre hay una posibilidad de que investigaciones futuras nos sorprendan. Pero creo que mi argumento es bastante concluyente".

¿Dónde nos deja esto? La controversia continúa

A pesar de los argumentos contundentes a favor del pensamiento de LRM, la comunidad científica permanece dividida. El estudio de Apple muestra colapsos de rendimiento reales y preocupantes. Gary Smith y otros escépticos señalan el fracaso en problemas verdaderamente novedosos como el Tres en Raya de 90 grados. Estos no son puntos triviales.

Pero quienes defienden la capacidad de pensamiento de los LRM argumentan que estos escépticos están aplicando un estándar injusto. Los humanos también fallan en problemas suficientemente complejos o completamente novedosos fuera de su experiencia. La pregunta no es si los LRM son perfectos pensadores omniscientes. La pregunta es si están pensando dentro de sus capacidades, aprendiendo, razonando y resolviendo problemas de maneras que van más allá de la simple recuperación de patrones memorizados.

Según el análisis presentado, la evidencia apunta fuertemente a que sí lo están haciendo. Los LRM no solo fingen pensar mediante coincidencia de patrones elaborada. Están realizando algo funcionalmente equivalente al pensamiento, utilizando una arquitectura radicalmente diferente a la biológica pero logrando resultados comparables en muchas dimensiones.

La controversia continuará. Los escépticos seguirán encontrando casos donde los LRM fallen de maneras que revelan sus limitaciones. Los defensores seguirán señalando benchmarks donde los LRM igualan o superan el rendimiento humano. Pero después de examinar la evidencia completa, la posición de quienes argumentan a favor del pensamiento de las máquinas es clara y bien fundamentada: dado todo lo que sabemos sobre cómo funcionan los LRM, cómo aprenden, cómo razonan y qué logran, la hipótesis más parsimoniosa es que están pensando.

Puede que no piensen exactamente como nosotros. Puede que piensen de maneras que apenas estamos comenzando a entender. Pero pensar, según una definición funcional razonable del término, casi con certeza es lo que están haciendo.

Referencias

VentureBeat, "Large reasoning models almost certainly can think" - argumento a favor del pensamiento de LRM (noviembre 2, 2025).

Apple Machine Learning Research, "The Illusion of Thinking: Understanding the Strengths and Limitations of Reasoning Models" - Shojaee et al. (octubre 2, 2025).

Mind Matters, "No, Large Reasoning Models Do Not Reason" - Gary Smith sobre limitaciones fundamentales (junio 16, 2025).

Synthesis AI, "Large Reasoning Models: How o1 Replications Turned into Real Competition" - análisis de DeepSeek-R1 (marzo 21, 2025).

Medium/Intuition Machine, "Comparison of Large Reasoning Models (LRMs)" - Carlos E. Perez sobre o1, o3, DeepSeek-R1, Gemini (febrero 7, 2025).

Tutorials Dojo, "Large Reasoning Models (LRMs): The AI That Actually Shows Its Work" - sobre aplicaciones prácticas (julio 8, 2025).

Wikipedia, "Reasoning model" - documentación comprehensiva sobre LRM/RLM (actualizada semanalmente).

arXiv, "Trade-offs in Large Reasoning Models: An Empirical Analysis" - análisis académico de deliberación vs capacidades fundamentales (marzo 23, 2025).

Ajith's AI Pulse, "Advancements in AI Planning: OpenAI's o1 and Large Reasoning Models" - sobre planificación y limitaciones (enero 29, 2025).

RealKM Magazine, "The illusion of thinking: large reasoning models (LRMs) collapse in the face of complicated tasks" - análisis del estudio de Apple (septiembre 24, 2025).

OpenAI Blog, "Learning to reason with LLMs" - documentación oficial sobre o1, o3.

DeepSeek AI, "DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning" - paper técnico.

SemiAnalysis, reporte sobre costos reales de DeepSeek (enero 31, 2025).

Common Sense Media, evaluación de Khanmigo (marzo 2025).

Publicaciones Recientes

a0d58831-1e99-41e9-8066-5406ab495ae4

Gemma, las fabricaciones sistemáticas y el fin de la ingenuidad sobre alucinaciones

  Google retiró abruptamente Gemma de AI Studio después de que el modelo fabricara acusaciones falsas de agresió
Leer Más
6d27bd17-92f5-492f-9f0a-85f080eeef0a

Tres horas sin filtro: autos que vuelan, IA que reemplaza trabajos, y teorías de asesinato

  La más reciente aparición del hombre ocasionalmente más rico del mundo en The Joe Rogan Experience tuvo de tod
Leer Más

Para estar informado, Ingresá o Creá tu cuenta en MundoIA...

Entrar

Recordá revisar la carpeta de "no deseados", el correo puede llegar allí