Los grandes modelos de lenguaje han alcanzado capacidades extraordinarias en el razonamiento complejo, tal como lo demuestran sistemas como OpenAI o1 y DeepSeek-R1. Sin embargo, estos modelos operan bajo un paradigma que, visto desde la neurociencia cognitiva, resulta profundamente artificial: esperan a recibir toda la información antes de comenzar a pensar. Esta demora, imperceptible en tareas breves, se convierte en un lastre cuando el contexto se extiende o cuando la aplicación demanda respuestas inmediatas. Peor aún, la separación temporal entre el inicio del razonamiento y la recepción de la información temprana provoca que la atención del sistema se diluya, debilitando la coherencia interna y elevando el riesgo de alucinaciones.
Un estudio reciente publicado en arXiv por investigadores del Eastern Institute of Technology en Ningbo, la Universidad Jiao Tong de Shanghái, la Universidad Politécnica de Hong Kong y la Universidad Ludwig Maximilian de Múnich introduce StreamingThinker, un marco que permite a los modelos de lenguaje razonar mientras leen. La propuesta se inspira directamente en la cognición humana. Durante la lectura, las personas no acumulan pasivamente información hasta completar un texto para luego activar su razonamiento; más bien, procesan, infieren e integran conocimientos de forma continua, construyendo interpretaciones incrementales conforme avanzan. Este mecanismo, denominado pensamiento en flujo, no solo acelera la comprensión, sino que mantiene el razonamiento cercano al contexto relevante, minimizando el retraso cognitivo y la pérdida de coherencia.
💡El paradigma streaming thinking
El razonamiento se despliega al mismo tiempo que llega la información, frase por frase, sin esperar al final del mensaje. Una vez procesado todo el contenido, el modelo puede ajustar la profundidad de su análisis según la complejidad del problema, generando tres niveles de respuesta: directa, con integración global, o con reflexión autocrítica.
🔬Arquitectura técnica del sistema
La implementación técnica del paradigma exigió rediseñar varios componentes fundamentales de los modelos. El sistema comienza con la generación de trazas de razonamiento secuenciales que respetan el orden de llegada del input. Para ello, se insertan tokens de frontera que delimitan unidades mínimas de razonamiento, cada una correspondiente a una oración del contexto. Un modelo maestro más potente reconstruye estas trazas para garantizar coherencia estructural y semántica. Además, dos métricas evalúan la calidad del razonamiento: la puntuación de granularidad mide la alineación entre la segmentación del input y la del razonamiento; la puntuación de consistencia secuencial verifica que el razonamiento proceda en el mismo orden que la información de entrada. Solo las muestras que superan estos filtros se emplean en el entrenamiento.
El entrenamiento introduce dos modificaciones centrales. Primero, una matriz de atención en flujo impone la restricción esencial del paradigma: cada paso de razonamiento en el instante t solo puede atender al input recibido hasta ese momento, bloqueando el acceso a información futura. Segundo, un esquema de posicionamiento adaptado asigna índices independientes a los tokens de entrada y de razonamiento, ambos comenzando desde cero. Esta decisión elimina la contención posicional que surge cuando entrada y salida se procesan concurrentemente, y además garantiza que, durante el razonamiento, cada enunciado lógico esté posicionalmente más próximo a la oración de contexto que le corresponde, preservando así la alineación esencial del paradigma.
⚡Inferencia paralela mediante cachés dobles
En tiempo de inferencia, el sistema emplea cachés de clave-valor paralelas que desacoplan la codificación del input de la generación del razonamiento. Mientras las oraciones del contexto llegan de forma secuencial, el modelo las procesa mediante prefill y almacena sus estados ocultos en un caché fuente. Simultáneamente, el razonamiento se genera y se guarda en un caché objetivo. Antes de cada paso de decodificación, ambos cachés se fusionan para que el razonamiento pueda atender al contexto; luego se separan nuevamente. Esta arquitectura permite concurrencia real entre lectura y pensamiento, contrastando con el paradigma por lotes, donde un único caché secuencial obliga a esperar hasta el final del input, y con el paradigma intercalado, que alterna input y razonamiento pero sin verdadero paralelismo.
Paradigma | Arquitectura de caché | Concurrencia | Latencia |
---|---|---|---|
Batch thinking | Caché único secuencial | No | Alta |
Interleaved thinking | Caché único alternado | Parcial | Media |
Streaming thinking | Cachés paralelos (fuente + objetivo) | Sí | Baja |
📊Validación experimental
Los experimentos se realizaron con la familia de modelos Qwen3. El sistema de generación de trazas empleó Qwen3-32B como modelo inicial, Qwen3-235B como maestro guía, y Qwen3-1.7B y Qwen3-4B como columna vertebral para las evaluaciones. Se seleccionaron tres dominios de razonamiento: matemático, lógico y preguntas contextuales basadas en documentos. Para razonamiento matemático se utilizaron GSM-Symbolic y MetaMathQA; para razonamiento lógico, LogicNLI y ProofWriter; y para preguntas contextuales, PubMedQA y HotpotQA. Cada dataset se dividió en conjuntos de entrenamiento y prueba dedicados.
🎯Reducción de latencia en tokens
Disminución en tokens esperados antes de iniciar razonamiento (TTFT)
⏱️Reducción de latencia temporal
Disminución en tiempo de espera hasta la primera respuesta
✅Precisión preservada
Rendimiento comparable o superior al batch thinking tradicional
Los resultados en configuración por lotes confirmaron la viabilidad del paradigma. En el nivel más superficial de razonamiento, el modelo Qwen3-4B alcanzó una precisión de 43.7% en GSM-Symbolic con solo 199 tokens, frente a 85.5% y 1,445 tokens del razonamiento por lotes original. Sin embargo, al introducir un nivel de pensamiento global, la precisión ascendió a 87.1% con 352 tokens, aproximándose al desempeño del sistema tradicional pero con una reducción drástica en el consumo de tokens. Al añadir autoreflexión, la precisión llegó a 87.4% con 493 tokens, igualando o superando al razonamiento por lotes mientras mantenía una notable eficiencia.
🔍Hallazgo clave: El análisis de la codificación posicional reveló que el esquema adaptado preserva la capacidad del modelo sin degradación del rendimiento. Los mapas de atención mostraron que el esquema en flujo concentraba la atención en una diagonal pronunciada, reflejando un sesgo hacia el contexto actual y permitiendo genuinamente pensar mientras se lee.
📈Rendimiento en escenarios de flujo real
Al trasladar las evaluaciones a escenarios de flujo real, donde el input llega incrementalmente en tiempo de ejecución, los resultados fueron contundentes. En razonamiento matemático con Qwen3-4B, el paradigma en flujo logró una reducción del 80% en la latencia medida en tokens antes del inicio del razonamiento, y más del 60% en latencia temporal hasta la emisión de la primera respuesta.
Dataset | Paradigma | Precisión | TTFT (tokens) | Latencia (s) |
---|---|---|---|---|
GSM-Symbolic | Batch thinking | 85.5% | 94.74 | 47.70 |
Streaming (D3) | 85.6% | 20.77 | 9.77 | |
MetaMathQA | Batch thinking | 77.4% | 100.51 | 53.81 |
Streaming (D3) | 78.0% | 16.89 | 15.18 | |
ProofWriter | Batch thinking | 62.0% | 232.11 | 61.99 |
Streaming (D3) | 81.3% | 20.51 | 11.05 |
La comparación con el modo intercalado, una implementación ingenua del razonamiento en flujo que alterna input y procesamiento pero sin cachés paralelos, subrayó la necesidad de mecanismos específicos. Aunque el intercalado redujo la latencia respecto al modo por lotes, su precisión fue consistentemente inferior y su retraso general mayor que el del sistema propuesto. La divergencia proviene de una incompatibilidad distribucional: las secuencias intercaladas no se asemejan al corpus de preentrenamiento, lo cual degrada la fidelidad del razonamiento.
🔄Orden de presentación del contexto
El estudio también examinó el impacto del orden de presentación del contexto y la pregunta. En escenarios humanos, dos órdenes naturales ocurren: pregunta primero, que establece un objetivo de razonamiento antes de recibir el contexto, o contexto primero, donde el lector debe inferir qué información es relevante sin conocer aún la pregunta. El sistema fue evaluado en ambas configuraciones.
Cuando la pregunta aparece primero, el modelo tiende a expandir su razonamiento al encontrar contexto relevante, lo que incrementa el uso de tokens en el nivel superficial; pero como parte del razonamiento ya se completó durante el flujo, el crecimiento en niveles profundos es menor comparado con el contexto primero. Cuando el contexto llega primero, el modelo procede con mayor cautela, razonando conservadoramente frase por frase sin conocer la pregunta; al aparecer esta, los niveles más profundos pueden refinar selectivamente el análisis, lo que eleva la precisión a costa de mayor consumo de tokens. Ambas configuraciones mantuvieron un rendimiento sólido, confirmando la robustez del sistema ante diferentes modos de entrada.
🌐Contexto en la investigación actual
El trabajo se enmarca en un contexto de investigación más amplio. Métodos previos de razonamiento eficiente en modelos de lenguaje han explorado la compresión de tokens, la cuantización estructural y la decodificación especulativa. El procesamiento en flujo introduce una dimensión complementaria de eficiencia al permitir que el razonamiento proceda concurrentemente con la recepción del input, reduciendo latencia de respuesta en lugar de simplemente comprimir el costo computacional.
Trabajos recientes sobre modelos en flujo han abordado la adaptación arquitectónica para eliminar desajustes entre transformadores tipo decoder-only y escenarios de flujo, el control de latencia mediante políticas de espera adaptativas, y la extensión a modalidades como reconocimiento de voz y entendimiento de video. Desde la perspectiva del razonamiento, algunos estudios han explorado la alternancia entre razonamiento y generación para aproximar operación en flujo, pero el presente trabajo difiere al modelar explícitamente el pensar mientras se lee, permitiendo que el razonamiento evolucione concurrentemente con el input incremental.
🚀Aplicaciones prospectivas
Las aplicaciones prospectivas de este paradigma abarcan dominios donde la prontitud y la adaptación continua son esenciales. En sistemas de diálogo avanzado, el modelo puede razonar sobre las intenciones evolutivas del usuario, identificar inconsistencias lógicas en tiempo real y formular preguntas de clarificación sin esperar pausas. En análisis de contexto largo, como transcripciones en vivo o bases de código extensas, el sistema puede realizar síntesis incremental, construyendo un modelo mental del contenido y razonando sobre dependencias lógicas y conexiones temáticas conforme emergen.
En colaboración humano-IA para flujos creativos y analíticos, el modelo actúa como compañero de pensamiento, razonando junto al humano, proponiendo contraargumentos y sintetizando ideas en un bucle dinámico. En toma de decisiones dinámicas, como navegación autónoma o análisis financiero en tiempo real, el razonamiento en flujo es crítico para actualizar continuamente el modelo del mundo, predecir estados futuros y reevaluar planes de acción. Y en inteligencia embodied, donde un agente robótico opera en un entorno físico dinámico, el paradigma permite razonamiento perceptual continuo, interpretando datos sensoriales multimodales en tiempo real para actualizar su modelo del mundo y soportar planificación instrumental dinámica, adaptando comandos motores en respuesta a condiciones cambiantes.
🎓Balance del estudio
El estudio representa un avance conceptual y técnico significativo en el diseño de sistemas de razonamiento para modelos de lenguaje. Al replantear el razonamiento como un proceso concurrente con la recepción de información, en lugar de una operación diferida, StreamingThinker acerca la inteligencia artificial a patrones cognitivos humanos. Los experimentos demuestran que el paradigma reduce sustancialmente la latencia sin sacrificar precisión, y en algunos casos la mejora. La arquitectura de cachés paralelos, la matriz de atención en flujo y el esquema de posicionamiento adaptado constituyen innovaciones que permiten concurrencia genuina y mantienen la alineación entre razonamiento y contexto.
Este trabajo abre una nueva dirección en el campo del razonamiento eficiente y coherente en modelos de lenguaje, tendiendo un puente entre la cognición artificial y la humana. A medida que los sistemas de inteligencia artificial se integren en aplicaciones donde la interacción continua y la adaptación en tiempo real son requisitos fundamentales, paradigmas como el pensamiento en flujo no solo optimizarán el rendimiento computacional, sino que también transformarán la experiencia del usuario, permitiendo conversaciones más fluidas, análisis más ágiles y decisiones más oportunas. La distancia entre leer y pensar, que durante décadas ha separado a las máquinas de los humanos, comienza a desvanecerse.
📚Referencias:
Tong, J., Fan, Y., Zhao, A., Ma, Y., & Shen, X. (2025). StreamingThinker: Large Language Models Can Think While Reading. arXiv preprint arXiv:2510.17238v1. https://arxiv.org/pdf/2510.17238
Wei, J., Wang, X., Schuurmans, D., Bosma, M., Xia, F., Chi, E., Le, Q. V., & Zhou, D. (2022). Chain-of-thought prompting elicits reasoning in large language models. Advances in Neural Information Processing Systems, 35, 24824-24837.
Jaech, A., et al. (2024). OpenAI o1 system card. arXiv preprint arXiv:2412.16720.
Guo, D., Yang, D., Zhang, H., Song, J., Zhang, R., Xu, R., ... & Bi, X. (2025). DeepSeek-R1: Incentivizing reasoning capability in LLMs via reinforcement learning. arXiv preprint arXiv:2501.12948.
Kintsch, W. (1988). The role of knowledge in discourse comprehension: A construction-integration model. Psychological Review, 95(2), 163.
Yang, A., Li, A., Yang, B., Zhang, B., Hui, B., Zheng, B., ... & Lv, C. (2025). Qwen3 technical report. arXiv preprint arXiv:2505.09388.