DeepConf: cómo un modelo aprende a cortar a tiempo sin perder la cabeza ni el presupuesto

Por Benjamín Vidal, Periodista Especializado en Inteligencia Artificial y Ciencia y Datos, para Mundo IA

La IA que aprende a callarse a tiempo

Durante años, la forma preferida de mejorar el razonamiento en modelos de lenguaje fue pedirles muchas rutas de pensamiento y quedarse con la respuesta que más se repitiera. Funcionó, pero salió caro. Subían los aciertos, también la factura y la espera. Deep Think with Confidence, o DeepConf, propone otra cultura de inferencia. No se trata de escribir más, se trata de elegir mejor. Usa la seguridad que el propio modelo declara en cada paso para cortar pronto los caminos que se desvían y para darle peso extra a los que se sostienen. Igual o mejor precisión con muchos menos tokens y sin reentrenar. Esa es la noticia.

Una escena que explica todo

Hagamos un ejercicio de imaginación en el que pensamos en un corrector nocturno frente a tres versiones de una nota. La primera avanza pareja, la idea está clara, los párrafos no se tropiezan. La segunda arranca bien pero se enreda justo cuando debe probar el argumento. La tercera busca un giro ingenioso, por momentos brilla, por otros titubea. El corrector no tiene tiempo para romanticismos. Lee dónde cada versión se sostiene y dónde no, y decide. Profundiza en la primera, rescata lo valioso de la tercera y frena la segunda antes de que siga ocupando espacio. Eso mismo hace DeepConf con las respuestas de un modelo de lenguaje. No multiplica versiones por inercia, usa una señal interna para administrar tiempo y esfuerzo.

El trabajo presenta una idea central y dos formas de llevarla a la práctica. La idea es aprovechar la confianza interna del modelo, esa probabilidad que asigna a cada palabra que va generando, para estimar la calidad de una cadena de razonamiento completa. Las dos formas son un modo offline que decide recién al final y un modo online que toma decisiones durante la escritura. El primero ordena la votación. El segundo ordena el gasto. Los resultados mostrados en pruebas de razonamiento matemático son llamativos: niveles de acierto que rozan el techo y reducciones de tokens que alivian cualquier presupuesto. Hay experimentos en varios tamaños de modelo, desde escalas medianas hasta grandes. Nada de esto exige volver a entrenar. Todo ocurre en la etapa de inferencia, que es donde duelen los segundos y los dólares.

Por qué había que cambiar de método

La autoconsistencia, la técnica que dominó los últimos años, confiaba en la diversidad bruta. Si una cadena se desviaba, otra la corregía. Esa intuición tiene algo de sabiduría colectiva y, durante un tiempo, mejoró la precisión. Pero el precio aparece rápido. Para ganar un poco más de exactitud hay que abrir muchas rutas nuevas. Cada ruta consume tokens, cada token suma latencia, cada latencia empeora la experiencia y engorda la factura. En operaciones reales, donde circulan miles de consultas, esa curva deja de ser teórica. Se convierte en llamadas de soporte, en usuarios impacientes, en servidores a punto de explotar. DeepConf nace de esa fatiga. No desconfía de la diversidad. La disciplina.

Cada vez que el modelo elige una palabra, dice también cuán seguro está de haber elegido bien. No es una corazonada, es un número. Ese número sube, baja, se estabiliza o se derrumba según la parte de la cadena que estemos mirando. Si la confianza cae y se queda abajo justo en los tramos donde se decide la respuesta, lo que sigue suele ser una mala conclusión. Si la confianza se sostiene en los momentos críticos, la respuesta tiende a cerrar. DeepConf toma esa señal y la convierte en política editorial. Cortar cuando hay una caída persistente en el lugar equivocado, ponderar cuando la solidez se mantiene en los segmentos decisivos. Se trata de leer el pulso de la escritura, no de contar palabras.

Promediar la confianza de toda la cadena parece razonable, pero es una trampa. Un buen arranque y un final aceptable pueden esconder un bache en el medio que destruya la lógica. Por eso el paper insiste en observar por partes. Primero, se usan ventanas deslizantes que recorren la cadena y calculan la confianza media de pequeños tramos. Es la forma de detectar pozos locales. Segundo, se mira la cola de la cadena, porque el cierre suele concentrar el paso clave, el número final, la deducción que valida todo lo anterior. Tercero, se calcula el peor diez por ciento de esas ventanas, que captura los segmentos más flojos de la traza. Cuando ese decil es muy bajo, las chances de que la respuesta esté mal encaminada se disparan. Esa combinación de miradas devuelve un mapa útil. Muestra mesetas sólidas, pendientes suaves y agujeros. Ahí está el terreno real por el que transita el razonamiento.

Dos modos, dos ritmos, un mismo criterio

El modo offline respeta la diversidad, pero le quita inocencia. Primero se generan varias rutas de pensamiento completas. Después se filtran las que no alcanzan un mínimo de confianza y se vota con pesos distintos. No es un voto plano. Pesa más quien demostró solidez en los tramos críticos. Ese pequeño cambio reduce la contaminación que antes introducían las cadenas frágiles, esas que llegan al final pero no debieron haber pasado el primer control de calidad.

El modo online es más estricto con el tiempo. Observa la confianza en vivo y, si detecta una caída sostenida debajo de un umbral en la zona que importa, corta. Se detiene esa cadena y se reasignan tokens a otra que respira mejor. Esto hace dos cosas a la vez. Evita escribir páginas que ya huelen a callejón sin salida y achica el percentil alto de latencia, ese que el usuario siempre recuerda. En plataformas con mucho tráfico, domar ese percentil cambia la percepción entera del producto.

Los autores informan picos de exactitud muy altos en desafíos como AIME, y al mismo tiempo ahorros enormes de tokens frente a las estrategias que abrían rutas sin filtro. En contextos offline, el voto ponderado mejora varios puntos sobre la votación simple. En contextos online, el nivel de acierto se mantiene mientras se recorta entre la mitad y casi todo el texto intermedio según la configuración. Más allá de la cifra puntual, lo que importa es el patrón. Se deja de asociar calidad con cantidad y se empieza a asociar calidad con criterio. Ese cambio es cultural, no solo técnico.

Una investigación vale por lo que propone y por lo que permite. DeepConf es útil porque vive donde se toman las decisiones apuradas, que es la inferencia. Un equipo que opere un asistente técnico con alto tráfico puede empezar con el modo online en las consultas caras, esas que disparan el tiempo de respuesta. Se define un umbral prudente para cortar solo cuando hay un patrón claro de caída en la parte decisiva de la cadena. Se mide la tasa de cortes, los tokens por respuesta, la latencia en el percentil que duele y la precisión en un conjunto que represente el tráfico real. Si la curva mejora, se aprieta un poco el umbral. Si aparecen falsos cortes, se afloja. Dos semanas después la sensación del sistema cambia. Llega antes, se paga menos, no se sacrifica calidad.

En un laboratorio que evalúa problemas matemáticos, el modo offline muestra su valor. Se conservan varias rutas, se filtra por confianza local y se vota con peso. Se compara con el voto plano. No todos los problemas ofrecen fuegos artificiales, pero los patrones se repiten. Menos ruido en la decisión final, más estabilidad en el cierre, menos texto para alcanzar el mismo número.

El detalle técnico contado con paciencia

Vale detenerse en cómo se construye ese puntaje de confianza por traza. Pensemos la cadena como una sucesión de palabras con una probabilidad asociada a cada una. En lugar de sumar todas esas probabilidades y dividir, se arma una lista de pequeñas ventanas que se deslizan a lo largo del texto. De cada ventana se calcula el promedio de confianza. Con esa lista, se observan dos cosas. Por un lado, el valor mínimo, que suele coincidir con el tramo más frágil. Por otro lado, el promedio del peor grupo, el decil más bajo, que evita que un único bache explique todo. A esa lectura se le agrega la cola, los últimos tokens, que tienen un efecto desproporcionado en la calidad final. Esas tres piezas se combinan en un puntaje. Ese puntaje ordena el mundo.

Con ese puntaje en la mano, el modo offline funciona como una sala de edición. Se elige un mínimo razonable, se filtran los candidatos que no llegan y luego se vota con pesos proporcionales al puntaje. El modo online es una consola que muestra la confianza en ventanas y en cola mientras el texto nace. Si aparece una caída persistente en los tramos sensibles, se corta. Esta insistencia en la persistencia no es un capricho. Sirve para no reaccionar a ruidos pasajeros. Una duda inocua no debería matar una idea que venía bien. Una duda que se instala donde no corresponde sí.

La confianza interna no es la verdad. Un modelo puede equivocarse con seguridad. Eso no invalida el método, lo define. DeepConf no usa la confianza para coronar una respuesta. La usa para administrar presupuesto durante el proceso de pensar. Para protegerse de la sobreconfianza, conviene exigir persistencia antes de cortar, reservar un pequeño espacio de diversidad que permita que una ruta disidente llegue al final y monitorear qué cortes resultan en errores para ajustar umbrales. En dominios con verificación clara, como matemáticas o programación con pruebas, la señal guía con firmeza. En redacción abierta o argumentación, la relación entre confianza y valor editorial es más ruidosa. Aun así, una política prudente ayuda a recortar verborrea sin apagar creatividad.

Cómo se calibra en la práctica

Los umbrales deciden el carácter. Un umbral alto con poca paciencia corta de más. Un umbral bajo con paciencia infinita no corta nunca. Lo mismo ocurre con el tamaño de las ventanas. Ventanas muy cortas reaccionan al ruido y producen cortes injustificados. Ventanas muy largas suavizan tanto la señal que vuelve a perderse el detalle local. En general conviene empezar con un umbral conservador, ventanas intermedias, una pequeña región de cola que refleje la parte en la que se decide la respuesta y una condición de persistencia que exija que la caída se mantenga durante algunos pasos. Luego se mide en un conjunto que imite el tráfico real y se ajusta. No hay magia. Hay disciplina.

El usuario no ve ventanas ni umbrales. Ve tiempos. Si se generan menos tokens para llegar a la misma respuesta, la latencia baja. Esa reducción se nota especialmente en el percentil alto, que es el que provoca que una porción de las consultas tarde mucho más que el promedio. Domar ese comportamiento hace que la experiencia se sienta más fluida. También hay un cambio que no entra en una tabla, pero se percibe. Las respuestas pierden esos párrafos redundantes que no agregan nada. El texto intermedio se vuelve más limpio. No es solo un ajuste de costos. Es una mejora editorial.

Los equipos miran otra pantalla. Ven contadores de tokens, cargas de GPU, escalado automático encendiéndose cuando no debería. DeepConf quita presión. Si el sistema ya abre varias rutas para ganar precisión, filtrar pronto y votar con peso baja el gasto unitario. Con el mismo presupuesto se atiende más tráfico o se habilitan tareas que antes eran demasiado caras. Quienes trabajan con ventanas de servicio exigentes, además, ganan estabilidad. Ya no hay que sobredimensionar a ciegas para protegerse de oleadas de cadenas inútiles que se completaban por inercia.

Existen otras estrategias para mejorar el razonamiento. Algunas exploran árboles de posibilidades con estructura. Otras montan debates entre instancias del modelo. Todas agregan complejidad a cambio de calidad. DeepConf puede convivir con ellas o reemplazarlas según el caso. Su virtud es que no pide teatro. No necesita nuevas voces ni grandes coreografías. Aprovecha una señal que ya estaba en escena y la convierte en criterio de producción. Si se la combina con otras técnicas, puede cortar en vivo las ramas que pierden pulso y, entre las que llegan a buen puerto, decidir con voto ponderado. Ese mix ofrece un control fino sin construir una catedral.

Ejemplos cotidianos que iluminan más que una fórmula

Un asistente de programación recibe una consulta sobre un bug con varias causas posibles. Una ruta se entusiasma con una hipótesis y empieza a repetir documentación sin avanzar. La confianza en ventanas cae. El modo online corta y libera presupuesto para otra ruta que prueba una condición en el código y avanza hasta encontrar el error. La respuesta que llega es más corta y más útil.

Un sistema de atención al cliente con recuperación de contexto recibe una pregunta sobre una póliza. Una cadena se pierde copiando fragmentos del contrato que no vienen al caso. Otra encadena las cláusulas correctas y explica el procedimiento. Filtrar por confianza evita que la primera contamine el voto y hace que la segunda domine el resultado. El cliente no tiene por qué saber qué pasó en el backstage. Solo ve una contestación clara que llega antes.

Una batería de problemas matemáticos separada por dificultad muestra que la señal de cola tiene un peso particular. Cuando la cola pierde confianza, el error aparece con frecuencia inusual. Ajustar el umbral de cola mejora la decisión final en modo offline. Los gráficos no solo suben, también se estabilizan. El equipo decide que esa métrica valdrá más que las otras en su puntaje de traza. En paralelo, una ablation quita la mirada del peor decil. La precisión cae. La lección es simple. No alcanza con mirar el mínimo absoluto, hay que observar el comportamiento del grupo de segmentos más flojos. Ese es el sensor más robusto.

Hay un itinerario razonable para adoptar DeepConf sin dramas. Exponer la probabilidad del token elegido en la tubería de inferencia. Calcular ventanas en streaming con un pequeño buffer circular. Registrar el mínimo, el decil inferior y la cola. Definir al principio umbrales conservadores y una condición de persistencia que evite reacciones histéricas. Medir exactitud, tokens por respuesta, latencia en percentiles y tasa de cortes. Ajustar una vez por semana. Documentar por dominio. Repetir. Cuando las curvas de latencia y costo bajan sin arrastrar la precisión, el método deja de ser un experimento y se transforma en política del sistema.

Qué no es DeepConf

No es un verificador de verdad. No es una excusa para recortar creatividad. No es un atajo para maquillar un modelo mal entrenado. DeepConf es un administrador del presupuesto cognitivo en inferencia. Hace lo que un buen editor hace con un autor apurado. Corta donde ve que el argumento se deshilacha, deja pasar lo que sostiene la idea, y al final entrega un texto más corto y más convincente. Funciona mejor cuanto más claro sea el criterio con el que se calibra.

Una vez que el sistema aprende a cortar y a votar con criterio, aparece un horizonte natural. Un planificador elástico que decida, según la pregunta, cuánta profundidad vale la pena, cuántas rutas abrir, cuánto dejarlas crecer, cuándo llamar a una herramienta externa y cuándo cerrar. La confianza local puede coordinarse con señales de avance semántico y con estimadores de dificultad. Algunas preguntas merecen una excursión larga. Otras, una réplica concisa. Ese ajuste fino por consulta es el próximo paso. No todas las dudas del mundo exigen la misma cantidad de tokens.

DeepConf instala una virtud que el ecosistema había perdido. La virtud de elegir. La primera etapa de la IA generativa celebró la abundancia. Más muestras, más rutas, más votos. La etapa que empieza no desprecia la diversidad, la administra. Usa señales internas para cuidar el tiempo del usuario, el presupuesto del equipo y la claridad de la respuesta. Presenta una forma de pensar que se parece más a una edición sobria que a una batalla de egos. Y, sobre todo, recuerda una regla que vale para máquinas y para personas. No gana quien habla más. Gana quien sabe cuándo callarse a tiempo.

Perfecto, acá tenés el apartado técnico (compacto, riguroso y en español) para incrustar en tu nota. Incluye notación, fórmulas, algoritmos offline/online, parámetros y cómo llevarlo a producción. Cito el paper donde corresponde.

Cómo funciona DeepConf

1) Notación y señales de confianza

Sea un prompt $xx$ y una traza de razonamiento $T=(y1,…,yL)T=(y_1,\dots,y_L)$ generada autoregresivamente. El modelo induce, en cada paso $tt$ , una distribución $p(⋅∣y<t,x)p(\cdot\mid y_{<t},x)$ y elige el token $yty_t$ con probabilidad $p(yt∣y<t,x)p(y_t\mid y_{<t},x)$ .
Entropía por token. $Ht=−∑vp(v∣y<t,x)log⁡p(v∣y<t,x)H_t=-\sum_{v} p(v\mid y_{<t},x)\log p(v\mid y_{<t},x)$ .
Confianza por token. El paper define una medida de “token confidence” a partir de los log-prob de los top- $kk$ tokens; baja entropía ↔ alta confianza. Estas señales locales se agregan para evaluar la calidad de toda la traza.

2) Métricas de confianza a nivel traza

DeepConf evita el promedio global (que “aplasta” los baches) y usa medidas locales:

Group confidence. Se promedia la confianza por token en ventanas deslizantes (grupos solapados) a lo largo de la traza, generando una serie ${Gi}\{G_i\}$ más suave y localizada.
Bottom-10% group confidence. Puntuación de traza basada en el promedio del decil más bajo de ${Gi}\{G_i\}$ : captura los tramos más frágiles que suelen anticipar errores.
Lowest group confidence. El mínimo de ${Gi}\{G_i\}$ : útil para corte online por su simplicidad.
Tail confidence. Promedio de confianza en la cola (los últimos $tt$ tokens), porque el cierre decide el resultado con frecuencia desproporcionada.

Con estas piezas, una traza recibe un puntaje $S(T)S(T)$ (combinación lineal de métricas) que luego guía el filtrado y/o el voto ponderado.

3) Modo offline: voto ponderado y filtrado

Objetivo. Mejorar la decisión final cuando ya generaste $KK$ trazas completas.

Pipeline.

Generá $KK$ trazas ${Tk}\{T_k\}$ .
Calculá $S(Tk)S(T_k)$ con las métricas anteriores.
Filtrado por confianza: quedate con el top- $p%p\%$ por $SS$ (p. ej., 10% o 90%, según cuánta diversidad quieras preservar).
Voto ponderado: sumá votos por respuesta final pesando cada traza con $S(Tk)S(T_k)$ (o una función creciente de $SS$ ). Gana la respuesta con mayor suma de pesos. Complejidad: $O(KL)O(KL)$ para computar métricas y un conteo lineal para el voto.

Intuición: ya no vale “un traza = un voto”. Valen más las que se mantuvieron confiadas en los tramos críticos y se neutraliza la contaminación de rutas erráticas.

4) Modo online: corte temprano con umbral

Objetivo. Ahorrar cómputo y latencia durante la generación sin perder exactitud.

Dos componentes:

Warm-up offline. Para cada nuevo prompt, generás un pequeño lote inicial y fijás un umbral de parada $τ\tau$ que retenga, por ejemplo, el top- $p%p\%$ de trazas por $SS$ . El paper presenta dos políticas: DeepConf-low y DeepConf-high, que difieren en el “keep ratio” elegido.
Muestreo adaptativo. Mientras generás, vas calculando la métrica elegida (suele usarse lowest group confidence por eficiencia). Cortás una traza cuando su señal cae por debajo de $τ\tau$ en la región vigilada; si además hay consenso suficiente entre las trazas vivas, se detiene el proceso (si no, se siguen abriendo/extendiendo rutas hasta un presupuesto máximo).

Resultado: el online aproxima la política offline (las trazas que habrías filtrado al final son las que vas apagando en vivo), pero con ahorro directo de tokens y mejor p95/p99 de latencia.

5) Hiperparámetros y calibración

Tamaño de ventana $ww$ en group confidence: elegí $ww$ según el dominio; chicas capturan pozos pero son ruidosas, grandes estabilizan pero pueden tapar señales finas.
Longitud de cola $tt$ en tail confidence: en razonamiento matemático puede ser más corta; en redacción/argumentación, más larga. El paper ilustra la idea con una cola fija (ej. 2048 tokens).
Keep ratio $pp$ (offline y warm-up): top-10% favorece trazas muy confiables pero arriesga sesgo; top-90% mantiene diversidad y reduce sesgos. Ajustalo con tu dev set.
Umbral $τ\tau$ (online): empezá conservador y exigí persistencia (no cortes por un bache instantáneo).
Consenso $κ\kappa$ : definí un umbral de consenso para parar cuando “ya está decidido” y no seguir gastando.

6) Resultados clave

En AIME 2025, DeepConf@512 llega hasta 99,9% de exactitud; en modo online reporta reducción de tokens de hasta 84,7% frente al “pensar en paralelo” sin filtro, manteniendo o mejorando la precisión según configuración y modelo (Qwen 3, GPT-OSS, etc.). También muestra ventajas en AIME 2024, HMMT 2025 y otros bancos.

7) Implementación mínima (vLLM)

El apéndice G del paper detalla ediciones mínimas para exponer log-probs, mantener buffers de ventanas y llamar a un stop-check en el bucle de decodificación:

extender la estructura que transporta logprobs/confidence;
calcular métricas en streaming con un buffer circular;
invocar el stop-check en el decode loop según $τ\tau$ y la política elegida;
devolver trazas vivas al agregador para voto ponderado.

8) Qué monitorizar en producción

Exactitud (pass@1 / pass@k) en tu set representativo por dominio e idioma.
Tokens por respuesta y % de ahorro vs. baseline.
Latencia p95/p99 y tasa de abortos de traza.
Drifts de confianza por segmentos y sensibilidad a $τ,w,t\tau, w, t$ .
Ablaciones: quitar tail, quitar bottom-10%, quitar ponderación; comparar contra voto simple. (El paper incluye ablations sobre umbrales, warm-up y percentiles.)

9) Límites y defensas

Sobreconfianza ≠ verdad. La confianza guía presupuesto, no certifica corrección.
Persistencia antes de cortar; diversidad mínima para no matar caminos prometedores; revisión de falsos cortes y ajuste de $τ\tau$ .
En tareas abiertas (argumentación), usá tail y group con tolerancia mayor; en tareas con verificación dura (math/código), podés ser más agresivo.

Pseudocódigo de referencia

Offline (filtrado + voto ponderado)

inputs: x, K, keep_ratio p, métricas M(*), pesos α
candidatos = []
for k in 1..K:
    T_k = generar_traza(x)
    S_k = Σ_j α_j · M_j(T_k)        # group/tail/bottom10/min
    candidatos.append((respuesta(T_k), S_k))

candidatos = top_porciento(candidatos, por=S_k)   # filtro por confianza
respuesta = argmax_suma_pesos(candidatos)         # voto ponderado
return respuesta

Basado en §3.2 del paper.

Online (corte temprano + consenso)

inputs: x, presupuesto B, umbral τ (desde warm-up), consenso κ
trazas = []
while B > 0 and not consenso(trazas)≥κ:
    traza = nueva_traza()
    while viva(traza) and B>0:
        y_t = sample()
        actualizar_metricas_en_ventanas(traza)
        if en_zona_critica(traza) and metricas(traza) < τ:
            abortar(traza); break
        B -= 1
    if viva(traza): trazas.append(traza)

respuesta = consolidar_por_peso(trazas)
return respuesta

Basado en §3.3 (warm-up, lowest-group y consenso).

Paper

DeepConf: cómo un modelo aprende a cortar a tiempo sin perder la cabeza ni el presupuesto