La infraestructura centralizada en la nube que actualmente procesa la mayoría de las consultas a modelos de lenguaje enfrenta una presión sin precedentes. El crecimiento exponencial de la demanda amenaza con saturar los centros de datos, mientras los proveedores luchan por escalar sus sistemas al ritmo necesario. Sin embargo, dos avances tecnológicos convergen para replantear este paradigma: los modelos locales pequeños alcanzan ahora niveles de rendimiento competitivos con los sistemas frontera en numerosas tareas, y los aceleradores locales poseen la capacidad suficiente para alojar estos modelos con latencias interactivas. La pregunta que surge naturalmente es si la inferencia local puede redistribuir viablemente la demanda desde la infraestructura centralizada.
Un equipo de investigadores de la Universidad de Stanford y Together AI ha presentado un estudio exhaustivo que introduce una métrica unificada para evaluar esta viabilidad: inteligencia por vatio. Esta medida, que divide la precisión en las tareas entre la unidad de potencia consumida, captura simultáneamente la capacidad del modelo y la eficiencia del acelerador. El concepto refleja un compromiso fundamental: lograr suficiente rendimiento dentro de presupuestos de energía restringidos. La investigación abarca más de veinte modelos locales de última generación, ocho aceleradores de hardware diversos, y un millón de consultas reales que abarcan conversaciones naturales y tareas de razonamiento.
Los resultados desafían varias suposiciones arraigadas sobre la necesidad de infraestructura en la nube. Los sistemas locales pueden manejar con éxito el 88.7% de las consultas de un solo turno evaluadas, aunque la cobertura varía significativamente según el dominio. Las tareas creativas superan el 90% de cobertura, mientras que los campos técnicos especializados descienden al 68%. El análisis longitudinal revela una mejora sostenida: el mejor modelo local igualaba la calidad de los modelos frontera en apenas el 23.2% de las consultas durante 2023, cifra que ascendió al 48.7% en 2024 y alcanzó el 71.3% en 2025. Esta triplicación en dos años sugiere una trayectoria acelerada hacia la paridad funcional.
El ascenso meteórico de la eficiencia energética
La métrica de inteligencia por vatio experimentó un incremento de 5.3 veces entre 2023 y 2025, impulsado por mejoras compuestas tanto en las arquitecturas de modelos como en los aceleradores de hardware. Mantener fijo el acelerador mientras se mejora el modelo desde Mixtral-8x7B hasta GPT-OSS-120B produce una ganancia de 3.1 veces en precisión por vatio. Inversamente, mantener constante el modelo mientras se actualiza el hardware desde H100 hasta Blackwell genera una mejora de 1.7 veces. La combinación de ambas dimensiones crea un efecto multiplicativo que explica el salto quintuplicado.
Esta progresión no representa simplemente una curiosidad académica. La eficiencia energética determina directamente qué cargas de trabajo pueden ejecutarse en dispositivos con restricciones de potencia. Una laptop típica opera con presupuestos térmicos de 45 a 100 vatios, mientras que los servidores en la nube pueden consumir varios kilovatios. La brecha histórica significaba que las tareas sofisticadas de lenguaje natural requerían forzosamente infraestructura remota. Las mejoras documentadas en el estudio erosionan sistemáticamente esta barrera, expandiendo el conjunto de consultas procesables localmente.
Los datos del equipo revelan patrones claros en la evolución temporal. El modelo Mixtral-8x7B ejecutándose en una NVIDIA Quadro RTX 6000 durante 2023 alcanzaba 7.92×10⁻⁴ de precisión por vatio. Un año después, Llama-3.1-8B en una RTX 6000 Ada lograba 1.80×10⁻³, más del doble. Para 2025, GPT-OSS-120B sobre Apple M4 Max llegaba a 4.18×10⁻³. Cada generación heredaba las ganancias de la anterior y añadía sus propias mejoras, creando una escalera de progreso sostenido.
Arquitecturas que desafían el tamaño con inteligencia
Los modelos evaluados abarcan desde 4 mil millones hasta 235 mil millones de parámetros activos, con configuraciones que incluyen desde arquitecturas densas tradicionales hasta sistemas de mezcla de expertos. Qwen3, GPT-OSS, Gemma3 e IBM Granite representan diferentes filosofías de diseño, cada una optimizando distintos aspectos del compromiso entre capacidad y eficiencia. Los sistemas más pequeños sobresalen en tareas conversacionales y creativas, mientras que los mayores mantienen ventajas en razonamiento técnico y campos especializados.
La familia Qwen3 ilustra particularmente bien cómo escala el rendimiento con el tamaño. El modelo de 4 mil millones de parámetros maneja correctamente el 49.6% de las consultas en promedio, cifra que asciende al 57.5% con 8 mil millones, 60.0% con 14 mil millones, y 71.4% con 120 mil millones. Cada incremento en escala captura consultas adicionales que eludían a las versiones menores, pero los beneficios marginales decrecen. La brecha entre 4B y 8B supera los 7 puntos porcentuales, mientras que entre 14B y 32B apenas suma 9 puntos adicionales.
GPT-OSS-120B alcanza el rendimiento individual más alto, respondiendo correctamente el 71.4% del conjunto total de consultas. Sin embargo, enrutar cada pregunta al modelo local más apropiado en lugar de usar un único sistema eleva la cobertura al 88.7%. Esta mejora de 17.3 puntos porcentuales demuestra que la diversidad arquitectural captura fortalezas complementarias. Diferentes modelos destacan en diferentes tipos de preguntas, y un sistema de enrutamiento inteligente puede explotar estas especializaciones.
Hardware: la frontera menos explorada de la eficiencia
Mientras los avances algorítmicos acaparan titulares, las mejoras en los aceleradores contribuyen sustancialmente al progreso general. Los chips modernos integran múltiples innovaciones: memorias de alto ancho de banda, unidades especializadas de procesamiento tensorial, jerarquías de caché optimizadas, y gestión térmica avanzada. Cada generación de hardware ofrece más operaciones por vatio, aunque las diferencias entre aceleradores locales y de nube permanecen significativas.
Los investigadores compararon sistemáticamente la eficiencia entre plataformas. El Apple M4 Max representa el estado del arte en aceleradores locales para consumidores, con 128 GB de memoria unificada y 546 GB/s de ancho de banda. Las GPUs de nube como NVIDIA B200 ofrecen 192 GB de memoria HBM3e con 8 TB/s de ancho de banda y consumen 1000W de potencia. Esta disparidad en especificaciones se traduce en diferencias medibles de eficiencia.
Ejecutando los mismos modelos Qwen3 en diferentes aceleradores, el B200 logra 1.40 veces mayor inteligencia por vatio que el M4 Max en promedio. El SambaNova SN40L alcanza 1.78 veces la eficiencia del M4 Max en el modelo de 32B. Las brechas se amplían considerablemente al medir inteligencia por julio, que incorpora tanto consumo energético como latencia: el B200 supera al M4 Max por factores de 1.6 a 2.3 veces, mientras que el SN40L lo supera por 6.5 a 7.4 veces.
Estas ventajas de eficiencia provienen de optimizaciones especializadas. Los aceleradores de nube emplean componentes dedicados, memorias de alta velocidad, y unidades de procesamiento tensorial que maximizan el rendimiento por vatio. Los aceleradores locales utilizan arquitecturas de memoria unificada que balancean cargas de trabajo diversas bajo restricciones térmicas estrictas. Las mediciones con tamaño de lote unitario indican que estas ventajas persisten incluso en configuraciones de consulta única, revelando espacio sustancial para que futuros diseños locales cierren esta brecha mediante componentes especializados en dispositivo.
Dominios económicos y la geografía del rendimiento
No todas las consultas presentan igual dificultad para los modelos locales. Los investigadores anotaron cada pregunta con categorías del Índice Económico Anthropic, que mapea consultas de IA a ocupaciones en la clasificación del Departamento de Trabajo estadounidense. Este marco permite cuantificar qué sectores económicos pueden beneficiarse inmediatamente del procesamiento local y cuáles aún requieren capacidades de nube.
Las tareas creativas muestran cobertura excepcional. Artes, diseño, deportes, entretenimiento y medios superan el 93% de consultas manejables localmente. Ciencias de la computación y matemáticas alcanzan el 85.6%. Servicios de producción llegan al 74.7%. Estas cifras contrastan marcadamente con arquitectura e ingeniería, donde apenas el 60.1% de las consultas reciben respuestas correctas de modelos locales. Campos técnicos especializados como ciencias físicas también presentan tasas de cobertura reducidas.
Esta variación refleja diferencias fundamentales en la naturaleza de las consultas. Las preguntas creativas y conversacionales típicamente admiten múltiples respuestas válidas y se benefician de la familiaridad con patrones culturales amplios. Los desafíos técnicos especializados requieren conocimiento preciso de dominios estrechos, razonamiento cuantitativo riguroso, y capacidad para sintetizar información de múltiples fuentes técnicas. Los modelos actuales destacan en lo primero pero luchan con lo segundo.
El análisis también revela que el tipo de tarea importa tanto como el dominio. Las consultas de chat extraídas de WildChat, un conjunto de datos de conversaciones reales con ChatGPT, muestran cobertura sustancialmente mayor que las consultas de razonamiento de NaturalReasoning. El mejor modelo local logra 88.9% en WildChat versus 64.9% en NaturalReasoning, una brecha de 24 puntos porcentuales. Esta disparidad subraya que el procesamiento local funciona mejor para interacciones conversacionales que para tareas intensivas en razonamiento.
El enrutamiento inteligente como multiplicador de eficiencia
Los sistemas híbridos que combinan infraestructura local y de nube mediante enrutamiento inteligente de consultas ofrecen beneficios dramáticos. La estrategia consiste en asignar cada pregunta al modelo más pequeño capaz de responderla correctamente, reservando los sistemas frontera caros y energéticamente intensivos para las consultas que genuinamente los requieren. Los investigadores simularon un sistema sirviendo 80.2 millones de consultas durante 24 horas, enrutando entre cuatro modelos locales en dispositivos M4 Max y un modelo frontera en infraestructura H200.
El enrutamiento oracle, que representa asignación perfecta de cada consulta al modelo óptimo, reduce el consumo energético en 80.4%, el cómputo en 77.3%, y el costo en 73.8% comparado con procesar todas las consultas en el modelo más grande. Estos ahorros masivos provienen de dirigir el 80.7% de las consultas que los modelos locales pueden manejar hacia hardware significativamente más eficiente, mientras se reserva el costoso procesamiento frontera para el 19.3% de preguntas que genuinamente lo requieren.
Crucialmente, los sistemas de enrutamiento no necesitan precisión perfecta para capturar beneficios sustanciales. Un enrutador con 80% de precisión, un objetivo realista para sistemas modernos, logra aproximadamente el 80% de las ganancias máximas teóricas: reducción del 64.3% en energía, 61.8% en cómputo, y 59.0% en costo sin degradación de la calidad de las respuestas. Incluso un enrutador conservador con 60% de precisión entrega ahorros del 48.4% en energía, 46.7% en cómputo, y 44.5% en costo.
Estos ahorros escalan linealmente con el volumen de consultas. A escala de plataforma, con miles de millones de inferencias diarias, el enrutamiento inteligente podría generar ahorros energéticos anuales medidos en teravatios-hora. La clave metodológica radica en que las consultas mal enrutadas se delegan al modelo de nube, preservando la calidad mientras se optimiza la eficiencia. Este enfoque contrasta con estrategias que sacrifican precisión por velocidad o costo.
Memorias que crecen y paradigmas que cambian
La capacidad de memoria de los aceleradores locales ha experimentado expansión dramática desde 2012. Los dispositivos que ofrecían 10-20 GB en 2020 ahora proporcionan 128-512 GB mediante arquitecturas de memoria unificada. Este crecimiento representa el principal impulsor que habilita el despliegue local de modelos cada vez más capaces. El salto desde menos de 20 GB a más de 200 GB remueve la restricción clave que forzaba las cargas de trabajo hacia la infraestructura en la nube.
Apple Silicon ejemplifica esta tendencia. El M4 Max integra 128 GB de memoria unificada accesible tanto por CPU como GPU, eliminando transferencias de datos entre dominios de memoria separados. Esta arquitectura facilita mantener modelos grandes completamente en memoria con acceso de baja latencia. Los investigadores verificaron que modelos con hasta 20 mil millones de parámetros activos ejecutan eficientemente en esta plataforma, estableciendo un nuevo punto de referencia para lo procesable localmente.
La trayectoria histórica sugiere que esta expansión continuará. Cada generación de tecnología de memoria ofrece mayor capacidad y ancho de banda. HBM3e, la última generación de memoria de alto ancho de banda, proporciona hasta 8 TB/s de throughput. Las memorias unificadas de próxima generación prometen capacidades de cientos de gigabytes en factores de forma de consumo. Esta progresión erosiona sistemáticamente la ventaja de capacidad de memoria que históricamente favorecía a la infraestructura centralizada.
Patrones de consulta y el futuro del procesamiento distribuido
El análisis detallado de los patrones de consulta revela insights sobre qué tipos de interacciones se benefician más del procesamiento local. El conjunto de datos WildChat, derivado de un mes de tráfico real de ChatGPT, muestra que el 77% de las consultas involucran guía práctica, búsqueda de información, o escritura. Estas tareas se alinean naturalmente con las fortalezas de los modelos locales. Las consultas intensivas en razonamiento, más comunes en campos técnicos, representan una fracción menor pero significativa que frecuentemente requiere capacidades frontera.
Los benchmarks estandarizados confirman estos patrones. MMLU Pro, que mide comprensión de conocimiento multidominio, alcanza 93.4% de cobertura con enrutamiento local óptimo. SuperGPQA, abarcando razonamiento a nivel de posgrado en 285 disciplinas, logra 83.6% de cobertura. La cobertura exhaustiva de disciplinas en SuperGPQA revela que los dominios técnicos permanecen como el desafío principal: cobertura superior al 93% en campos creativos y humanísticos cae al 60% en disciplinas técnicas especializadas.
Esta segmentación del espacio de consultas sugiere una arquitectura híbrida natural. Las interacciones conversacionales, creativas, y de búsqueda de información que dominan el uso cotidiano se procesan localmente con alta calidad y eficiencia energética superior. Las consultas técnicas especializadas, análisis cuantitativos complejos, y tareas de razonamiento de múltiples pasos se escalan a infraestructura en la nube cuando la capacidad local resulta insuficiente. El sistema de enrutamiento actúa como árbitro inteligente entre estos dominios.
Cuantización y el compromiso precisión-eficiencia
La reducción de precisión numérica desde FP16 completa hacia FP8 o FP4 disminuye los requerimientos de memoria y el consumo energético durante la inferencia, pero introduce error de aproximación que puede degradar la precisión del modelo. Los investigadores cuantificaron este compromiso evaluando ocho modelos de código abierto de las familias Qwen3 y Gemma3 en tres niveles de precisión. Cada par modelo-precisión se midió en tres conjuntos de datos enfocados en razonamiento.
La cuantización de FP16 a FP4 genera reducciones energéticas de 3 a 3.5 veces con degradación de precisión de aproximadamente 2.5 puntos porcentuales por paso de precisión en todos los modelos y conjuntos de datos. Qwen3-14B en SuperGPQA logra 54.5% en FP16, 52.0% en FP8, y 49.0% en FP4, una degradación total de 5.5 puntos a pesar de una reducción energética de 3.23 veces. Los modelos más grandes mantienen su ventaja relativa incluso a precisión menor: Qwen3-14B en FP4 supera a Qwen3-4B en FP16.
Estos resultados demuestran que la cuantización FP8 y FP4 habilita despliegue práctico de modelos locales con compromisos predecibles. Los diseñadores de sistemas pueden seleccionar niveles de precisión basados en requerimientos específicos de aplicación mientras capturan la mayoría de los ahorros energéticos. La escala del modelo importa más que la precisión para tareas de razonamiento, ofreciendo flexibilidad en la optimización de configuraciones de despliegue.
Implicaciones económicas del procesamiento local
Para evaluar la relevancia económica de las mejoras de rendimiento de modelos locales, los investigadores calcularon precisión ponderada por PIB para cada modelo, pesando su desempeño en cada categoría económica por la contribución de ese sector al PIB estadounidense de 2024. Esta métrica cuantifica qué proporción del valor económico resulta relevante y abordable por modelos locales. Las mejoras de modelo se traducen directamente en cobertura de PIB expandida.
En SuperGPQA, Qwen3-235B logra 59.2% de precisión cubriendo 9.3 billones de dólares en PIB relevante, equivalente al 31.9% del PIB total estadounidense. En MMLU Pro alcanza 84.5% de precisión cubriendo 7.6 billones, el 26.0% del total. La correlación positiva fuerte entre precisión del modelo y cobertura de PIB en ambos benchmarks demuestra que escalar capacidades de modelo expande sistemáticamente el conjunto de tareas económicamente valiosas automatizables.
El tipo de tarea afecta sustancialmente la cobertura de PIB. Las tareas de chat en WildChat muestran la cobertura más alta, con GPT-OSS-120B alcanzando 89.2% de precisión y cubriendo 20.3 billones de dólares, el 69.6% del PIB estadounidense. Las tareas de razonamiento en NaturalReasoning muestran menor cobertura: Qwen3-235B logra 69.3% de precisión pero solo cubre 6.8 billones, el 23.3% del PIB. Esta disparidad revela que los modelos actuales destacan en tareas creativas y conversacionales que dominan la actividad económica, pero luchan con razonamiento técnico concentrado en sectores especializados.
Horizontes tecnológicos y desafíos pendientes
Los resultados establecen que la inferencia local puede redistribuir significativamente la demanda de infraestructura centralizada para un subconjunto sustancial y creciente de consultas. Las mejoras de 5.3 veces en inteligencia por vatio durante dos años, combinadas con cobertura de consultas que se triplicó, indican una trayectoria sostenida hacia mayor viabilidad. Sin embargo, persisten desafíos técnicos y económicos que limitan la adopción universal del procesamiento local.
La brecha de eficiencia entre aceleradores locales y de nube representa un área clave de mejora. Los dispositivos de consumo operan bajo restricciones térmicas estrictas que previenen la integración de componentes especializados de alto consumo. Las futuras generaciones de aceleradores locales podrían incorporar unidades de procesamiento tensorial dedicadas, cachés especializadas, y técnicas de gestión térmica avanzada para cerrar esta brecha manteniendo factores de forma apropiados para consumidores.
Los campos técnicos especializados continúan presentando desafíos significativos. Arquitectura, ingeniería, ciencias físicas, y matemáticas avanzadas mantienen tasas de cobertura del 60-68% con modelos locales, comparado con más del 90% en dominios creativos. Esta disparidad sugiere que el razonamiento técnico profundo permanece como frontera donde la escala de modelo y la calidad de entrenamiento importan críticamente. Mejoras algorítmicas en capacidades de razonamiento expandirían directamente el conjunto de consultas procesables localmente.
El desarrollo de sistemas de enrutamiento robustos requiere investigación adicional. Los experimentos del estudio asumen oráculos perfectos o niveles de precisión fijos, pero los sistemas de producción deben estimar dinámicamente la dificultad de consultas y la capacidad de modelo bajo restricciones de latencia. Los enfoques basados en embeddings, métodos generativos, y técnicas de conjunto muestran promesa, pero alcanzar 80% de precisión de enrutamiento en condiciones del mundo real permanece como desafío de ingeniería sustancial.
Convergencia hacia una arquitectura híbrida
La evidencia apunta hacia un futuro donde la infraestructura local y de nube operan complementariamente en lugar de competitivamente. Esta arquitectura híbrida aprovecha las fortalezas de cada paradigma: procesamiento local para la mayoría de interacciones conversacionales y creativas con eficiencia energética superior, infraestructura en la nube para análisis técnico especializado y razonamiento complejo que justifica el costo energético incrementado.
Los sistemas de enrutamiento inteligente actuarán como capa de orquestación, dirigiendo consultas basándose en estimaciones de dificultad, capacidades de modelo disponibles, y restricciones de recursos. Las consultas malentendidas se escalan automáticamente a modelos más capaces, preservando la calidad mientras se optimiza la eficiencia. Este enfoque contrasta con estrategias de todo o nada que fuerzan elecciones binarias entre procesamiento completamente local o completamente en nube.
La progresión histórica de la computación sugiere precedentes para esta transición. Desde 1946 hasta 2009, la eficiencia computacional se duplicó cada 1.5 años, habilitando la redistribución de cargas de trabajo desde mainframes de centros de datos hacia computadoras personales. Esta transición ocurrió cuando las mejoras de eficiencia permitieron que la computación satisficiera necesidades de usuarios dentro de restricciones de potencia de dispositivos personales, no cuando las PCs superaron a los mainframes en rendimiento bruto. La inferencia de lenguaje natural puede seguir una trayectoria similar.
Referencias
Saad-Falcon, J., Narayan, A., Akengin, H. O., et al. (2025). Intelligence per watt: Measuring intelligence efficiency of local AI. arXiv preprint arxiv.org/pdf/2511.07885v1



