NEWSLETTER

Paradoja de Jevons en IA: precios de tokens colapsan 900x pero el consumo se dispara

Generated Image November 04, 2025 - 8_43PM

Paradoja de Jevons en IA: precios de tokens colapsan 900x pero el consumo se dispara

Los precios de tokens LLM colapsan hasta 900x por año: la paradoja de Jevons predice explosión de consumo, no reducción
Los precios de tokens LLM están colapsando rápido, y el colapso es más pronunciado en el extremo superior. Los modelos menos "inteligentes" se vuelven aproximadamente 9 veces más baratos por año, los modelos de rango medio caen aproximadamente 40 veces por año, y los modelos más capaces caen aproximadamente 900 veces por año. Fue igual con la Ley de Moore, el mejor ejemplo contemporáneo de la paradoja de Jevons. Este colapso extraordinario en costos de computación (una mejora de mil millones de veces) no llevó a incrementos modestos y proporcionales en uso de computadoras. Desencadenó una explosión de aplicaciones que habrían sido impensables a puntos de precio anteriores. A 1 dólar por transistor, las computadoras tenían sentido para cálculos militares y nómina corporativa. A una milésima de centavo, tenían sentido para procesamiento de texto y bases de datos. A una millonésima de centavo, tenían sentido en termostatos y tarjetas de felicitación. A una mil millonésima de centavo, los incrustamos en etiquetas de envío desechables que transmiten su ubicación una vez y son desechadas. Las ganancias de eficiencia no han reducido nuestro consumo total de computación: han hecho la computación tan barata que ahora usamos billones de veces más de ella.

Los precios de inferencia de modelos de lenguaje grandes están cayendo tan rápido que es difícil seguirles el ritmo. Pero la velocidad del colapso no es uniforme. De hecho, hay un patrón sorprendente e importante: mientras más capaz es el modelo, más rápido cae su precio.

Según investigación de Epoch AI, los precios de tokens LLM han caído entre 9 veces por año y 900 veces por año dependiendo del hito de rendimiento, con una mediana de 50 veces por año. Los modelos menos "inteligentes" (aquellos que pueden hacer tareas más simples) se vuelven aproximadamente 9 veces más baratos cada año. Los modelos de rango medio caen aproximadamente 40 veces por año. Y los modelos más capaces, aquellos en la frontera de lo que es posible, caen aproximadamente 900 veces por año.

Para ponerlo en perspectiva: el costo de usar un modelo de calidad GPT-3 (medido en dólares por millón de tokens) hoy es 1,000 veces menos que en 2021. Y el costo para modelos mejores parece seguir una curva similar. Lo que costaba 60 dólares por millón de tokens en 2021 cuesta 0.06 dólares por millón de tokens hoy.

Esto es deflación masiva. En cualquier otra industria, esto se consideraría una crisis. Los márgenes colapsando, los precios en caída libre, la competencia feroz. Pero en IA, es visto como progreso. Y hay una razón para eso: la historia nos dice que cuando los costos de una tecnología fundamental colapsan de esta manera, no lleva a menos uso. Lleva a dramáticamente más uso.

La paradoja de Jevons: cuando la eficiencia aumenta el consumo

Esto fue descrito por primera vez en 1865 por William Stanley Jevons, un joven economista inglés. Estaba observando el efecto de la productividad y eficiencia en el consumo de carbón en procesos de manufactura. James Watt había introducido recientemente su máquina de vapor y algunos economistas estaban pronosticando un fin a la contaminación empeorante ya que la eficiencia del nuevo motor de Watt reducía la cantidad de carbón quemado para cualquier tarea dada.

Jevons vio las cosas diferentemente. Superpuso la eficiencia de recursos en la curva de oferta y demanda, notando que a medida que la eficiencia reducía el costo de producción del uso de un recurso dado, el mercado aumentaría la demanda de ese recurso. Jevons pronosticó correctamente que la contaminación por carbón aumentaría debido al nuevo invento de Watt. Aunque la máquina de vapor era más eficiente, esa eficiencia creó más demanda y, a su vez, más contaminación.

La paradoja de Jevons explicada

La proposición: El progreso tecnológico que aumenta la eficiencia con la cual se usa un recurso tiende a aumentar (en lugar de disminuir) la tasa de consumo de ese recurso.

Por qué es una paradoja: Es contraintuitivo. La mejora de eficiencia es obviamente una búsqueda beneficiosa, sin embargo, los resultados finales son lo opuesto del objetivo previsto.

El mecanismo: El propósito de la eficiencia mejorada en el mundo real, en oposición al mundo de política, es capturar los beneficios de un motor. Mientras las personas y negocios quieran más de esos beneficios, el costo decreciente de su uso aumenta la demanda, que a su vez supera las ganancias de eficiencia.

Aplicaciones históricas: Carbón y Revolución Industrial (Watt mejoró la eficiencia de la máquina de vapor, el consumo de carbón se disparó porque más industrias podían costear usar energía de vapor). Semiconductores y computación (la Ley de Moore redujo el costo por transistor, la computación se volvió ubicua, llevando al mundo impulsado por IA de hoy). Computación en la nube (AWS, Azure y Google Cloud redujeron los costos de computación, las empresas no gastaron menos en TI, gastaron más pero recibieron exponencialmente más valor).

La advertencia: Mejorar la eficiencia por sí sola es insuficiente. Se necesita una visión holística de sistemas más amplia.

En su núcleo, la paradoja de Jevons prescribe que "a largo plazo, un aumento en la eficiencia en el uso de recursos generará un aumento en el consumo de recursos en lugar de una disminución". Hasta la fecha, la eficiencia energética ha seguido fielmente la paradoja: mientras más eficientemente se produce la energía, más se consume la energía.

La Ley de Moore como el ejemplo contemporáneo definitivo

La Ley de Moore, propuesta por Gordon Moore en 1965, estableció que el número de transistores en un circuito integrado se duplica cada dos años. Eso también constituía una duplicación en eficiencia energética. En 1965, un transistor costaba aproximadamente 1 dólar. Hoy cuesta una fracción de una millonésima de centavo.

Este colapso extraordinario en costos de computación (una mejora de mil millones de veces) no llevó a incrementos modestos y proporcionales en uso de computadoras. Desencadenó una explosión de aplicaciones que habrían sido impensables a puntos de precio anteriores.

El colapso de mil millones de veces en costos de transistores

A 1 dólar por transistor (1965): Las computadoras tenían sentido para cálculos militares y nómina corporativa. Uso extremadamente limitado. Solo organizaciones muy grandes podían costear computadoras.

A una milésima de centavo: Tenían sentido para procesamiento de texto y bases de datos. Las computadoras personales se volvieron viables. Los negocios pequeños podían costear computación.

A una millonésima de centavo: Tenían sentido en termostatos y tarjetas de felicitación. La computación incrustada en objetos cotidianos. Electrodomésticos inteligentes.

A una mil millonésima de centavo: Los incrustamos en etiquetas de envío desechables que transmiten su ubicación una vez y son desechadas. Computación tan barata que es literalmente desechable.

El resultado: Las ganancias de eficiencia no redujeron nuestro consumo total de computación. Han hecho la computación tan barata que ahora usamos billones de veces más de ella. Cada persona en el mundo desarrollado tiene docenas o cientos de procesadores trabajando para ellos en cualquier momento dado.

Esto es la paradoja de Jevons en acción. La eficiencia no redujo el consumo. Desbloqueó casos de uso completamente nuevos que eran económicamente inviables a precios más altos. Y cada nueva capa de casos de uso creó más demanda de eficiencia aún mayor, alimentando el ciclo.

LLMflation: el colapso de precios de tokens está acelerándose

Guido Appenzeller de a16z acuñó el término "LLMflation" para describir el fenómeno de precios de tokens LLM cayendo rápidamente. Comparó el costo por token de modelos comparables para identificar la tasa actual de lo que llama LLMflation, actualmente una disminución de 10 veces por año en los últimos 3 años.

Pero la investigación de Epoch AI profundiza más y revela que la tasa de disminución no es uniforme. Varía dramáticamente dependiendo del hito de rendimiento. Para modelos que logran rendimiento equivalente a GPT-4 en preguntas de ciencia de nivel de doctorado, el precio cayó 40 veces por año. Para modelos en la frontera absoluta de capacidad, la tasa es aún más rápida.

Lo que es particularmente notable es que las caídas de precio más rápidas en ese rango han ocurrido en el último año. Cuando Epoch AI eliminó todos los datos del modelo antes de enero de 2024, las tasas también aumentaron en general, incluso en niveles de rendimiento que se lograron antes de 2024. La tasa mediana pasó de 50 veces por año a 200 veces por año al examinar solo datos posteriores a enero de 2024.

Por qué los modelos más capaces caen más rápido en precio

Razón 1 - Innovación concentrada: La frontera de IA es donde se concentra la mayoría de la investigación, talento e inversión. OpenAI, Anthropic, Google DeepMind, Meta: todos están empujando los límites de capacidad. Esa competencia impulsa innovación rápida.

Razón 2 - Mejoras arquitectónicas: Los modelos más nuevos son arquitectónicamente más eficientes. No es solo hardware más rápido; son mejores algoritmos, mejor atención, mejor uso de capacidad del modelo.

Razón 3 - Economías de escala: Los modelos frontera se ejecutan en la infraestructura más grande. Google, Microsoft, Amazon: todos están construyendo clusters masivos específicamente optimizados para entrenamiento e inferencia de IA. Las economías de escala a esa magnitud son dramáticas.

Razón 4 - Competencia intensa: Hay docenas de compañías compitiendo para ser el proveedor más rápido, más barato, más capaz. Esa competencia impulsa precios hacia abajo agresivamente. Muchas compañías están dispuestas a perder dinero a corto plazo para ganar cuota de mercado.

Razón 5 - Casos de uso emergentes: A medida que los modelos se vuelven más capaces, desbloquean nuevos casos de uso. Esos nuevos casos de uso generan más demanda. Más demanda justifica más inversión en infraestructura. Más infraestructura reduce costos.

La paradoja del costo de IA: precios por token bajan, pero presupuestos explotan

Aquí es donde se pone interesante, y donde la paradoja de Jevons muestra sus dientes. Sí, el precio por token está cayendo. Pero eso no significa que las cosas se estén volviendo más baratas. De hecho, para muchas compañías, sus facturas de IA están subiendo dramáticamente.

Hay varias razones para esto. La primera es simple: aunque el precio por token está cayendo, el número de tokens que la gente usa está explotando. ChatGPT solía responder a una pregunta de una oración con una respuesta de una oración. Ahora responde con múltiples párrafos, a veces páginas de análisis detallado. Los modelos de razonamiento como o1 usan órdenes de magnitud más tokens internamente para producir una sola respuesta.

Cuando Cursor implementa una función importante y refactoriza múltiples archivos, no es una sola llamada LLM. Está desglosando la tarea en 10 subtareas y ejecutándolas en paralelo (todas llamadas LLM), luego recombinando todos los diversos diffs en un cambio de código coherente. RAG con contexto significa que los fragmentos que envías al LLM están enriquecidos con más información. Eso son más tokens. LLMs como juez para evaluar salidas. Más llamadas LLM. Razonamiento y planificación, luego LLMs para llevar a cabo las tareas que el LLM de planificación creó. Más llamadas LLM.

Sí, el precio de una llamada LLM única que me da una respuesta está cayendo en picada, mientras que el precio para obtener una respuesta de una arquitectura complicada que hace varias llamadas LLM significa que tu precio por respuesta está subiendo. Observación de la comunidad MLOps sobre la realidad del costo de IA

Esto se complica por el hecho de que la gente quiere usar los mejores modelos disponibles. Nadie abre Claude y piensa: "Sabes qué, déjame usar la versión de mierda para ahorrarle dinero a mi jefe". Somos criaturas cognitivamente codiciosas. Queremos el mejor cerebro que podemos obtener, especialmente si estamos equilibrando el otro lado con nuestro tiempo.

Cuando se lanza un nuevo modelo como el SOTA, el 99% de la demanda se cambia inmediatamente a él. Los consumidores esperan esto de sus productos también. El precio de un Honda Civic de 1995 ha caído. Pero el Toyota Camry 2025 cuesta 30,000 dólares. Señalar el costo decreciente del Civic mientras ignoras que la gente realmente compra el Camry es perder el punto.

Escapes de la compresión de tokens: tres rutas posibles

La situación actual ha forzado a la industria a confrontar preguntas fundamentales sobre sostenibilidad de IA. No hay "lo resolveremos después" cuando después significa que tu factura de AWS es más grande que tus ingresos. Tres rutas de escape potenciales están emergiendo:

Ruta 1 - Esperar que los precios bajen más: Esta es la apuesta de que la Ley de Moore para IA continuará. Los precios de tokens seguirán cayendo 10 veces por año o más. Eventualmente, incluso con mayor uso, los costos se vuelven manejables. El problema: si todos están apostando por esto, y no sucede tan rápido como se espera, muchas compañías se quedarán sin efectivo antes de que lleguen ahí.

Ruta 2 - Cambiar a cobrar por valor, no por token: En lugar de cobrar suscripciones planas donde tú absorbes costos de token, cobras por valor entregado. Si tu herramienta de IA ahorra a alguien 10 horas por semana, cobras basándote en ese ahorro de tiempo, no en cuántos tokens usaste. El problema: esto requiere poder medir y articular valor claramente, lo cual es difícil.

Ruta 3 - Limitar estratégicamente el uso: Claude Code tuvo que revertir su nivel original ilimitado de 200 dólares al mes. Cursor y otros están experimentando con niveles diferentes con diferentes límites. La idea es encontrar el punto óptimo donde los usuarios obtienen suficiente valor para quedarse, pero no tanto que sangren a la compañía. El problema: esto frustra a los usuarios y crea fricción.

Ninguna de estas rutas es perfecta. Y esto asume que los modelos frontera no se vuelven más caros por token, lo cual no es una apuesta segura a medida que se vuelven más capaces.

Por qué esto no es una crisis sino una oportunidad

A pesar de todo lo anterior, es importante recordar por qué la paradoja de Jevons es realmente una paradoja. No es realmente una paradoja en absoluto. Es solo economía. Y específicamente, es economía de crecimiento.

Cuando los costos colapsan, se desbloquean nuevos casos de uso. Esos nuevos casos de uso crean nueva demanda. Esa nueva demanda justifica más inversión. Más inversión lleva a más innovación y menores costos. El ciclo se refuerza a sí mismo.

La paradoja de Jevons (que no es realmente una paradoja) es de donde viene la creación de demanda, y de donde vienen nuevos tipos de trabajos atractivos. Amin Vahdat, VP y GM de IA e Infraestructura en Google Cloud, compartió una observación asombrosa: que TPUs de 7 años todavía estaban viendo 100% de utilización dentro de Google. Eso es una de las cosas que ves con la paradoja de Jevons: la oportunidad de hacer trabajo productivo explota en posibilidad.

Estamos en el punto en la curva de tecnología con IA donde cada día alguien descubre algo nuevo que hacer con ellos, lo que significa que los usuarios tomarán cualquier chip que puedan obtener, y lo usarán productivamente. Estamos todos apostando a que lo mismo sucederá con el costo de tokens, justo como sucedió con el costo de computación, que a su vez desbloquea más demanda de la que posiblemente puede ser absorbida por la inversión existente.

Implicaciones prácticas para startups de IA

Si estás construyendo una startup de IA, la paradoja de Jevons tiene implicaciones prácticas inmediatas. Primero, no asumas que porque los precios de tokens están cayendo, tus costos caerán proporcionalmente. Es más probable que tu uso aumente más rápido de lo que caen los precios. Planea para eso.

Segundo, piensa cuidadosamente sobre tu estructura de precios. Si estás cobrando una suscripción plana y permitiendo uso ilimitado, estás apostando a que los precios de tokens caigan más rápido de lo que tu uso aumenta. Esa es una apuesta arriesgada. Considera límites, niveles o precios basados en valor en su lugar.

Tercero, no compitas solo en precio. Sí, ser el más barato importa. Pero si estás compitiendo solo en precio en un mercado donde los precios están cayendo exponencialmente, estás en una carrera hacia el fondo. Compite en capacidad, confiabilidad, experiencia de usuario, integración con flujos de trabajo existentes.

Cuarto, prepárate para un mundo donde los modelos de frontera son órdenes de magnitud más capaces pero potencialmente más caros por token que los modelos actuales. Los modelos de razonamiento ya están mostrando este patrón. Usan muchos más tokens pero producen mejor trabajo. Esa compensación continuará.

Implicaciones para infraestructura y energía

Desde una perspectiva de infraestructura y energía, la paradoja de Jevons tiene implicaciones masivas. A medida que los modelos de IA se vuelven más eficientes, no veremos una reducción en el consumo de recursos. Veremos un aumento sin precedentes en las demandas de recursos computacionales.

Cada vez que hacemos que los sistemas de IA sean más eficientes, encontramos diez nuevas formas de usarlos. Eso significa más centros de datos, más chips, más energía. Google, Microsoft, Amazon: todos están invirtiendo decenas de miles de millones de dólares en infraestructura de IA. No porque sean ineficientes sino porque la demanda está explotando.

Estamos presenciando un punto de inflexión donde las demandas computacionales de sistemas de IA están creciendo a una tasa que supera nuestras mejoras de eficiencia. Esta rápida expansión presenta una manifestación clásica de la paradoja de Jevons en la era digital. A medida que los costos de entrenamiento y despliegue disminuyen a través del avance tecnológico, observamos una explosión en casos de uso y aplicaciones, desde generación de contenido hasta sistemas de toma de decisiones automatizadas. El aumento resultante en demanda agregada de recursos computacionales y energía crea una tensión fundamental entre progreso tecnológico y sostenibilidad ambiental.

La convergencia de la paradoja de Jevons y la IA generativa representa uno de los desafíos más apremiantes que enfrenta nuestro futuro tecnológico. Estamos presenciando una aceleración sin precedentes en la adopción de IA que hace que la paradoja de eficiencia no sea solo una preocupación teórica, sino un desafío inmediato que requiere atención urgente.

El veredicto: eficiencia desbloquea abundancia, no escasez

La lección fundamental de la paradoja de Jevons, aplicada tanto a la Ley de Moore históricamente como a LLMflation hoy, es que la eficiencia no lleva a menos uso. Lleva a dramáticamente más uso a través de casos de uso completamente nuevos que eran económicamente inviables antes.

Esto no es un error. Es la forma en que el progreso tecnológico ha funcionado siempre. La máquina de vapor no redujo el uso de carbón. Lo explotó al hacer que el carbón fuera útil en docenas de industrias nuevas. Los transistores no redujeron el uso de computación. Lo explotaron al hacer que la computación fuera útil en miles de millones de dispositivos nuevos.

Los tokens LLM no van a reducir el uso de IA. Van a explotar el uso de IA al hacer que la IA sea útil en millones de aplicaciones nuevas que aún no podemos predecir completamente. Cada reducción de 10 veces en precio desbloqueará una nueva ola de casos de uso. Algunos de esos casos de uso serán pequeños ajustes en flujos de trabajo existentes. Otros serán categorías de aplicaciones completamente nuevas que no existen hoy.

Para individuos, esto significa acceso a capacidades de IA que habrían costado millones hace solo unos años. Para empresas, significa que la ventaja competitiva vendrá no de acceso a IA (que se está comoditizando rápidamente) sino de cómo la integras en tus productos y flujos de trabajo.

Para la sociedad, significa que estamos entrando en un período de cambio tecnológico rápido donde la mayoría de los trabajos se verán aumentados (y algunos reemplazados) por IA. La paradoja de Jevons sugiere que esto creará más demanda de capacidades humanas, no menos, pero esas capacidades serán diferentes de las actuales.

Y para la industria de IA, significa que esta no es una carrera de velocidad. Es un maratón. Las compañías que sobrevivan no serán necesariamente aquellas con los modelos más baratos hoy. Serán aquellas que puedan navegar la tensión entre costos decrecientes por token y uso explosivo por cliente mientras construyen productos que la gente realmente quiere usar.

Los precios de tokens colapsando 900 veces por año para modelos frontera no es el final de la historia. Es el comienzo. La pregunta no es "¿cuándo dejarán de caer los precios?" La pregunta es "¿qué se vuelve posible en cada nuevo punto de precio?" Y la historia nos dice que la respuesta será mucho más de lo que predijo cualquiera. La paradoja de Jevons casi garantiza que usaremos órdenes de magnitud más IA de la que usamos hoy, no menos, precisamente porque se está volviendo más eficiente usarla. Y eso, contraintuitivamente, es exactamente el tipo de paradoja que impulsa el progreso.

Referencias

Epoch AI, "LLM inference prices have fallen rapidly but unequally across tasks" - sobre tasas de caída de precio de 9x a 900x por año (marzo 2025).

a16z Substack (Alex Danco), "Why AC is cheap, but AC repair is a luxury" - sobre paradoja de Jevons y Ley de Moore como ejemplo contemporáneo (noviembre 2025).

a16z (Guido Appenzeller), "Welcome to LLMflation - LLM inference cost is going down fast" - sobre disminución de 10x por año (noviembre 2024).

IKangAI, "The LLM Cost Paradox: How 'Cheaper' AI Models Are Breaking Budgets" - sobre tasas aceleradas post-enero 2024 (agosto 2025).

MLOps Community, "Price per token is going down. Price per answer is going up" - sobre complejidad de sistemas y llamadas múltiples (mayo 2025).

Ethan Ding Substack, "tokens are getting more expensive" - sobre colapso de márgenes y modelo de suscripción (julio 2025).

Medium (Mark Craddock), "The AI Efficiency Paradox" - sobre manifestación de Jevons en IA generativa (marzo 2025).

WWT Research, "When Less Means More: How Jevons Paradox Applies to Our Post-DeepSeek World" - sobre implicaciones para empresas (febrero 2025).

RealClearEnergy (Mark P. Mills), "Energy and the Information Infrastructure Part 3" - sobre Ley de Moore y paradoja de Jevons (diciembre 2018).

arXiv, "The Jevons Paradox In Cloud Computing: A Thermodynamics Perspective" - sobre perspectiva termodinámica (noviembre 2024).

Publicaciones Recientes

Generated Image November 04, 2025 - 10_36PM

Google quiere construir centros de datos de IA en el espacio: Project Suncatcher lanzará TPUs en órbita solar para 2027

  Google está iniciando un nuevo moonshot de investigación llamado Project Suncatcher para escalar algún día el
Leer Más
Generated Image November 04, 2025 - 11_00PM

Cuando hablar bien no significa saber: las fallas médicas de GPT-5 según Nature

  Un nuevo estudio publicado en Nature Medicine revela que aunque GPT-5 muestra avances en la reducción de alucina
Leer Más

Para estar informado, Ingresá o Creá tu cuenta en MundoIA...

Entrar

Recordá revisar la carpeta de "no deseados", el correo puede llegar allí