Las empresas ya limitan los tokens

La factura de los tokens

Las empresas descubrieron que el trabajo automatizado no se mide por entusiasmo, sino por consumo. Después de meses de uso acelerado, la conversación cambió: ya no se trata de gastar más, sino de saber qué tarea merece cada unidad de cómputo.

Por el equipo editorial | 3 de julio de 2026

La novedad más importante del negocio tecnológico no aparece en una demo, ni en un video pulido, ni en otro anuncio de un modelo más capaz. Está en la factura. Durante buena parte del año, muchas compañías alentaron a sus empleados a usar sistemas generativos sin demasiadas restricciones. La intuición parecía razonable: cuanto más se probara la herramienta, más rápido aparecería la productividad. El experimento funcionó, pero no como esperaban sus evangelistas. Apareció productividad en algunos rincones, claro. También apareció gasto sin dueño, agentes corriendo durante horas, empleados consumiendo recursos para tareas menores y directivos preguntando algo que mata cualquier épica: cuánto cuesta exactamente este milagro.

SemiAnalysis llamó a ese giro token budgeting. La expresión no es elegante, pero es precisa. El mercado pasó del tokenmaxxing, una cultura de consumo intensivo presentada como señal de modernidad, a la administración fina de cada unidad procesada por los modelos. El cambio no implica abandono. Sería una lectura perezosa. Lo que ocurre es más serio: los sistemas generativos dejaron de ser una curiosidad de innovación interna y empezaron a comportarse como infraestructura. Cuando una herramienta entra en la estructura de costos, se le exige otra disciplina. Ya no alcanza con decir que ahorra tiempo. Hay que demostrar dónde, cuánto, para quién y con qué costo posterior.

60 billones

Tokens consumidos en 30 días por empleados de Meta según el caso Claudeconomics citado por SemiAnalysis.

280.000 millones

Consumo aproximado del mayor usuario individual registrado en ese tablero interno.

US$ 7.449

Gasto mensual por empleado en el 1 por ciento superior de empresas medidas por Ramp.

1.000 veces

Diferencia de consumo que puede alcanzar una tarea agentiva frente a un chat o razonamiento de código convencional.

El episodio de Meta sirve porque es absurdo en la medida correcta. Un empleado creó un tablero interno llamado Claudeconomics, donde se rankeaba a los mayores consumidores. La competencia produjo títulos como Token Legend y Cache Wizard. Algunos empleados, según la reconstrucción de SemiAnalysis, dejaron agentes investigando durante horas para subir posiciones. La compañía apagó el tablero dos días después de que el caso se hiciera público. El punto no es que Meta haya probado una verdad universal sobre el mercado. El punto es más incómodo: cuando una métrica premia el consumo, la organización obtiene consumo. No inteligencia. No necesariamente mejores productos. Consumo.

Uber mostró la otra cara. Según SemiAnalysis, la empresa habría agotado en cuatro meses su presupuesto anual para Claude Code y Codex, y respondió con un límite de 1.500 dólares mensuales por empleado, con excepciones aprobadas caso por caso. No es una anécdota menor. Ese tipo de restricción cambia la cultura de uso. Los equipos dejan de preguntar qué pueden automatizar y empiezan a preguntar qué pueden justificar. La frontera entre exploración y despilfarro se vuelve administrativa.

Gasto mensual por empleado según Ramp AI Index, junio de 2026. La escala logarítmica permite comparar la mediana con el 10 por ciento y el 1 por ciento superior sin que los valores bajos desaparezcan.

El entusiasmo chocó con la caja

Ramp ofrece el dato más útil para medir la profundidad del fenómeno porque trabaja con gasto real de más de 70.000 empresas estadounidenses. Su índice muestra una distribución brutalmente desigual: la empresa mediana gasta 11,38 dólares por empleado al mes; el 10 por ciento superior, 611 dólares; el 1 por ciento más intensivo, 7.449 dólares. La diferencia no se parece a una curva de adopción normal de software. Se parece a una economía de élite, donde unas pocas organizaciones concentran la mayor parte de la experimentación cara mientras la mayoría todavía compra acceso básico o prueba con prudencia.

La tentación es leer esos números como una competencia: quién gasta más, quién se anima, quién se queda atrás. Esa lectura es superficial. Un gasto alto puede indicar ventaja competitiva o incapacidad de control. Un gasto bajo puede ser disciplina o atraso. El dato aislado no dice casi nada. Lo que importa es la conversión: cuánto trabajo verificable aparece por cada dólar gastado. Ahí empieza el problema, porque muchas empresas aún no tienen una contabilidad interna capaz de responderlo. Saben qué proveedor facturó. No siempre saben qué tarea produjo valor.

El error original fue tratar los tokens como una señal de modernización. En realidad son combustible. Y nadie serio mide la eficiencia de una flota por la cantidad de nafta quemada.

La comparación con el software por asiento engaña. Una licencia de oficina o un CRM tienen costos relativamente previsibles. El consumo de modelos cambia con la longitud del contexto, la cantidad de iteraciones, la selección del modelo, la presencia de herramientas externas y la autonomía del agente. Una consulta puede costar centavos. Un flujo mal diseñado puede abrir una grieta presupuestaria. La nube ya había enseñado esta lección con servidores encendidos, consultas ineficientes y almacenamiento olvidado. Los modelos la repiten con otro lenguaje: prompts largos, agentes verborrágicos, memoria innecesaria y tareas mal enrutadas hacia sistemas caros.

Ejemplos de límites mensuales por empleado relevados por SemiAnalysis. Las cifras no forman un estándar de mercado, muestran justamente la falta de consenso sobre cuánto debería gastar un trabajador según rol, seniority y función.

SemiAnalysis habló con más de cincuenta clientes empresariales y encontró una dispersión notable. Algunos límites arrancan en 250 o 500 dólares mensuales. Empresas más agresivas permiten 2.000. En áreas técnicas o de datos, ciertos perfiles pueden moverse entre 1.600 y 4.000 dólares, y en casos excepcionales el techo sube a decenas de miles. No hay número mágico. Esa ausencia de consenso es la noticia. El mercado ya aceptó que debe presupuestar, pero todavía no sabe cómo traducir una tarea intelectual en una asignación razonable de cómputo.

Lectura ejecutiva del problema

Lo que está bien establecido: el gasto empresarial en modelos ya se volvió suficientemente grande como para exigir límites, auditoría y herramientas de control.

Lo que sigue siendo débil: muchas compañías aún confunden uso con productividad, y no tienen métricas robustas para separar ahorro real de actividad vistosa.

Lo que viene: el acceso premium será cada vez más selectivo. Las tareas de bajo valor irán a modelos más baratos; los agentes largos deberán justificar su consumo como cualquier otro recurso crítico.

El número correcto no existe todavía

La nueva disciplina no consiste en cortar el acceso, sino en asignarlo con inteligencia. Databricks leyó rápido el hueco y presentó Unity AI Gateway, una capa para poner límites de gasto, evitar consumos desbocados, recomendar modelos más baratos y monitorear sesiones individuales. Patrick Wendell, cofundador de la empresa, dijo a Axios que vio clientes pasar de casi no gastar a errores de millones de dólares, incluso decenas de millones en un mes. También señaló que los costos de tokens ya aparecen entre los tres mayores rubros de algunos clientes, detrás de salarios y otros gastos tecnológicos. Esa frase debería terminar con la etapa romántica del asunto. Cuando una partida se acerca al peso de la nómina, ya no es experimento. Es gobierno corporativo.

La dificultad está en que los límites planos suelen castigar a los mejores usuarios y proteger a los irrelevantes. Un desarrollador que gasta 3.000 dólares puede estar cerrando deuda técnica acumulada durante años. Otro puede estar pidiendo resúmenes redundantes. Un analista que consume casi nada puede ser austero o no haber integrado la herramienta en ningún proceso relevante. La empresa que solo mira la factura llega tarde. Necesita asociar consumo con resultados: tickets cerrados, errores reducidos, ventas asistidas, incidentes resueltos, tiempo de ciclo, calidad de entrega, retrabajo posterior. Sin esa capa, el presupuesto es una tijera ciega.

Decisión operativa	Lectura pobre	Lectura madura
Bajar el modelo predeterminado	Reducir gasto sin mirar efectos secundarios.	Reservar los modelos premium para tareas donde el error, la latencia o el retrabajo cuestan más que el ahorro.
Imponer límite mensual	Tratar a todos los empleados como consumidores equivalentes.	Ajustar presupuesto por rol, seniority, criticidad del proyecto y retorno medible.
Monitorear sesiones	Vigilar actividad individual como si fuera presentismo digital.	Detectar patrones de desperdicio, rutas caras, prompts ineficientes y agentes sin cierre.
Usar modelos abiertos o baratos	Elegir siempre la opción menor para mostrar ahorro.	Enviar cada tarea al modelo mínimo capaz de resolverla con calidad verificable.

La economía real de los tokens no se decide solo en el precio por millón de unidades de entrada o salida. También depende de la arquitectura del flujo. Un resumen simple no debería usar el mismo motor que una refactorización compleja. Una consulta interna no necesita el mismo contexto que un agente revisando un repositorio. La empresa madura no pregunta cuál es el mejor modelo en abstracto. Pregunta cuál es suficiente para esta tarea, en este momento, con este riesgo.

Relación aproximada entre tipos de uso según el paper de Bai, Huang, Wang, Sun, Mihalcea, Brynjolfsson, Pentland y Pei. Las tareas agentivas de programación pueden consumir alrededor de mil veces más tokens que un chat o razonamiento de código convencional.

Los agentes complican todo porque no gastan de forma lineal. Un estudio reciente sobre tareas de programación agentiva encontró que estos flujos pueden consumir hasta mil veces más tokens que interacciones convencionales de código. También mostró que una misma tarea puede variar hasta treinta veces en consumo según la ejecución, y que más tokens no significan necesariamente más precisión. Esta es la parte que muchos presupuestos corporativos todavía no incorporan: la autonomía no solo aumenta capacidad, también aumenta varianza. Un agente no responde y se calla. Explora, reintenta, verifica, vuelve atrás, abre archivos, invoca herramientas y factura cada paso.

El falso ahorro

Reducir el acceso a modelos premium puede bajar la factura del mes y subir el costo total de la operación. Si el sistema barato obliga a revisar más, corrige peor o genera trabajo humano adicional, el ahorro es contable, no económico. La regla seria no es usar siempre menos cómputo, sino usar el menor cómputo capaz de producir un resultado confiable.

El nuevo gobierno del gasto

La consecuencia interna será política, aunque no convenga decirlo en esos términos. Los equipos van a competir por capacidad de cómputo como antes competían por presupuesto, licencias o personal. Las áreas de ingeniería defenderán agentes largos porque pueden acelerar migraciones, depuración y pruebas. Finanzas pedirá trazabilidad. Legal preguntará por datos. Recursos humanos querrá automatizar reportes. Marketing dirá que necesita volumen. Cada área tendrá un argumento. La empresa que no construya reglas claras terminará resolviendo por jerarquía, presión o carisma del gerente de turno. Nada nuevo, salvo que ahora la disputa se mide en tokens.

SemiAnalysis detectó otra práctica reveladora: compañías que bajan el modelo predeterminado, apagan niveles premium o empujan a los empleados a usar Microsoft 365 Copilot para borradores y síntesis antes de gastar tokens medidos en Claude, Codex u otros sistemas. La maniobra tiene sentido y, al mismo tiempo, crea una jerarquía de calidad. No todo trabajo recibirá el mismo nivel de razonamiento automatizado. Algunas tareas irán por vías baratas. Otras justificarán modelos más costosos. Ese reparto será una nueva forma de administración del conocimiento.

Mapa conceptual de madurez presupuestaria. El mercado se mueve desde el acceso libre y el límite plano hacia el enrutamiento por valor, donde cada tarea se asigna según costo, riesgo y retorno esperado.

La lectura más equivocada sería interpretar esta etapa como un freno tecnológico. No lo es. Es el momento en que una herramienta deja de ser juguete ejecutivo y empieza a ser sistema productivo. La nube no se volvió menos importante cuando aparecieron FinOps, presupuestos por proyecto y alertas de gasto. Se volvió más seria. Con los modelos ocurre algo parecido. La contabilidad no mata la automatización. Mata la fantasía de que toda automatización es buena por definición.

El juicio más firme que permite la evidencia es este: el mercado no está abandonando los modelos, está aprendiendo a no quemarlos como si fueran gratis. Ramp muestra que el gasto sigue subiendo entre usuarios intensivos. Axios muestra que los proveedores de infraestructura ya venden control porque sus clientes lo piden. SemiAnalysis sostiene que los titulares sobre colapso están sobredimensionados, y su propia investigación encuentra presupuestos, no retirada. El paper técnico agrega la pieza más incómoda: los agentes pueden ser útiles, pero su consumo es volátil y muchas veces impredecible. Todo apunta al mismo lugar. La próxima ventaja no será acceder a modelos. Será gobernarlos.

La señal que separa madurez de ruido

Una compañía avanzada no pregunta cuántos tokens consumió su personal. Pregunta qué parte del gasto produjo trabajo nuevo, qué parte evitó costos existentes, qué parte fue aprendizaje necesario y qué parte fue puro humo operacional. Esa distinción, aburrida pero decisiva, será más valiosa que cualquier ranking interno de usuarios intensivos.

La factura de los tokens obliga a mirar el trabajo con una crudeza saludable. ¿Qué tareas merecen un agente? ¿Qué documentos necesitan contexto amplio? ¿Qué pedidos pueden resolverse con un modelo menor? ¿Qué empleados convierten cómputo en resultado y cuáles solo agregan ruido elegante? La empresa que responda esas preguntas antes que sus competidores no usará menos automatización. Usará menos desperdicio. Y en una economía donde razonar con máquinas ya tiene precio por millón de unidades, esa diferencia no será administrativa. Será estratégica.

Referencias

SemiAnalysis, “TokenBudgeting: Our Conversations with Enterprises on Token Spend”, Crystal Huang, Joey Brookhart y Dylan Patel, 30 de junio de 2026. Ver fuente

Ramp AI Index, “How much does it cost to be AI-pilled?”, Ara Kharazian, Ramp Economics Lab, 9 de junio de 2026. Ver fuente

Axios, “Exclusive: Databricks rolls out AI spend controls”, Madison Mills, 16 de junio de 2026. Ver fuente

Business Insider, “The next office power struggle: AI tokens”, Henry Chandonnet, 17 de junio de 2026. Ver fuente

Vantage, “Token Budgeting: How To Think About AI Cost Control”, Ben Schaechter, 11 de mayo de 2026. Ver fuente

Bai, Longju; Huang, Zhemin; Wang, Xingyao; Sun, Jiao; Mihalcea, Rada; Brynjolfsson, Erik; Pentland, Alex; Pei, Jiaxin, “How Do AI Agents Spend Your Money? Analyzing and Predicting Token Consumption in Agentic Coding Tasks”, arXiv, 2026. Ver fuente

Microsoft, “Microsoft 365 Copilot Plans and Pricing”, documentación comercial vigente. Ver fuente

OpenAI, “API Pricing”, tabla oficial de precios por millón de tokens. Ver fuente

Las empresas ya limitan los tokens