OpenAI prueba un agente fiscal que aprende trabajando

El agente fiscal que aprende de sus errores

OpenAI, Thrive Holdings y Crete probaron un sistema que prepara declaraciones tributarias complejas, registra las correcciones de contadores reales y convierte esos fallos en mejoras medibles. El resultado no es solo una herramienta para ahorrar tiempo: es un prototipo de software profesional que se vuelve más competente mientras trabaja.

Por el equipo editorial | 29 de mayo, 2026

La temporada fiscal en Estados Unidos, por muchos años, tuvo una liturgia conocida: escritorios llenos de carpetas, planillas que llegan tarde, correos reenviados sin contexto, formularios del año anterior usados como brújula imperfecta y profesionales contables obligados a reconstruir vidas financieras completas a partir de documentos dispersos. La escena no pertenece al pasado. Sigue ocurriendo cada año, incluso en firmas con software sofisticado, porque el problema nunca fue solo completar casilleros. El verdadero trabajo consiste en interpretar papeles incompletos, detectar incoherencias, reconciliar datos y decidir cuándo una cifra debe trasladarse, corregirse o ignorarse.

La novedad presentada por OpenAI el 27 de mayo de 2026 apunta precisamente a ese territorio áspero, lejos de las demostraciones limpias de laboratorio. La compañía, junto con Thrive Holdings y equipos de Crete, desarrolló Tax AI, un agente orientado a la preparación de declaraciones 1040 y 1041. En la prueba realizada durante la temporada fiscal, el sistema procesó 7.000 declaraciones en firmas participantes de la red de Crete. Según OpenAI, los contadores involucrados ahorraron cerca de un tercio del tiempo dedicado a la preparación, los borradores alcanzaron hasta 97% de precisión y el rendimiento general creció alrededor de 50%.

Pero la cifra más interesante no está en la productividad inmediata. Está en la curva de aprendizaje. Al inicio, solo una cuarta parte de las declaraciones llegaba al umbral de 75% de campos completados correctamente. Seis semanas después, ese porcentaje había subido a 86%. Ese cambio no surgió de una ronda tradicional de ajustes manuales hecha a ciegas por ingenieros. El sistema fue diseñado para mirar su propio trabajo, registrar dónde fallaba, transformar las correcciones de los profesionales en señales estructuradas y entregarle a Codex tareas de mejora con objetivos verificables.

En otras palabras, el agente no fue presentado como un asistente que simplemente responde mejor después de recibir más instrucciones. Su ambición es más concreta y más incómoda para la industria del software: convertir el uso cotidiano en evidencia técnica, y convertir esa evidencia en cambios validados antes de regresar a producción. Allí aparece el verdadero salto. No se trata de reemplazar al contador por una caja negra, sino de usar el criterio del especialista como combustible para que el producto aprenda dónde le duele el mundo real.

El cuello de botella estaba en los detalles

Las declaraciones individuales y fiduciarias en Estados Unidos pueden parecer, desde afuera, una maquinaria burocrática de formularios. Desde adentro son otra cosa: una negociación permanente entre documentos, reglas, excepciones y hábitos profesionales. El formulario 1040 concentra la declaración individual. El 1041 se aplica a patrimonios y fideicomisos. Schedule E, una de las zonas analizadas por OpenAI en su ejemplo de propiedades en alquiler, sirve para reportar ingresos o pérdidas vinculadas a alquileres, regalías, sociedades, corporaciones S, patrimonios, fideicomisos y otros intereses.

Ese territorio es hostil para cualquier automatización ingenua. Un paquete de documentos sobre una propiedad alquilada puede incluir notas manuscritas, extractos bancarios, correos, hojas de cálculo, reportes del año anterior y gastos escritos con denominaciones distintas. El agente debe clasificar materiales, extraer campos, conservar la procedencia de cada dato y mapearlo hacia el motor fiscal usado por la firma. La tarea suena ordenada cuando se la describe en una frase. En producción se comporta como una mudanza hecha durante una tormenta.

OpenAI eligió un ejemplo revelador: los “fair rental days”, los días durante los cuales una propiedad estuvo disponible para alquiler justo o efectivo. Si el sistema omite ese campo y el contador lo completa de manera recurrente, la diferencia no basta para declarar un error. Podría tratarse de una falla de extracción, una preferencia del profesional, un dato heredado del año anterior, una limitación del producto o ruido normal del flujo de trabajo. El aprendizaje útil aparece recién cuando esas diferencias se agrupan, se revisan y revelan un patrón repetido.

Ese matiz importa. Muchas herramientas empresariales prometen aprender de la interacción humana, pero pocas distinguen entre una corrección significativa y una modificación irrelevante. La diferencia entre ambas es la distancia entre un sistema que mejora y otro que acumula basura con buena interfaz. En Tax AI, la corrección del contador no queda como una anécdota perdida al final del proceso. Queda registrada como dato de revisión: qué propuso el agente, qué cambió el profesional y qué terminó presentado en la declaración final.

La clave técnica: el sistema no toma cada corrección como una verdad aislada. La compara, la agrupa con casos similares, la transforma en una evaluación específica y solo entonces la convierte en una tarea acotada para Codex. Esa secuencia reduce el riesgo de optimizar sobre ruido y permite medir si una mejora realmente funciona.

Codex como taller de reparación

La arquitectura descrita por OpenAI se apoya en tres piezas que funcionan como un circuito cerrado. Los contadores aportan criterio experto mientras hacen su trabajo habitual. El producto captura rastros de producción, desde los documentos iniciales hasta el resultado final. Codex recibe fallos empaquetados como tareas de ingeniería con contexto, repositorio, evaluaciones y reglas de validación. El hallazgo ya no llega como una queja difusa, sino como un problema delimitado.

Ese cambio altera el rol del agente de programación. Codex no aparece como un generador de código en abstracto, sino como una herramienta que inspecciona un entorno preparado para que la intervención sea verificable. Puede revisar el esquema de extracción, los mapeos hacia el motor fiscal, la selección de fuentes, el comportamiento del evaluador y las rutas del código vinculadas al fallo. Luego propone cambios, ejecuta evaluaciones específicas, corre pruebas de regresión más amplias y deja una modificación candidata para revisión humana.

La palabra decisiva es “candidata”. El sistema no elimina al ingeniero ni al profesional fiscal. Tampoco convierte la preparación tributaria en una fantasía autónoma sin supervisión. OpenAI insiste en que la automatización se aplica sobre una capa acotada del producto: extracción y mapeo de documentos hacia flujos fiscales. Las decisiones de arquitectura, los cambios de producto y el despliegue siguen bajo responsabilidad humana. Ese límite no es decorativo. Es lo que separa una infraestructura seria de una ruleta con interfaz elegante.

La mejora medible proviene de una disciplina conocida por cualquier equipo que trabaja con sistemas críticos: evaluar antes de celebrar. Cuando un patrón de fallos se vuelve claro, se transforma en un conjunto de pruebas. Si Codex mejora el caso puntual pero rompe otros, el avance no pasa. Si la evidencia es ambigua, el problema vuelve al equipo de producto. La promesa no consiste en que el agente siempre tenga razón, sino en que cada intento de reparación deje un rastro auditable.

Métricas públicas del piloto descrito por OpenAI: mejora en declaraciones que alcanzan 75% de campos correctos, precisión máxima reportada, ahorro de tiempo y aumento de rendimiento.

El caso de Crete le da una dimensión empresarial concreta. La red, respaldada por Thrive, reúne decenas de firmas contables y se apoya en una estrategia de integración tecnológica sobre negocios profesionales tradicionales. Reuters ya había señalado en 2025 que Crete planeaba invertir cientos de millones de dólares en adquisiciones de firmas contables estadounidenses, con la tecnología como palanca de eficiencia. El experimento con Tax AI encaja en esa lógica: no vender una aplicación desde afuera, sino insertar ingeniería dentro de una operación real, con usuarios expertos y presión de temporada alta.

El dato humano más potente de la publicación de OpenAI no es una métrica agregada, sino una escena mínima: una contadora senior que el año anterior había dedicado 180 horas a preparación fiscal y esta vez destinó solo 15. Parte de ese tiempo recuperado fue usado para llamar a sus clientes y explicarles sus declaraciones. La anécdota no prueba por sí sola una revolución, pero muestra el tipo de redistribución laboral que estas herramientas buscan habilitar. Menos tiempo copiando datos, más tiempo interpretando decisiones.

El modelo que puede saltar de industria

El interés de este caso supera al sector tributario. La preparación fiscal es apenas un banco de pruebas especialmente exigente: documentos desordenados, reglas cambiantes, alto costo del error y profesionales con conocimiento tácito. Si el mecanismo funciona allí, puede trasladarse a auditoría, contabilidad mensual, soporte técnico interno, revisión contractual, seguros, salud administrativa o cualquier dominio donde el experto corrige trabajo repetitivo y esas correcciones suelen perderse en el aire.

La idea central es sencilla de formular y difícil de ejecutar: los productos deberían aprender de la práctica profesional sin exigirles a los especialistas que se conviertan en anotadores de datos. En Tax AI, el contador no detiene su jornada para entrenar un modelo. Corrige una declaración porque debe presentarla bien. El sistema captura esa intervención, la contextualiza y la convierte en material de mejora. Ese diseño aprovecha un recurso que las empresas ya tienen, pero casi siempre desperdician: la fricción diaria entre la herramienta y el oficio.

También hay una advertencia técnica, aunque no hace falta envolverla en alarma moral. Un agente que mejora en producción solo sirve si sabe qué no debe aprender. Los cambios de preferencia, las excepciones legítimas, los datos arrastrados de ejercicios anteriores y los ajustes propios de cada firma pueden confundirse con errores del sistema. Por eso la infraestructura de trazas, evaluaciones y revisión humana no es un complemento. Es el producto. Sin esa capa, la supuesta mejora continua se convierte en una fábrica de atajos.

El movimiento sugiere una transición mayor en el software profesional. Durante años, las empresas compraron herramientas que prometían automatizar tareas. Ahora empieza a tomar forma una generación distinta: sistemas que observan cómo se corrigen sus propios resultados y usan esa información para modificar las piezas que los hicieron fallar. No aprenden por magia, aprenden porque alguien construyó el circuito completo entre uso real, evidencia, evaluación, código y validación.

La contabilidad, una disciplina que suele aparecer en el imaginario público como sinónimo de planilla y paciencia, podría terminar mostrando una de las formas más pragmáticas del próximo software empresarial. No la versión teatral de máquinas que sustituyen profesiones enteras de un golpe, sino algo más silencioso y probablemente más profundo: herramientas que se incrustan en los oficios, absorben sus correcciones y vuelven al día siguiente con menos torpeza. Si esa dinámica se extiende, la pregunta ya no será qué tareas puede ejecutar un agente. La pregunta será qué organizaciones saben construir los entornos donde sus errores se transforman en aprendizaje confiable.

Referencias

OpenAI. “Building self-improving tax agents with Codex”. Publicado el 27 de mayo de 2026. Fuente principal sobre Tax AI, Codex, Crete, métricas del piloto, trazas de producción, evaluaciones y circuito de mejora.

Internal Revenue Service. “About Schedule E (Form 1040), Supplemental Income and Loss”. Fuente oficial sobre el uso de Schedule E para ingresos y pérdidas de alquileres, regalías, sociedades, corporaciones S, patrimonios y fideicomisos.

Internal Revenue Service. “2025 Instructions for Form 1041 and Schedules A, B, G, J, and K-1”. Fuente oficial sobre declaraciones de patrimonios y fideicomisos.

Taxpayer Advocate Service. “2025 Annual Report to Congress”. Contexto institucional sobre complejidad, carga administrativa y problemas frecuentes en la administración tributaria estadounidense.

Reuters. “Thrive-backed accounting firm Crete to spend $500 million in AI roll-up”. Publicado el 4 de junio de 2025. Contexto empresarial sobre Crete, Thrive y la estrategia de adquisición e integración tecnológica en firmas contables.

Crete Professionals Alliance. Sitio institucional. Contexto sobre la red de firmas contables, capacidades operativas y modelo de plataforma profesional.

OpenAI prueba un agente fiscal que aprende trabajando