Nanochat de Karpathy: entrenar un ChatGPT por 100 dólares en 4 horas

Existe una brecha abismal entre los discursos sobre inteligencia artificial accesible y la realidad brutal de los costos de entrenamiento. OpenAI gastó cientos de millones para crear GPT-4. Google invirtió recursos equivalentes al presupuesto de naciones pequeñas en Gemini. Anthropic quema efectivo a velocidades que harían palidecer a las industrias tradicionales. La narrativa dominante sugiere que construir sistemas conversacionales sofisticados requiere fortunas corporativas, ejércitos de ingenieros y centros de datos masivos.

Andrej Karpathy acaba de dinamitar ese mito con nanochat, un repositorio que permite a cualquiera entrenar su propia versión de ChatGPT por aproximadamente cien dólares en cuatro horas. No es marketing ni exageración: es código funcional, público y replicable que expone cuánto del costo astronómico de la inteligencia artificial proviene de la escala ambiciosa antes que de la necesidad técnica fundamental.

El lanzamiento llegó el 13 de octubre mediante una publicación en X donde Karpathy, cofundador de OpenAI y actual líder de Eureka Labs, describió el proyecto como «entre lo más desquiciado que he escrito». A diferencia de nanoGPT, su repositorio anterior enfocado exclusivamente en el preentrenamiento de modelos, nanochat ofrece una pila completa de extremo a extremo.

Aproximadamente 8.000 líneas de código, principalmente en Python utilizando PyTorch más un componente en Rust para el tokenizador, cubren cada etapa desde la preparación de datos hasta el despliegue de una interfaz web conversacional. La propuesta es simple pero revolucionaria: alquilar un nodo de 8 GPUs H100 por 24 dólares la hora, ejecutar un único script llamado speedrun.sh, esperar cuatro horas y obtener un chatbot funcional al que se puede acceder desde el navegador como si fuera ChatGPT.

El proceso comienza con la tokenización, la conversión de texto crudo en números que las redes neuronales pueden procesar. Nanochat implementa un codificador por pares de bytes en Rust construido mediante Maturin, generando un vocabulario de 65.536 tokens entrenado sobre fragmentos reorganizados de FineWeb-EDU.

Esta decisión técnica garantiza velocidad y consistencia en todo el flujo de trabajo. El preentrenamiento subsiguiente utiliza FineWeb para que el modelo aprenda patrones generales del lenguaje: gramática, sintaxis, relaciones semánticas básicas. Durante esta fase, un sistema compuesto denominado CORE rastrea capacidades mediante verificaciones sencillas que funcionan como indicadores de progreso.

La etapa de midtraining introduce un giro crucial. Aquí el modelo absorbe conversaciones usuario-asistente de SmolTalk, preguntas de opción múltiple y registros de uso de herramientas. Esta capa orienta al sistema hacia el diálogo interactivo y la capacidad de ejecutar funciones específicas, transformándolo de un generador de texto genérico en un asistente conversacional.

El ajuste fino supervisado endurece el seguimiento de instrucciones, refinando cómo responde a comandos explícitos. Los reportes de muestra del nivel de cien dólares muestran métricas modestas pero funcionales: MMLU alcanza aproximadamente 31 por ciento, ARC Easy entre 35 y 39 por ciento, HumanEval de 7 a 9 por ciento, GSM8K de 3 a 5 por ciento.

El aprendizaje por refuerzo opcional emplea GRPO, optimización de política relativa grupal, que compara múltiples respuestas muestreadas por problema y ajusta los pesos hacia las más robustas. Esta técnica impulsa GSM8K hasta aproximadamente 7 por ciento en las tablas de demostración. La inferencia utiliza una caché de valores clave para acelerar tanto el prefill como la decodificación, soporta procesamiento por lotes simple y expone uso de herramientas ligero mediante un intérprete de Python aislado. Cada ejecución genera un único archivo report.md con métricas, instantáneas de pruebas de referencia, estadísticas de código y una verificación de sanidad llamada ChatCORE que permite a quienes bifurcan el proyecto comparar resultados consistentemente.

Karpathy estructura el sistema con escalabilidad como perilla principal de control. El parámetro de profundidad determina el rendimiento final y el costo asociado. Profundidad 26 entrena en aproximadamente 12 horas por unos 300 dólares y supera ligeramente la puntuación CORE de GPT-2, el modelo de OpenAI lanzado en 2019. Extender el entrenamiento a 41.6 horas alcanza el rango de mil dólares, produciendo comportamiento notablemente más coherente.

La memoria se gestiona reduciendo device_batch_size hasta que cabe en la GPU disponible, permitiendo que la acumulación de gradientes mantenga el tamaño efectivo del lote. Una configuración de una sola GPU funciona con el mismo código a aproximadamente ocho veces el tiempo de reloj, democratizando aún más el acceso.

Una ejecución más extensa de 24 horas con profundidad 30 alcanza alrededor de 40 por ciento en MMLU, 70 por ciento en ARC Easy y 20 por ciento en GSM8K. Estas cifras corresponden aproximadamente a la potencia de cómputo de GPT-3 Small de 125 millones de parámetros y representan cerca del 0.1 por ciento de las operaciones de punto flotante que consumió el entrenamiento completo de GPT-3.

La comparación es reveladora: un modelo que alcanza rendimiento básico comparable al GPT-3 original, que en su momento asombró a la industria, puede ahora construirse con una fracción infinitesimal de los recursos. La diferencia entre los sistemas de frontera actuales y estos modelos más modestos no reside principalmente en la arquitectura fundamental, sino en la cantidad bruta de datos, cómputo y ajuste fino aplicado.

Rob Lalka, profesor de negocios en la Universidad de Tulane y autor de «The Venture Alchemists», señala que las principales compañías de inteligencia artificial se encuentran en una batalla feroz por participación de mercado. ChatGPT alcanzó niveles de adopción sin precedentes históricos: ninguna empresa había logrado semejante velocidad de penetración.

Pero mantener ese impulso requiere continuar empujando la curva de crecimiento exponencial hacia la dominación total. Nanochat expone una verdad incómoda para esos gigantes: la barrera de entrada no es tan alta como sugieren sus presupuestos astronómicos. Mucho del costo deriva de perseguir esos últimos puntos porcentuales de rendimiento, optimizar para casos extremos y construir infraestructura que soporte miles de millones de usuarios simultáneos.

El aula como destino final

Karpathy concibió nanochat como proyecto culminante de LLM101n, un curso universitario en desarrollo en Eureka Labs que guiará a estudiantes a través del proceso completo de construir su propio modelo de inteligencia artificial. Esta intención pedagógica impregna cada decisión de diseño. El repositorio privilegia claridad sobre optimización extrema.

Cada archivo puede empaquetarse en aproximadamente 330 kilobytes de texto, lo suficientemente compacto como para alimentarlo a un modelo de lenguaje grande y obtener explicaciones meta: «Explícame este repositorio». La filosofía subyacente rechaza el infierno de dependencias y los archivos de configuración monstruosos que caracterizan muchos frameworks profesionales.

Los desarrolladores pueden literalmente leer cada línea y comprender qué está sucediendo. Esta transparencia radical contrasta dramáticamente con sistemas de caja negra donde capas de abstracción ocultan la mecánica fundamental. Simon Willison, desarrollador y observador perspicaz de la escena de inteligencia artificial, logró ejecutar el modelo resultante en CPU usando apenas unas pocas líneas de código.

El output, aunque limitado por tokens, demostró capacidad conversacional coherente sobre temas cotidianos. La accesibilidad no es solo financiera: es cognitiva. Cualquiera con conocimientos intermedios de Python puede bifurcarlo, modificarlo, experimentar.

La comunidad ya está respondiendo. Mehul Gupta, analista de datos que escribe en Medium, describió el proyecto como respuesta a una pregunta específica: ¿se puede entrenar un sistema de grado ChatGPT de extremo a extremo por cien dólares? La respuesta resulta ser «más o menos sí».

Nanochat no es un framework ni otra caja de herramientas con configuraciones que parecen jeroglíficos alienígenas. Es una base de código única y cohesiva que entrena, evalúa, ajusta fino y sirve un modelo de lenguaje pequeño de principio a fin. Karpathy lo llama «línea base fuerte», no «framework». Sin monstruos de configuración, sin infierno de dependencias. La capacidad de bifurcación es extrema porque todo está expuesto.

Para la mayoría, el valor no reside en conversar con un mini ChatGPT. Radica en aprender qué sucede bajo el capó, desde tokenización hasta inferencia, sin un clúster de GPUs de un millón de dólares. Es el primer ejemplo público de un flujo de trabajo completo de clon de ChatGPT que corre dentro del presupuesto de un fin de semana. Esta democratización tiene implicaciones que exceden lo educativo. Los investigadores pueden ahora probar hipótesis sobre arquitecturas, estrategias de entrenamiento y técnicas de alineación sin solicitar presupuestos corporativos.

Startups pequeñas pueden experimentar con modelos personalizados para nichos específicos sin quemar capital. Instituciones académicas en países con menos recursos financieros pueden participar en investigación de frontera.

El modelo resultante y sus limitaciones honestas

Las métricas del speedrun de cuatro horas producen un sistema que Karpathy compara con «hablar con un niño de jardín de infantes». El modelo puede escribir historias o poemas simples, responder preguntas básicas, explicar conceptos elementales como por qué el cielo es azul mediante dispersión de Rayleigh. También alucina con confianza cuando se le pregunta sobre su identidad o eventos que no conoce. Estas limitaciones son características, no errores: 4e19 FLOPs de capacidad compran exactamente ese nivel de sofisticación. La honestidad sobre el rendimiento contrasta con el hype inflado que domina muchos lanzamientos tecnológicos.

A medida que el entrenamiento se extiende, las capacidades mejoran cualitativamente. Un modelo de profundidad 30 entrenado por 24 horas alcanza territorio donde puede resolver problemas matemáticos básicos, responder preguntas de opción múltiple con precisión razonable, generar código funcional para tareas simples. No competirá con GPT-4 ni Claude 3.5, pero supera ampliamente lo que sistemas de hace pocos años podían lograr. La progresión ilustra cómo la inteligencia artificial escala: más cómputo y datos producen consistentemente mejor rendimiento, aunque con rendimientos decrecientes conforme se avanza hacia la frontera.

El script también maneja adaptación de hardware con elegancia. Funciona en GPUs A100, aunque más lentamente que en H100. Una sola GPU puede ejecutar todo el pipeline esperando ocho veces más. El código auto-compensa ajustando acumulación de gradientes cuando la memoria VRAM se vuelve ajustada. Esta flexibilidad significa que investigadores sin acceso a clusters masivos pueden igualmente participar, aunque pagando con tiempo en lugar de dinero. La ecuación fundamental permanece: recursos multiplicados por duración producen capacidad cognitiva sintética medible.

Karpathy enfatiza que el proyecto no está terminado, sintonizado u optimizado. Sospecha que existe bastante fruta al alcance de la mano en términos de mejoras de rendimiento. El esqueleto estructural está suficientemente sólido como para publicarlo en GitHub donde cada componente puede refinarse colaborativamente.

Esta postura invita a la comunidad a tratar nanochat no como producto final, sino como punto de partida. Ya funciona como arnés de investigación y potencial estándar de referencia, similar al rol que nanoGPT desempeñó antes. Los forks proliferan, los experimentos se multiplican, las mejoras se comparten.

La interfaz web resultante no es solo demostración: es sistema funcional. Los usuarios visitan la dirección IP del nodo en el puerto 8000 y encuentran una interfaz reminiscente de ChatGPT. Pueden hacer preguntas, solicitar historias, pedir explicaciones. El modelo responde con la coherencia que su entrenamiento permite. Esta tangibilidad importa pedagógicamente: ver el resultado final funcionando en el navegador cierra el ciclo cognitivo entre código abstracto y comportamiento concreto. No es teoría sobre inteligencia artificial, es inteligencia artificial realmente operando.

La liberación de nanochat llega en momento estratégico. Mientras gigantes tecnológicos compiten por construir sistemas cada vez más grandes, costosos y opacos, Karpathy ofrece la antítesis: pequeño, barato, transparente. La industria necesitaba esta contraprogramación. Demasiados desarrolladores perciben la inteligencia artificial como dominio exclusivo de corporaciones con recursos ilimitados. Nanochat demuestra que los principios fundamentales son accesibles, que la barrera es más baja de lo que el marketing corporativo sugiere, que la educación y experimentación pueden ocurrir sin presupuestos estratosféricos.

La publicación de Karpathy en X terminaba con «el repositorio detallado y una guía completa del speedrun están en la respuesta». Esa humildad caracteriza su enfoque: no hay conferencia de prensa, no hay demostración elaborada con escenografía, solo código funcional y documentación clara. La comunidad respondió con entusiasmo.

Analistas de MarkTechPost, Analytics India Magazine, CXO Digital Pulse y decenas de publicaciones técnicas cubrieron el lanzamiento. Los desarrolladores comenzaron a replicar experimentos, compartir resultados, proponer mejoras. En dos días, nanochat se había consolidado como referencia en discusiones sobre democratización de la inteligencia artificial.

El proyecto también funciona como crítica implícita. Si cien dólares pueden producir un chatbot conversacional básicamente funcional, ¿qué justifica los billones de dólares de valoración de las compañías líderes? La respuesta, por supuesto, reside en escala, refinamiento, infraestructura, soporte, responsabilidad legal y docenas de factores adicionales. Pero nanochat expone que la diferencia entre un sistema casero y uno corporativo es gradual, no categórica. Los modelos de frontera son mejores porque se han invertido órdenes de magnitud más recursos, no porque operen bajo principios radicalmente diferentes. Esta revelación cambia la conversación sobre quién puede participar en el desarrollo de inteligencia artificial.

El futuro inmediato de nanochat incluye refinamiento comunitario, optimización de hiperparámetros, experimentos con conjuntos de datos alternativos, ajustes arquitectónicos. Karpathy mencionó que espera que el proyecto crezca hacia un arnés de investigación o estándar de referencia. Las predicciones sugieren que herramientas inspiradas en nanochat podrían estandarizar pilas mínimas de modelos de lenguaje, influenciando dinámicas competitivas entre actores como Google y Meta hacia 2027.

La pregunta crítica no es si nanochat reemplazará a ChatGPT, sino si normalizará la idea de que entrenar inteligencia artificial conversacional está al alcance de individuos y organizaciones pequeñas.

Lo que Andrej Karpathy ha logrado con ocho mil líneas de código es más significativo que cualquier modelo específico producido. Ha democratizado no solo el acceso, sino la comprensión. Ha convertido un proceso aparentemente arcano en algo que un estudiante universitario motivado puede replicar en un fin de semana. Ha probado que los muros alrededor del jardín de la inteligencia artificial son más bajos de lo que los guardianes corporativos quisieran admitir.

En un campo dominado por secretos comerciales, cómputo masivo y recursos concentrados, nanochat es un acto de apertura radical. Y en esa apertura reside su verdadero poder: no el modelo que produce, sino las mentes que libera para construir los siguientes.

Referencias:

GitHub – karpathy/nanochat: The best ChatGPT that $100 can buy: https://github.com/karpathy/nanochat

MarkTechPost – Andrej Karpathy Releases ‘nanochat’: A Minimal, End-to-End ChatGPT-Style Pipeline: https://www.marktechpost.com/2025/10/14/andrej-karpathy-releases-nanochat-a-minimal-end-to-end-chatgpt-style-pipeline-you-can-train-in-4-hours-for-100/

Analytics India Magazine – Andrej Karpathy Releases nanochat, a Minimal ChatGPT Clone: https://analyticsindiamag.com/ai-news-updates/andrej-karpathy-releases-nanochat-a-minimal-chatgpt-clone/

Analytics Vidhya – Build ChatGPT Clone with Andrej Karpathy’s nanochat: https://www.analyticsvidhya.com/blog/2025/10/andrej-karpathys-nanochat/

Medium – Andrej Karpathy’s NanoChat: A ChatGPT clone for $100: https://medium.com/data-science-in-your-pocket/andrej-karpathys-nanochat-a-chatgpt-clone-for-100-8d052b219989

Simon Willison – nanochat: https://simonwillison.net/2025/Oct/13/nanochat/

Andrej Karpathy on X: https://x.com/karpathy/status/1977755427569111362

CXO Digital Pulse – Andrej Karpathy Launches ‘nanochat’, An Open-Source ChatGPT-Style Model Training Pipeline: https://www.cxodigitalpulse.com/andrej-karpathy-launches-nanochat-an-open-source-chatgpt-style-model-training-pipeline/

Nanochat de Karpathy: entrenar un ChatGPT por 100 dólares en 4 horas