El sistema de Karpathy mejoró su propio código de entrenamiento 700 veces solo

El laboratorio que no descansa

Andrej Karpathy publicó un sistema de agentes autónomos que ejecuta cientos de experimentos de aprendizaje profundo mientras el mundo duerme. No es una promesa ni un prototipo: ya funciona, ya mejora por sí solo, y ha desatado un debate sobre si el fenómeno que los tecnólogos llaman singularidad comenzó, sin grandes anuncios, una madrugada de marzo de 2026.

Por el equipo editorial | 9 de marzo de 2026

Hay algo casi desconcertante en la imagen que Andrej Karpathy compartió con el mundo la primera semana de marzo. No es un diagrama espectacular ni una demostración con efectos visuales: es un gráfico de puntos dispersos sobre fondo blanco, donde cada punto representa un experimento completo de entrenamiento de un modelo de lenguaje. Cien puntos. Cien decisiones tomadas de forma autónoma, sin ninguna instrucción adicional, mientras el investigador dormía. Esa imagen, modesta en apariencia, condensa una idea que la comunidad tecnológica todavía está procesando: por primera vez, un sistema computacional no solo ejecuta tareas delegadas por humanos, sino que formula hipótesis, las prueba, evalúa resultados y ajusta su propia estrategia, todo sin participación humana entre ciclo y ciclo.

Karpathy, cofundador de OpenAI y ex director de sistemas de percepción en Tesla, publicó en GitHub un repositorio llamado "autoresearch". La descripción es casi desarmantemente sencilla: un agente de software recibe una GPU, un archivo de entrenamiento de 630 líneas y un documento de instrucciones en texto plano, y se pone a trabajar. Modifica el código, entrena un pequeño modelo de lenguaje durante exactamente cinco minutos, mide si el resultado mejoró y, si fue así, conserva el cambio. Si no, lo descarta. Luego empieza de nuevo. Doce veces por hora. Cerca de cien veces por noche. "El objetivo es diseñar tus agentes para que hagan el progreso de investigación más rápido posible, indefinidamente y sin ninguna participación tuya", escribió en el repositorio.

El experimento que se escribe solo

La arquitectura de autoresearch es, de manera deliberada, minimalista. Solo tres archivos forman el núcleo del sistema. El primero, prepare.py, permanece fijo y gestiona la preparación de datos y las herramientas de soporte. El segundo, train.py, contiene el modelo GPT, el optimizador y el ciclo de entrenamiento: es el único archivo que el agente tiene permitido modificar. El tercero, program.md, es el que redacta el investigador humano: un documento en formato Markdown donde se describe la estrategia de investigación, los criterios de éxito y las restricciones de diseño, todo en lenguaje corriente, sin una sola línea de código.

Esta separación no es casual. La lógica del sistema establece que los humanos ya no programan experimentos, sino que programan la estrategia con la que el agente programa los experimentos. Una diferencia de nivel que, en la práctica, transforma el rol del científico. En lugar de ajustar manualmente hiperparámetros, arquitecturas o funciones de regularización, el investigador redacta algo parecido a una política editorial: "Una mejora pequeña que añade complejidad innecesaria no vale la pena. Eliminar algo y obtener resultados iguales o mejores es un gran resultado." Esas frases escritas en lenguaje corriente son todo lo que el agente necesita para operar durante horas.

La métrica de éxito elegida por Karpathy también merece atención. El sistema evalúa cada experimento según el val_bpb, validación en bits por byte: una medida que no depende del tamaño del vocabulario del modelo. Eso permite comparar resultados directamente incluso cuando el agente cambia el tokenizador, la arquitectura o la longitud del contexto. Cada experimento queda registrado como un commit en Git, de modo que el historial del repositorio se convierte en el cuaderno de laboratorio: una secuencia cronológica de hipótesis, resultados y decisiones tomadas por un sistema no humano. El README afirma, de manera provocadora pero rastreable, que la base de código ya se encuentra en su "décima generación número 10.205".

        Cómo funciona autoresearch: El investigador humano redacta program.md con la estrategia de investigación en texto libre. El agente modifica train.py, entrena el modelo durante exactamente cinco minutos y evalúa el val_bpb. Si el resultado mejoró, el cambio se conserva y queda registrado como commit en Git; si no, se descarta. El ciclo se repite de forma indefinida: doce experimentos por hora, cerca de cien por noche, sin ninguna instrucción adicional del humano.
    

Reducción autónoma del tiempo de entrenamiento de nanochat a lo largo de ~700 iteraciones sin intervención humana. El sistema partió de 2,02 horas para superar la línea base de GPT-2 y llegó a 1,80 horas: una mejora del 11% descubierta exclusivamente por el agente mediante ensayo, error y acumulación de cambios.

Del vibe coding al vibe training

Para entender el peso de lo que Karpathy publicó, conviene rastrear la trayectoria de sus ideas en los últimos años. En febrero de 2025, introdujo el término "vibe coding" para describir una práctica que muchos programadores ya adoptaban sin nombre: dejar que un modelo de lenguaje escribiera el código mientras el humano se limitaba a describir el resultado deseado en términos vagos e intuitivos. El concepto se volvió viral porque capturaba algo real. La programación había dejado de ser exclusivamente un asunto de sintaxis precisa y se había convertido, para muchos, en una conversación con una herramienta cada vez más competente.

Yi Tay, destacado investigador en aprendizaje automático, bautizó el paso siguiente como "vibe training". En los grandes laboratorios ya es habitual que cuando un proceso de entrenamiento falla, el investigador no examine el error directamente: lo pega en el sistema, deja que el agente lo diagnostique y corrija, y reinicia el trabajo. "A veces el modelo codifica mejor que yo", declaró Tay. "Así que simplemente lo dejo hacer su trabajo." Lo que autoresearch hace es llevar esa dinámica hasta su límite lógico: eliminar la presencia humana del bucle por completo, no solo como asistencia sino como condición de operación.

Los resultados no son solo cualitativos. Tras aproximadamente 700 iteraciones autónomas, el sistema identificó alrededor de 20 mejoras acumulables: ajustes en normalizadores de escala, brechas de regularización, configuración de la atención, parámetros beta del optimizador AdamW, métodos de inicialización. Esas modificaciones, descubiertas sin supervisión directa, redujeron el tiempo que el modelo nanochat necesita para superar la línea base histórica de GPT-2: de 2,02 horas a 1,80 horas, una ganancia cercana al 11%. Lo más significativo no es el número en sí: es que las mejoras encontradas en modelos pequeños con profundidad 12 se transfirieron exitosamente a versiones más grandes con profundidad 24, lo que sugiere que el sistema descubre principios generalizables, no trucos locales.

""La investigación en el campo de la inteligencia de frontera solía hacerla las computadoras de carne y hueso. Esa era quedó atrás para siempre."" Andrej Karpathy, README de autoresearch, marzo de 2026

Lo que la comunidad comenzó a debatir con urgencia es si esto configura, en su forma más embrionaria, el mecanismo de automejora recursiva que los investigadores llevan décadas anticipando. La premisa es simple aunque de consecuencias difíciles de acotar: si un sistema puede mejorar los parámetros que gobiernan su propio entrenamiento, y si esas mejoras aceleran la búsqueda de nuevas mejoras, el ciclo podría escalar de maneras que ningún laboratorio controla por completo. Karpathy no esquivó la insinuación. "¿Quién iba a imaginar que la singularidad temprana podría ser tan divertida?", escribió con una ironía que la comunidad leyó como algo más que un chiste.

La cadena que no tiene fin visible

La respuesta de Tobi Lutke, fundador y director ejecutivo de Shopify, fue directa: "La singularidad ha comenzado. Hay demasiadas señales." Elon Musk, que a principios de 2026 ya había declarado que ese año sería "el año de la singularidad", respaldó el comentario sin reservas. Estas reacciones podrían descartarse como entusiasmo hiperbólico si no estuvieran acompañadas por indicios técnicos más concretos que empiezan a acumularse con creciente frecuencia en distintos laboratorios al mismo tiempo.

Jakub Pachocki, director de investigación de OpenAI, fijó para septiembre de este año el objetivo de contar con lo que llamó un "pasante de investigación automatizado": un sistema capaz de acelerar de forma sustancial el trabajo de los científicos humanos, no solo chatear o generar código, sino proponer experimentos, interpretar resultados y gestionar ciclos de iteración completos. Autoresearch no es ese sistema definitivo, pero es una demostración pública y replicable de que la infraestructura básica para algo parecido ya existe y cabe en un solo archivo Python de 630 líneas, accesible a cualquier persona con una GPU y conexión a internet.

El proyecto no está exento de fricciones. Los propios experimentos revelaron que algunos modelos de lenguaje actuales tienen dificultades para mantener bucles prolongados de forma estable. Según reportó el investigador Yuchen, GPT-5.4 en modo de máxima capacidad falló en seguir la instrucción de "repetir indefinidamente", mientras que Claude Opus 4.6 ejecutó 118 experimentos durante más de doce horas sin interrupciones. Karpathy señaló que el problema no radica en la capacidad intelectual de los modelos sino en la fragilidad de la infraestructura de agentes: si se le indica a un sistema que repita una tarea de forma indefinida, debería simplemente hacerlo, sin requerir comandos especiales ni intervención externa.

La transformación que anticipa autoresearch no es solo técnica en sentido estrecho: es organizacional. El cuello de botella ya no está en la capacidad de procesamiento, ni en el costo del cómputo, ni en la sofisticación de los modelos subyacentes. Está en la calidad con que los humanos pueden articular sus objetivos de investigación en un documento de texto. Program.md, el humilde archivo Markdown que dirige el sistema entero, es ahora el activo más valioso del proceso. El investigador que mejor sepa formular una estrategia en lenguaje natural, con sus restricciones, sus criterios de éxito y sus preferencias sobre la complejidad admisible del código, será el que extraiga más valor de herramientas como esta. El cuello de botella se desplazó: de la máquina al lenguaje.

Un investigador que trabaje ocho horas al día, cinco días a la semana, produce quizás cuarenta o cincuenta experimentos documentados por año. Autoresearch produce esa cantidad antes del desayuno. La pregunta que la comunidad no termina de responder es si esa diferencia de velocidad es solo cuantitativa, o si en algún punto se convierte en algo cualitativamente distinto: en un ritmo de descubrimiento que ya no puede seguirse en tiempo real, que produce conocimiento a una velocidad para la que ningún proceso de revisión existente fue diseñado. Lo que Karpathy construyó no pretende ser el sistema definitivo. Es deliberadamente mínimo, deliberadamente transparente, deliberadamente reproducible en una GPU doméstica. Esa es, precisamente, su provocación más efectiva: demostrar que las condiciones para una investigación autónoma y productiva no requieren los recursos de un laboratorio de miles de millones de dólares. Requieren una GPU, tres archivos y una buena pregunta escrita en Markdown. El resto, desde esta semana, puede hacerlo la máquina.

Referencias

Karpathy, Andrej. "autoresearch" — repositorio oficial en GitHub (github.com/karpathy/autoresearch), publicado el 6 de marzo de 2026.

Karpathy, Andrej (@karpathy). Tweet original sobre autoresearch — X (Twitter), 6 de marzo de 2026. https://x.com/karpathy/status/2030371219518931079

Karpathy, Andrej (@karpathy). Tweet sobre singularidad temprana — X (Twitter), marzo de 2026. https://x.com/karpathy/status/2031135152349524125

Latent.Space / AINews. "[AINews] Autoresearch: Sparks of Recursive Self Improvement" — latent.space, 9 de marzo de 2026.

India Today. "Singularity starts now? OpenAI Cofounder builds AI system that gets better on its own" — indiatoday.in, 8 de marzo de 2026.

QuantumZeitgeist. "Andrej Karpathy AI's Iterative Self-Improvement Of Code" — quantumzeitgeist.com, 7 de marzo de 2026.

Top AI Product. "Autoresearch: Karpathy's Overnight AI Researcher That Runs 100 Experiments While You Sleep" — topaiproduct.com, 6 de marzo de 2026.

Pachaar, Akshay (@akshay_pachaar). Descripción técnica de autoresearch — X (Twitter), 6 de marzo de 2026.

Tay, Yi. Declaraciones sobre "vibe training" — Latent.Space, diciembre de 2025.

Pachocki, Jakub. Objetivo público de "Automated AI Research Intern" para septiembre de 2026 — AINews (latent.space), marzo de 2026.

Reddit / r/singularity. "Andrew Karpathy's autoresearch: An autonomous loop where AI edits PyTorch" — 8 de marzo de 2026.

El sistema de Karpathy mejoró su propio código de entrenamiento 700 veces solo