NEWSLETTER

El punto de inflexión: cuándo más datos se vuelven un problema

Generated Image November 10, 2025 - 12_15AM

El punto de inflexión: cuándo más datos se vuelven un problema

El Enigma de la Selección

Durante más de una década, un evangelio ha unificado el campo de la inteligencia artificial: más es más. El camino hacia una inteligencia de máquina más poderosa, más capaz y más matizada se consideraba pavimentado con una cantidad de datos simplemente inconcebible. La glotonería digital no era un vicio, sino la virtud cardinal. Los laboratorios de investigación y las corporaciones tecnológicas se embarcaron en una empresa de proporciones casi cosmológicas: aspirar la totalidad de la internet, digitalizar todas las bibliotecas, transcribir cada conversación, con la fe de que en esa inmensidad sin filtrar, en ese océano de información, el algoritmo encontraría la sabiduría. Esta filosofía de "fuerza bruta" nos dio los monumentales modelos de lenguaje que hoy definen nuestra era, sistemas entrenados en corpus de texto tan vastos que desafían la comprensión humana.

Y, sin embargo, en los círculos más avanzados de esta disciplina, una herejía ha comenzado a tomar forma. Una serie de resultados empíricos, desconcertantes y al principio casi anecdóticos, empezaron a perturbar el dogma. Investigadores que, en lugar de añadir más terabytes a sus ya colosales conjuntos de entrenamiento, comenzaron a *eliminar* datos. Y no solo un poco. Emprendieron una curación agresiva, descartando en ocasiones más del noventa por ciento de su material original. Para asombro de la comunidad, sus modelos no empeoraron. Mejoraron. Se volvieron más precisos, más robustos y más eficientes.

Este fenómeno, bautizado con la evocadora frase "menos es más", ha creado una de las paradojas centrales de la IA moderna. ¿Cómo es posible que una dieta de datos, a veces una dieta de inanición, produzca una inteligencia más saludable? ¿Por qué el ayuno informativo triunfa sobre el festín digital? Esta aparente contradicción ha dejado a los ingenieros con un éxito práctico en las manos, pero con un profundo vacío teórico. Simplemente, funcionaba, pero nadie estaba completamente seguro de *por qué*.

Ahora, un nuevo e histórico trabajo de tres investigadores, Elvis Dohmatob, Mohammad Pezeshki y Reyhane Askari-Hemmat, afiliados a instituciones de prestigio como Concordia University, FAIR en Meta y el Mila-Quebec AI Institute, ofrece la primera teoría unificada que resuelve este enigma. Su artículo, "Por qué menos es más (a veces): una teoría de la curación de datos", no se limita a validar la herejía; proporciona el mapa matemático para navegarla. Los autores han construido un marco teórico que explica con precisión cuándo, por qué y cómo la selección deliberada de información supera a la acumulación indiscriminada.

El documento deconstruye la intuición de que todos los datos son inherentemente buenos. Introduce un análisis riguroso de lo que sucede cuando un "oráculo imperfecto", un mecanismo de filtrado que no es perfecto, selecciona ejemplos de entrenamiento basándose en dos criterios fundamentales: la *dificultad* del ejemplo y la *corrección* de su etiqueta. Lo que emerge es un panorama mucho más complejo que la simple "ley de escalado" que dictaba que más datos siempre generaban un mejor rendimiento. El equipo de Dohmatob deriva las curvas exactas de la ley de escalado bajo estas nuevas reglas de curación, revelando un paisaje de "transiciones de fase". Estos son puntos de inflexión matemáticos precisos en los que la lógica se invierte: momentos en que añadir más datos de baja calidad o confusos se vuelve activamente perjudicial, y el acto de eliminar se convierte en la estrategia óptima para la generalización del modelo.

El desmoronamiento del dogma de la glotonería digital

La industria de la inteligencia artificial se ha construido sobre los cimientos de las leyes de escalado. Estas leyes son un conjunto de relaciones empíricas, descubiertas y popularizadas por laboratorios como OpenAI y Google, que dibujan una curva elegantemente predecible: si se aumenta el tamaño del modelo (más parámetros), la cantidad de datos de entrenamiento (más ejemplos) y el poder de cómputo (más procesadores), el rendimiento del sistema mejora de manera constante. Esta ha sido la hoja de ruta para pasar de sistemas que apenas podían reconocer un gato a arquitecturas gigantescas como GPT-3 y sus sucesores, entrenados con billones de palabras extraídas de la web.

La creencia tradicional, respaldada por estas leyes de escalado clásicas, es que la precisión de un modelo mejora consistentemente a medida que se le alimenta con más datos, asumiendo que el ruido simplemente se "promedia" y desaparece.

Esta filosofía de "más es más", encapsulada en trabajos influyentes como el de Sun y sus colegas, se convirtió en el motor de una carrera armamentista de datos. La calidad era secundaria; la escala lo era todo. Se asumía que los errores, el ruido, los sesgos y la información irrelevante presentes en esos vastos repositorios simplemente se "promediarían" y serían superados por la pura magnitud de los ejemplos correctos. El algoritmo, en su vasta capacidad de procesamiento de patrones, aprendería a discernir lo bueno de lo malo.

Pero los cimientos de este dogma comenzaron a temblar. Proyectos con nombres como LIMO ("less is more") y s1, así como los esfuerzos de investigadores como Muenighoff y Ye, presentaron resultados que desafiaban esta lógica. Al tomar un conjunto de datos masivo y aplicar filtros agresivos, a veces descartando la gran mayoría del corpus original, lograban un rendimiento superior con una fracción del costo computacional.

Estos nuevos métodos sugerían que "más datos" no solo era ineficiente; podía ser activamente perjudicial, como muestra esta comparativa de rendimiento.

El éxito de estos métodos empíricos planteó una pregunta incómoda. Si la vieja ley de escalado era una línea ascendente simple, estos nuevos resultados sugerían una curva mucho más extraña, una en la que el rendimiento podía subir, luego estabilizarse y, crucialmente, *caer* a medida que se añadían más datos (posiblemente de menor calidad).

La comunidad se enfrentaba a un misterio. Estaba claro que la *calidad* de los datos importaba, pero ¿de qué manera? ¿Qué definía a un "buen" dato? ¿Era mejor un dato "fácil" y limpio, o uno "difícil" y desafiante? ¿Y qué pasaba con los datos "ruidosos" o mal etiquetados? Sin una teoría subyacente, los investigadores avanzaban a tientas, confiando en la intuición y en la experimentación costosa. Estaban ganando la batalla con la curación de datos, pero sin entender la ciencia de la guerra.

El dilema del curador: un marco teórico

Es en este vacío teórico donde interviene el trabajo de Dohmatob, Pezeshki y Askari-Hemmat. Su contribución fundamental es la creación de un modelo matemático que simula el proceso de curación no como un acto perfecto, sino como uno realista y defectuoso.

Para ello, introducen la figura del "oráculo imperfecto". En la teoría clásica del aprendizaje, un oráculo es una entidad mítica que siempre proporciona la etiqueta correcta para cualquier dato. En el mundo real, no tenemos tales lujos. Nuestros "oráculos" son los propios datos de entrenamiento, que contienen errores, o son los sistemas que usamos para filtrar, que también cometen errores.

El equipo de FAIR y Mila modela este oráculo imperfecto como un guardián en la puerta del conjunto de entrenamiento. Este guardián tiene una política de admisión. La política se basa en dos ejes: la dificultad intrínseca de un ejemplo y la corrección de su etiqueta.

Aquí es donde el análisis se vuelve elegante. Los autores exploran dos estrategias de curación fundamentalmente diferentes que este guardián podría emplear.

La primera es la curación *agnóstica de la etiqueta* (label-agnostic). En este escenario, el guardián decide si un dato es "bueno" o "malo" basándose únicamente en el dato mismo, sin saber si la etiqueta que lo acompaña es correcta. Pensemos en un sistema que filtra imágenes basándose en si están borrosas o si son compositivamente "extrañas", o un sistema que filtra texto basándose en su "perplejidad" (un concepto que mide cuán predecible o estándar es un texto). El guardián está juzgando el libro por su portada, sin leer el contenido. Este método es común, ya que a menudo es la única información que tenemos.

Estrategia 1: Curación Agnóstica a la Etiqueta

Filtra basándose en la dificultad del dato, sin saber si la etiqueta es correcta. Es como juzgar un libro por su portada.

Punto de Dato (Imagen, Texto)
Oráculo Imperfecto
¿Es este ejemplo "fácil" o "difícil"?
Mantener (Fácil)
Descartar (Difícil)

La segunda estrategia es la curación *consciente de la etiqueta* (label-aware). Aquí, el guardián tiene alguna información, aunque sea imperfecta, sobre la *calidad* de la etiqueta. Puede que no sepa la etiqueta "correcta", pero tiene una idea de la probabilidad de que la etiqueta proporcionada sea un disparate. Este escenario modela situaciones en las que, por ejemplo, los datos han sido calificados por múltiples anotadores humanos y podemos usar el nivel de "acuerdo" entre ellos como un indicador de calidad.

Estrategia 2: Curación Consciente de la Etiqueta

Filtra basándose en la "corrección" percibida de la etiqueta. Es como revisar el índice del libro en busca de errores.

Punto de Dato + Etiqueta
Oráculo Imperfecto
¿Es esta etiqueta "correcta" o "ruido"?
Mantener (Correcta)
Descartar (Ruido)

Al modelar matemáticamente estas dos estrategias de filtrado, los autores pudieron hacer algo que nadie había hecho antes: derivar las ecuaciones precisas de las leyes de escalado para un conjunto de datos *curado*. El resultado es un conjunto de curvas que muestran cómo cambia el error de prueba (la medida del rendimiento en el mundo real) a medida que cambia el tamaño y la calidad del conjunto de datos filtrado.

La transición de fase: encontrar el 'punto óptimo' de los datos

Los resultados de estas ecuaciones son la parte más fascinante del trabajo. Revelan que la relación entre la cantidad de datos y el rendimiento no es una línea simple, sino un sistema complejo gobernado por "transiciones de fase".

Este término, tomado de la física, describe un cambio abrupto en las propiedades de un sistema, como el agua que se convierte en hielo a cero grados. No es un cambio gradual; es un punto de inflexión. En el contexto de la curación de datos, la "temperatura" es la calidad y cantidad de los datos.

El marco teórico de Dohmatob y su equipo muestra la existencia de curvas de transición de fase. Por debajo de esta curva, en un régimen de datos de alta calidad o de modelos más pequeños, se mantiene la ley clásica: "más es más". Añadir más datos, incluso si no son perfectos, ayuda al modelo a aprender y generalizar mejor.

Pero si se cruza esa línea, si la calidad promedio de los datos cae por debajo de cierto umbral o el tamaño del conjunto de datos se vuelve lo suficientemente grande como para que el ruido comience a dominar, el sistema sufre una transición de fase. Las reglas se invierten. En este nuevo régimen, "menos es más".

El modelo ahora está tan confundido por los ejemplos contradictorios, ruidosos o mal etiquetados, que cada nuevo dato de baja calidad que se añade *aumenta* el error final. El modelo se vuelve *peor*. En este escenario, el acto de curación, de eliminar agresivamente los datos que caen por debajo de un umbral de dificultad o confianza, se convierte en la única estrategia ganadora. Eliminar datos reduce el ruido y permite al modelo concentrarse en los patrones de alta calidad, mejorando drásticamente su rendimiento.

El siguiente gráfico ilustra esta "transición de fase". La línea naranja (la nueva teoría) muestra cómo el error del modelo (algo malo) puede empezar a *aumentar* después de cierto punto, mientras que la teoría clásica (línea azul discontinua) asumía que el error siempre disminuiría.

Lo crucial es que el artículo no se limita a decir "la calidad importa". Proporciona las *condiciones analíticas* precisas, las ecuaciones, para que cualquier investigador pueda calcular dónde se encuentra esa transición de fase para su problema específico. Proporciona una justificación matemática para la intuición de la curación.

De la teoría a la realidad: la prueba de ImageNet

Una teoría elegante es una cosa; demostrar que se aplica al caos del mundo real es otra muy distinta. La validación final del trabajo de Dohmatob, Pezeshki y Askari-Hemmat proviene de su meticulosa experimentación empírica.

Para probar sus predicciones teóricas, el equipo recurrió a uno de los campos de batalla más famosos de la IA: ImageNet. Este es un conjunto de datos masivo y canónico que contiene millones de imágenes etiquetadas, fundamental en el desarrollo de la visión por computadora. Es conocido por ser vasto, pero también por contener una cantidad significativa de ruido, etiquetas incorrectas y ejemplos ambiguos. Es el candidato perfecto para la curación.

Los investigadores aplicaron sus estrategias de curación, tanto agnósticas como conscientes de la etiqueta, a ImageNet y entrenaron modelos con los subconjuntos de datos resultantes. Luego, trazaron el rendimiento real de estos modelos en un gráfico.

El resultado fue una confirmación asombrosa. Las curvas de rendimiento empírico del mundo real (naranja) coincidieron casi perfectamente con las predicciones teóricas del artículo (azul), validando que el efecto "menos es más" es real y predecible.

Esta validación empírica cierra el círculo. Demuestra que el marco que desarrollaron no es solo un ejercicio matemático abstracto, sino una herramienta descriptiva y predictiva precisa del comportamiento del aprendizaje automático. Ha proporcionado los primeros principios para un arte que, hasta ahora, se practicaba en la oscuridad.

Las implicaciones de esta teoría van más allá de simplemente mejorar la precisión de los modelos actuales. Toca uno de los temores existenciales más profundos del campo: el "colapso del modelo".

Este fenómeno, que preocupa cada vez más a los investigadores, describe un escenario distópico. A medida que los modelos de IA generan más y más contenido (texto, imágenes, código) que puebla Internet, las futuras generaciones de modelos se entrenarán inevitablemente con los datos producidos por sus predecesores sintéticos. El miedo es que esto cree un bucle de retroalimentación degenerativo. El modelo aprende de una copia, que aprende de una copia, y con cada ciclo, la diversidad se pierde, los errores se magnifican y la conexión del modelo con la realidad humana se erosiona. La IA, literalmente, se come su propia cola hasta que solo produce una papilla promediada e incoherente.

El marco de la curación de datos ofrece un antídoto basado en principios. El colapso del modelo puede verse como el fracaso final de la filosofía de "más es más". Es el resultado de entrenar con datos que no solo son ruidosos, sino fundamentalmente falsos o carentes de la riqueza de la experiencia humana original.

Una teoría robusta de la curación nos permite argumentar, matemática y económicamente, a favor de priorizar y preservar los datos de alta calidad, verificados y generados por humanos. Si podemos demostrar que un conjunto de datos más pequeño y "limpio" (curado según los principios de Dohmatob et al.) produce un modelo superior a un conjunto de datos diez veces más grande pero "contaminado" con resultados sintéticos, la economía de la industria cambia.

El valor ya no reside en el tamaño de la pila de datos, sino en su pureza. La curación se convierte en un mecanismo de defensa esencial para garantizar que las futuras inteligencias artificiales sigan siendo robustas, diversas y conectadas con la realidad.

La era de la intención

"Por qué menos es más (a veces)" es uno de esos raros artículos científicos que marcan el final de una era y el comienzo de otra. Cierra la era de la acumulación de datos por fuerza bruta y abre la era de la *intención* de los datos.

Las implicaciones sociales y tecnológicas son profundas. Durante años, la justificación para la recolección masiva e indiscriminada de datos personales era que todo era necesario para el gran algoritmo. Este trabajo socava esa justificación. Demuestra que, desde un punto de vista puramente técnico, es probable que no necesitemos (ni queramos) la foto de las vacaciones de cada persona, cada comentario ocioso en un foro o cada transcripción médica. Necesitamos ejemplos *buenos*, *informativos* y *diversos*.

Esto sugiere un futuro en el que la creación de conjuntos de datos podría ser más ética y menos invasiva. Un futuro en el que el esfuerzo no se centre en la vigilancia digital masiva, sino en la creación cuidadosa y consensuada de repositorios de conocimiento de alta calidad.

Desde el punto de vista económico y medioambiental, el impacto es igualmente claro. Entrenar los modelos más grandes consume cantidades de energía que rivalizan con las de pequeños países. Es un esfuerzo insostenible. Un paradigma de "menos es más" es un paradigma más ecológico y democrático. Permite a laboratorios más pequeños, con menos recursos computacionales, competir no en la escala, sino en la inteligencia de su curación. El ingenio en la selección de datos se convierte en un activo más valioso que el simple acceso a la potencia de cálculo.

Para la ciencia, este trabajo es un paso hacia la madurez. El aprendizaje profundo ha sido a menudo criticado como una "caja negra" alquímica, un campo de ingeniería sin una teoría científica subyacente. Este artículo es una pieza de ciencia fundamental. Reemplaza la intuición con las matemáticas y el misterio con los mecanismos.

Nos enseña que el aprendizaje, ya sea humano o de máquina, no es simplemente la absorción pasiva de información. Es un proceso activo de filtrado, olvido y enfoque. Es el arte de saber qué ignorar. Con este trabajo, finalmente, tenemos la teoría que comienza a explicar la profunda sabiduría que hay detrás de ese arte.

Referencias

Dohmatob, E., Pezeshki, M., & Askari-Hemmat, R. (2025). *Why Less is More (Sometimes): A Theory of Data Curation*. arXiv:2511.03492v1 [cs.LG].

Sun, Z., et al. (2025). *Scaling Laws for Machine Learning*.

Ye, Z., et al. (2025). *LIMO: Less is More*.

Muenighoff, N., et al. (2025). *s1: A Small, Curated Dataset*.

Recent Posts

Generated Image November 15, 2025 - 2_58AM

La “granja de portátiles”: el arma secreta de Corea del Norte

  Cinco ciudadanos estadounidenses se declararon culpables de operar ‘granjas de portátiles’ para blan
Read More
815fb62d-1f9f-41f9-8bb7-e8bbde4e5928

De archivador a investigador: la nueva era de NotebookLM

  NotebookLM deja de ser un simple anotador. Sus nuevas funciones de investigación automatizada y generación mult
Read More

Para estar informado, Ingresá o Creá tu cuenta en MundoIA...

Sign In

Recordá revisar la carpeta de "no deseados", el correo puede llegar allí