Cuando las máquinas fallan con lo poco común
Imaginemos que desarrollamos un modelo de inteligencia artificial para reconocer especies de plantas a partir de una simple foto. Queremos usarlo para proteger ecosistemas frágiles: que ayude a identificar en el acto si lo que alguien acaba de encontrar en el bosque es una especie común o una en peligro de extinción. Pero hay un problema. El modelo funciona excelente con las plantas más vistas: robles, jazmines, malvones. Sin embargo, cuando se enfrenta a especies raras, esas que aparecen solo unas pocas veces en el set de entrenamiento, empieza a fallar. Las confunde, las omite, directamente no las incluye en su lista de posibilidades. No porque sean menos importantes. Sino porque son menos frecuentes. Y el modelo, como muchos, aprendió que lo frecuente es lo confiable.
Esto no es una anécdota. Es un problema estructural en casi todos los modelos de clasificación automática. Cuando entrenamos un sistema con muchos datos que están desbalanceados (con algunas clases muy representadas y otras casi ausentes), el algoritmo termina viendo con claridad lo que más aparece, y viendo borroso todo lo demás. En el mejor de los casos, duda. En el peor, directamente excluye.
Y cuando ese tipo de modelo no solo clasifica imágenes, sino enfermedades, rostros, palabras, perfiles laborales o movimientos financieros, el costo de esa ceguera puede ser mucho más grave que una confusión botánica.
Cómo dar una respuesta sin fingir certeza
Ahí es donde entra el enfoque que explora el paper “Conformal Prediction for Long-Tailed Classification”. Los autores —Tiffany Ding, Jean-Baptiste Fermanian y Joseph Salmon— proponen una forma de mitigar este problema sin necesidad de reconstruir todo el sistema desde cero. La idea general es simple, aunque su implementación técnica es sofisticada: cuando un modelo no puede estar seguro de una única respuesta, en vez de forzarlo a elegir mal, es mejor que devuelva un conjunto de opciones —una especie de “lista corta” donde esté incluida, con alta probabilidad, la verdadera clase.
Ese enfoque se llama predicción conforme (Conformal Prediction, CP). No reemplaza al modelo, sino que actúa como un filtro inteligente sobre sus salidas. Para cada predicción, analiza cuán confiable fue el modelo con casos parecidos en el pasado, y en función de eso decide cuántas opciones incluir en la predicción final. El objetivo no es dar siempre la respuesta más breve, sino una respuesta que tenga una garantía estadística: que la opción correcta esté casi siempre ahí dentro, aunque no sea la primera.
Funciona. Pero tiene un problema. Esta estrategia, tal como se aplica hoy, suele privilegiar la cobertura general: que el 90% de las veces, por ejemplo, la clase verdadera esté dentro de la lista. Pero no dice nada sobre cómo se distribuye esa cobertura. Puede cubrir muy bien las clases frecuentes y dejar completamente afuera las raras. Y el promedio seguiría siendo 90%.
Es como si un paraguas cubriera perfectamente a diez personas paradas en el centro de la calle, pero dejara completamente empapadas a otras dos que están más lejos. A nivel promedio, el modelo cumple. Pero en los bordes, falla. Y en esos bordes está lo que más importa: lo que es raro, pero decisivo.
Pasar de lo que funciona “en promedio” a lo que funciona “para todos”
La clave que propone este trabajo es mirar no sólo cuánto cubre el modelo, sino a quién cubre. En vez de calcular el promedio general de aciertos, mide el promedio por clase: ¿cuánto acierta el modelo en cada una de las categorías posibles? Y más importante aún: ¿hay clases que sistemáticamente quedan fuera del radar?
Esta idea se conoce como macro-cobertura, y es uno de los grandes aportes del artículo. No reemplaza a la cobertura global, pero obliga al sistema a pensar mejor a qué le está fallando. Cuando uno observa los datos con esa lupa, lo que aparece es revelador: los errores no están distribuidos al azar, sino que se concentran en las clases más infrecuentes. Esas que, curiosamente, suelen ser también las más valiosas: enfermedades poco frecuentes, lenguas minoritarias, especies protegidas, fraudes inusuales, comportamientos atípicos. Lo poco común no es lo irrelevante. Es lo que más necesitamos identificar bien.
Entonces, ¿cómo logramos que el modelo siga siendo confiable pero también justo en su forma de dudar? Es decir: ¿cómo construimos una lista corta de predicciones que no sea un festival de etiquetas para los casos raros, ni una reducción ciega para los frecuentes?
Ahí es donde entra en escena la propuesta central del paper: una familia de métodos que corrigen ese desequilibrio.
Tres formas nuevas de calibrar la incertidumbre
Los autores presentan tres estrategias distintas, pero complementarias:
-
PAS (Prevalence-Adjusted Softmax)
Es un ajuste muy ingenioso que modifica la forma en que el modelo mide su propia confianza. Normalmente, un modelo de clasificación usa algo llamado softmax para asignar probabilidades a cada clase. Pero esa función suele estar sesgada: favorece las clases que vio más veces. PAS lo que hace es penalizar ese sesgo. Introduce un factor de corrección basado en cuán frecuente es cada clase en los datos. Así, logra que el modelo sea más prudente con lo que ve seguido, y más atento con lo que aparece poco. El resultado es una lista más equilibrada, sin inflarla innecesariamente. -
Interp‑Q (Interpolated Quantile Method)
Esta técnica busca el punto medio entre dos extremos: por un lado, los métodos que dan cobertura pareja para todos; por otro, los que ajustan por clase pero pierden garantías estadísticas. Interp-Q mezcla ambas cosas con un cálculo intermedio, que suaviza las diferencias sin romper las reglas. Es una forma práctica de ganar sensibilidad sin perder control. -
Fuzzy Classwise CP
Es la opción más compleja, pero también la más robusta. En lugar de ajustar el modelo directamente, trabaja con las predicciones después de generadas. Les aplica un “reconformado”: una especie de revisión que garantiza que se mantenga la cobertura general, mientras mejora la cobertura clase por clase. No siempre es la más agresiva en sus resultados, pero es la que ofrece más estabilidad.
Las tres técnicas tienen algo en común: no requieren entrenar todo de nuevo. Se aplican sobre modelos ya existentes. Eso significa que pueden incorporarse en sistemas que ya están funcionando, sin interrumpirlos ni reinventarlos. Y eso es clave si queremos que esta sensibilidad hacia las clases raras no quede solo en el laboratorio, sino que llegue al campo, a las plataformas, a las decisiones reales.
Del laboratorio al mundo: cuando el desbalance ya está en los datos
Para entender cómo funcionan estas nuevas técnicas, es importante ver qué ocurre cuando se las aplica en casos reales. Porque la teoría puede ser impecable, pero la realidad es otra cosa. Los autores del paper eligieron dos conjuntos de datos que no fueron creados para ser amigables con los modelos. No son pruebas controladas ni escenarios balanceados. Son bases auténticas, desordenadas, con miles de clases distintas y distribuciones muy disparejas. Justamente, lo que uno encuentra cuando sale del entorno académico y enfrenta el mundo.
Uno de esos conjuntos es Pl@ntNet, una plataforma colaborativa que recolecta imágenes de plantas en todo el mundo. Tiene más de mil especies documentadas, pero no todas aparecen con la misma frecuencia. Algunas tienen cientos de fotos. Otras apenas unas pocas. Esto no es un error. Es un reflejo de cómo interactuamos con el entorno. Sacamos más fotos de lo que conocemos, y mucho menos de lo que es raro o nos resulta extraño. Eso significa que los datos llegan ya con una desigualdad de origen. Y el modelo, si no se le dice lo contrario, va a aprender desde ahí.
El otro conjunto es iNaturalist, un repositorio todavía más amplio. Contiene más de ocho mil clases, desde aves hasta insectos, hongos y reptiles. Es tan diverso como el ecosistema global. Y también, como en el mundo real, unas pocas especies dominan la atención, mientras que la mayoría pasa desapercibida. La “larga cola” no es un efecto secundario. Es la estructura principal.
Cuando se aplican los métodos clásicos de predicción conforme en estos contextos, los resultados muestran una aparente cobertura general aceptable. Pero si se desglosa por clase, la situación cambia. Las especies más comunes tienen una cobertura altísima. Las raras, en cambio, quedan fuera de la lista de predicciones con frecuencia preocupante. El sistema funciona, pero solo para una parte del ecosistema. Y eso, en tareas de conservación o monitoreo ambiental, es como tener un mapa que omite las zonas más frágiles.
Ahí es donde los nuevos métodos demuestran su potencia. Al corregir los sesgos de confianza y redistribuir la atención del modelo, logran incluir en los conjuntos de predicción muchas más especies raras, sin necesidad de inflar los resultados. No es que ahora se predice todo y cualquier cosa. Es que las predicciones empiezan a tener en cuenta también lo que aparece poco. Y esa inclusión cambia la manera de interpretar los datos.
Pequeñas correcciones, grandes impactos
Una de las virtudes de las técnicas propuestas es que no transforman el sistema en algo completamente nuevo. No exigen reentrenar redes neuronales, ni modificar la arquitectura de los modelos. Trabajan con lo que ya existe, y lo afinan. Son ajustes sobre las salidas, no sobre la estructura. Y eso hace que sean especialmente valiosas para proyectos que ya están en marcha, pero que quieren mejorar su sensibilidad hacia las clases desatendidas.
Por ejemplo, en el caso de Pl@ntNet, el uso de PAS permitió reducir notablemente la cantidad de veces en que las especies menos frecuentes quedaban fuera del conjunto de predicciones. Eso se logró sin aumentar demasiado el tamaño de la lista devuelta por el modelo. Es decir, no hubo que sacrificar utilidad para ganar cobertura. Al contrario. El modelo siguió siendo manejable —con listas cortas y precisas— pero ahora más justo en la forma de repartir su atención.
Lo mismo ocurrió con iNaturalist. La aplicación de Interp-Q y Fuzzy CP mejoró la cobertura clase por clase de manera significativa. En algunos casos, duplicó la tasa de inclusión para especies que antes casi nunca aparecían entre las opciones propuestas. Y todo eso sin romper la garantía global de cobertura. La duda, bien calibrada, se volvió una herramienta de equidad.
Es importante subrayar que estas mejoras no son cosméticas. No se trata de una optimización marginal. En sistemas donde cada predicción puede tener consecuencias operativas —como decir si una planta es invasora, si un animal está en peligro o si una imagen debe ser enviada a revisión— incluir o no la clase correcta en la lista de opciones hace toda la diferencia.
El riesgo de dejar fuera lo que apenas aparece
El problema del desbalance en clasificación no es solo técnico. Tiene consecuencias prácticas y políticas. Si los sistemas automáticos que usamos para monitorear, clasificar o detectar no prestan suficiente atención a lo que es raro, terminamos generando una ilusión de control sobre un mundo que no comprendemos del todo. Y peor aún: dejamos afuera, sistemáticamente, lo que podría alertarnos de un cambio, de una amenaza, de una oportunidad única.
En medicina, por ejemplo, ocurre algo parecido. Si un modelo de diagnóstico fue entrenado con una mayoría de casos comunes, es probable que falle justo cuando lo que está en juego es más importante: una enfermedad poco frecuente, una combinación atípica de síntomas, un paciente fuera del rango habitual. Y ese fallo no es inocente. Puede llevar a una omisión grave. Por eso es tan importante que los sistemas no solo digan “qué tan seguros están”, sino “a quiénes están dejando fuera”.
Las herramientas que desarrollan los autores de este paper apuntan directamente a eso. No pretenden que el modelo adivine lo improbable. Pero sí que deje abierta la posibilidad de que lo improbable esté presente. Es un cambio sutil, pero poderoso. Porque obliga al sistema a pensar más allá de su experiencia pasada. A no cerrarse sobre lo que más vio. A dejar un espacio, aunque sea mínimo, para lo que no está en la media.
La precisión no lo es todo
En muchos contextos de inteligencia artificial se celebra la precisión como el gran objetivo. Cuanto más acierta el modelo, mejor. Pero esa lógica puede volverse engañosa. Un sistema puede tener un 95 por ciento de aciertos y, sin embargo, estar cometiendo errores sistemáticos en los márgenes. Puede funcionar perfecto en los casos típicos, y fallar justo donde más atención se necesita.
La predicción conforme propone un enfoque distinto. No reemplaza el criterio de precisión, pero lo enmarca dentro de una visión más amplia. En vez de buscar una única respuesta que acierte, plantea que el modelo entregue un conjunto de opciones donde esté casi siempre la correcta. Y al hacerlo, abre una conversación más honesta con la incertidumbre.
Las técnicas que propone este trabajo van un paso más allá. No solo calibran mejor esa duda, sino que se aseguran de que no se reparta de forma injusta. Porque cuando la incertidumbre solo protege a los casos frecuentes, no es neutral. Es un sesgo con disfraz estadístico.
Cuando predecir también es decidir a quién se mira
En muchos ámbitos donde se usa inteligencia artificial, las decisiones no se toman simplemente por eficiencia. Se toman porque hay confianza en que el modelo está viendo bien lo que tiene delante. Pero ¿y si el modelo no está mirando todo? ¿Y si mira con más atención solo a una parte del universo, y deja a la otra fuera del encuadre?
Esa es la situación que se repite una y otra vez cuando se entrena con datos desbalanceados. Las clases que aparecen con frecuencia terminan ocupando casi toda la atención del sistema. Y las que son raras (porque lo son en el mundo o en el dataset) pasan a ser invisibles para la inteligencia automática. Esto ocurre en aplicaciones tan distintas como el reconocimiento de imágenes, la clasificación de textos, la detección de enfermedades o el análisis de riesgos financieros.
Pero lo que parece un detalle técnico se convierte, muy rápido, en un problema estructural. Porque cuando el modelo deja fuera lo raro, no solo se equivoca. Refuerza una manera particular de ver el mundo. Una mirada que cree que lo común es lo verdadero. Que lo frecuente es lo correcto. Que lo poco visto es un ruido, un error o algo que puede ignorarse.
Eso tiene consecuencias. Y no solo estadísticas.
La exclusión automática de lo infrecuente
Pensemos en un sistema que ayuda a seleccionar currículums para entrevistas laborales. Si el modelo fue entrenado con miles de perfiles que responden a ciertas características —formación técnica, determinado nivel de inglés, experiencia en empresas multinacionales—, y muy pocos ejemplos fuera de ese molde, es probable que comience a ignorar sistemáticamente todo lo que no se parezca a su norma interna. Y lo hará sin saber que está sesgado. Simplemente aprenderá que lo que más aparece es lo que mejor funciona.
Lo mismo pasa con sistemas que procesan lenguaje. Si la mayoría de los datos provienen de ciertos registros (español neutro, textos académicos, fórmulas periodísticas), el modelo aprenderá a priorizar esos tonos y formas. Pero dejará fuera, una y otra vez, las hablas regionales, los modismos poco frecuentes, las formas minoritarias de expresarse. No porque no pueda reconocerlas, sino porque nunca las vio lo suficiente como para darles el mismo peso.
Esta exclusión no es deliberada. Pero es constante. Y cuando se multiplica en decenas de modelos, integrados en sistemas de recomendación, diagnóstico, análisis o vigilancia, produce un tipo de visión deformada que se vuelve estructural.
Ahí es donde las técnicas del paper ofrecen algo más que una mejora matemática. Proponen una forma distinta de repartir la duda. No se trata solo de que el modelo devuelva una lista más amplia. Se trata de que esa lista esté construida con la conciencia de que algunas respuestas son poco visibles, pero no por eso descartables.
Volver a mirar lo que la estadística ignoró
Una de las ideas más poderosas de este trabajo es que el modelo no tiene por qué quedar atrapado en la distribución con la que fue entrenado. Puede, con técnicas adecuadas, corregir la forma en que reparte su confianza. Puede decidir mirar con más atención donde antes pasaba de largo. No para forzar una respuesta, sino para dejar abierta una posibilidad.
La clave está en el equilibrio. No se trata de inflar todas las listas con todas las clases posibles. Eso volvería inútil la predicción. Lo que se busca es otra cosa: que lo raro tenga una chance justa de ser incluido. Que no sea eliminado de entrada solo porque aparece poco.
Es un cambio de actitud del sistema. Ya no se conforma con acertar lo más frecuente. Ahora intenta no errar sistemáticamente en lo infrecuente. Esa corrección, aunque parezca técnica, es también una corrección política. Porque introduce un principio de equidad dentro del corazón mismo del modelo.
No se está diciendo que todas las clases valen lo mismo en todo contexto. Pero sí que ninguna debería ser descartada sin haber sido considerada de forma justa.
La inteligencia artificial también necesita contexto
Uno de los errores más comunes al aplicar modelos en contextos reales es suponer que los datos lo dicen todo. Que el modelo puede simplemente aprender de los números y aplicarse en cualquier entorno con los mismos parámetros. Pero en realidad, ningún sistema opera en el vacío.
Las distribuciones de los datos tienen historia. Reflejan decisiones previas. Qué se documentó y qué no. Qué se etiquetó y qué quedó afuera. Qué se consideró importante y qué no tuvo registro. Los modelos aprenden desde ahí. Por eso, incluso los mejores algoritmos reproducen los sesgos de origen si no se les da una manera de corregirlos.
Las técnicas que presenta este paper son precisamente formas de corrección. Pequeñas, específicas, pero profundamente significativas. No requieren saber toda la historia detrás de los datos. No obligan a cambiar la arquitectura del modelo. Pero le permiten reconocer que su confianza no está siempre bien distribuida. Que a veces exagera con lo conocido y minimiza lo desconocido. Y que esa tendencia puede corregirse.
Responsabilidad algorítmica sin grandes gestos
Una de las cosas más valiosas de este trabajo es que no apela a grandes cambios éticos ni a transformaciones profundas en la gobernanza de la IA. No plantea regulaciones masivas ni intervenciones externas. Ofrece, en cambio, herramientas simples y eficaces para que el propio modelo actúe con más responsabilidad.
El corazón de esa propuesta es muy concreto: no dejar afuera lo raro sin revisarlo antes. No decidir por omisión. No excluir porque algo aparece poco. Es una forma de humildad algorítmica. Y también una forma de justicia práctica.
En la mayoría de los sistemas que hoy usamos (desde asistentes inteligentes hasta filtros de contenido, desde motores de búsqueda hasta sistemas de puntuación crediticia), introducir una corrección como la que propone este paper sería técnicamente viable. Y su impacto no sería menor. Habría menos errores en los bordes. Menos exclusiones arbitrarias. Menos decisiones tomadas desde la estadística bruta sin sensibilidad contextual.
Eso no resuelve todos los problemas de la inteligencia artificial. Pero cambia algo profundo en su manera de operar: la posibilidad de que empiece a prestar atención, no solo a lo que está en el centro del conjunto de datos, sino también a lo que vive en los márgenes.
Pensar desde el margen para diseñar mejor el centro
Cuando se piensa en el avance de la inteligencia artificial, casi siempre se hace desde el poder de acierto: qué tan bien predice, cuán eficiente es, qué nivel de precisión alcanza. Pero hay otro criterio igual de importante, y mucho menos atendido: qué tan consciente es el modelo de sus propios puntos ciegos. Qué hace con la duda. Cómo reparte su incertidumbre. Y sobre todo, a quién excluye sin quererlo.
Este paper, a pesar de su lenguaje técnico y sus fórmulas precisas, trata justamente de eso. De cómo un modelo puede aprender no solo a elegir, sino a reconocer lo que tiende a dejar fuera. De cómo puede extender su campo de atención sin perder rigor. De cómo puede mejorar su capacidad de decisión, no haciendo más, sino afinando mejor sus límites.
Las tres técnicas que propone —PAS, Interp‑Q y Fuzzy CP— no buscan convertir al modelo en algo más complejo. Buscan que sea más cuidadoso. Que no se precipite al descartar lo que aparece poco. Que no asuma que lo conocido es siempre lo correcto. Y que cuando tenga dudas, las exprese con la mínima justicia posible. No se le pide certeza, sino atención.
En muchos sentidos, estas técnicas funcionan como una pedagogía para el sistema. Le enseñan a mirar mejor. A calibrar sus preferencias. A entender que la rareza estadística no justifica la exclusión sistemática. Y eso, en un mundo donde cada vez más decisiones pasan por filtros automáticos, es un aprendizaje urgente.
Una manera concreta de volver más justa a la inteligencia artificial
La palabra justicia suele aparecer poco en los artículos de machine learning. Se habla más de eficiencia, optimización, escalabilidad. Pero cuando un modelo deja sistemáticamente afuera a ciertas clases, lo que está ocurriendo no es solo una pérdida de precisión: es una distribución injusta del error.
Este paper no moraliza sobre ese punto, pero lo aborda de frente. Plantea una forma de corregir la desigualdad que se forma cuando el modelo confía solo en lo que vio muchas veces. Una forma de reconocer que el aprendizaje automático no es simplemente una cuestión de datos, sino también de criterio.
Las herramientas que propone no hacen al modelo más inteligente, en el sentido de agregarle capacidad. Lo hacen más razonable. Lo invitan a no reducir el mundo a lo que conoce bien. A dejar un lugar —aunque sea modesto— para aquello que no aparece con frecuencia, pero puede ser decisivo. Esa decisión de no cerrar del todo la puerta a lo raro, a lo infrecuente, es una forma de justicia.
Y es también una forma de control. Porque en muchos sistemas actuales, la falta de cobertura sobre clases marginales no solo genera errores. Crea zonas de opacidad. Hace que el modelo parezca más seguro de lo que realmente está. Y eso vuelve sus decisiones menos confiables, incluso cuando acierta.
Aprender a decir: “esto podría ser, aunque no lo vi mucho”
Uno de los gestos más valiosos de estas técnicas es que enseñan al modelo a reconocer los límites de su experiencia. A no confundir frecuencia con verdad. A no repetir lo visto como si fuera lo único posible. Ese aprendizaje, por técnico que parezca, tiene consecuencias profundas en cómo usamos la inteligencia artificial en nuestra vida diaria.
Un sistema que sabe decir “no estoy del todo seguro, pero esto podría estar ocurriendo” es un sistema más útil. Más confiable. No porque acierte siempre, sino porque no miente. Porque no fuerza una certeza donde solo hay costumbre. Y porque deja abierta una posibilidad para lo nuevo, lo inesperado o lo poco documentado.
Eso vale para todo: para la detección de fraudes, para el diagnóstico de enfermedades raras, para la clasificación de textos en idiomas con poca representación, para el reconocimiento de formas de vida poco comunes, para la comprensión de contextos sociales donde los datos no abundan.
Y ese “esto podría ser” no es una debilidad del sistema. Es su fortaleza. Es la forma en que la inteligencia automática puede acompañar la complejidad del mundo, en lugar de imponerle sus simplificaciones.
El futuro no está solo en lo que vemos todo el tiempo
Vivimos rodeados de datos. Pero esa abundancia no significa que veamos todo. Los datos, como los mapas, siempre tienen zonas en blanco. Siempre están sesgados por lo que decidimos observar, registrar, almacenar. Y los modelos aprenden desde ahí. Si no se les ofrece un correctivo, repiten ese sesgo. Lo convierten en una regla. Y lo aplican como si fuera universal.
La propuesta de este paper no es radical, pero sí transformadora. No propone que lo raro tenga el mismo peso que lo común. Solo pide que lo raro no sea descartado sin revisión. Que tenga una oportunidad razonable de ser incluido en la lista. Que el modelo no se cierre demasiado pronto a lo que no encaja del todo.
Esa apertura es pequeña, pero poderosa. Porque significa que el sistema deja un margen para lo que aún no sabe. No lo ignora. Lo pone en consideración. Y eso, para cualquier inteligencia —humana o artificial—, es una muestra de madurez.
Mirar más allá de lo que ocurre seguido
En la carrera por optimizar la inteligencia artificial, muchas veces se olvida que lo más valioso no siempre es lo más frecuente. Lo raro es a menudo lo que más necesita ser detectado. Porque trae advertencias, excepciones, revelaciones. El primer síntoma de una enfermedad nueva. La señal débil de una invasión biológica. El patrón atípico que anticipa un fraude. La voz que no suena como todas las demás.
Si el modelo aprende a mirar solo lo que ocurre seguido, nunca va a ver eso. Por eso necesitamos que aprenda a prestar atención donde casi no hay señales. A incluir sin abarrotar. A dudar sin paralizarse. A decir: esto también podría estar pasando.
Las herramientas que ofrece este trabajo son una invitación práctica a lograrlo. Sin discursos grandilocuentes. Sin redefinir toda la arquitectura. Solo con ajustes precisos, responsables, reproducibles. Y eso es quizás lo más valioso: que no prometen cambiar el mundo con una fórmula, pero sí mejorar la forma en que lo vemos. Y para quienes trabajamos con sistemas que aprenden, eso ya es muchísimo.