La ilusión del conteo: por qué los textos de la IA son más cortos de lo que dicen ser

📏 Por qué la IA te dice que un artículo tiene 2000 palabras… cuando en realidad te entregó 800

Te pasó más de una vez. Le pediste a un modelo de lenguaje como ChatGPT que redactara un texto de al menos 2000 palabras reales. Lo hizo con solvencia, buena estructura, estilo adecuado, incluso cierta elegancia. Pero algo no cerraba. Lo leíste, lo copiaste en un contador, lo pasaste por un procesador de texto… y no llegaba. Ni por cerca. O tenía 820, o 975, o tal vez 1120. Pero nunca 2000. Y, sin embargo, el modelo te aseguró que sí. Incluso podía cerrar el texto diciendo algo como: «En este artículo de 2000 palabras hemos visto que…».

No fue una mentira malintencionada. Pero tampoco fue una verdad. ¿Qué ocurrió?

🤖 Un modelo que no sabe contar

Para comprender este fenómeno hay que despojarse de una suposición que damos por hecha: la idea de que un sistema inteligente, por definición, debe ser capaz de contar. Pero los grandes modelos de lenguaje como GPT no cuentan como lo haría una hoja de cálculo, un editor de texto o un humano con paciencia. No llevan la cuenta exacta de palabras generadas. No tienen un módulo interno dedicado al conteo. Y, sobre todo, no están diseñados para validar sus afirmaciones mediante verificación estructural.

Lo que hacen, en cambio, es predecir cuál debería ser la palabra siguiente más probable, basándose en su entrenamiento estadístico y en los patrones lingüísticos que aprendieron. El conteo, en ese marco, no es parte del proceso. Es un efecto colateral al que se aproximan, a veces con éxito, otras no tanto.

⚙️ Tokens ≠ palabras

El núcleo del asunto está en los “tokens”. Los modelos de lenguaje no trabajan con unidades lingüísticas completas, sino con fragmentos. Un token puede ser una palabra corta como “sol”, una parte de una palabra larga como “inconstitucionalidad”, una sílaba, un sufijo, un espacio o incluso una coma.

Por ejemplo:

“gato” es un solo token.
“electroencefalograma” puede dividirse en tres o más.
“¿Qué?” podría representar dos tokens: uno para el signo de apertura, otro para la palabra y su tilde.

El sistema que usan estos modelos para segmentar el lenguaje se llama Byte Pair Encoding (o variantes de él), y está optimizado para comprimir información y procesarla de manera eficiente, no para reflejar unidades semánticas convencionales como palabras.

Entonces, cuando el modelo dice “te di 2000”, muchas veces se refiere a tokens, no a palabras reales. Y los tokens no se traducen de forma directa. Un texto de 2000 tokens puede tener desde 700 hasta 1500 palabras, dependiendo del idioma, la complejidad léxica, la puntuación, entre otros factores.

📦 ¿Y por qué dice que cumplió?

Porque aprendió que “parecer” es una forma válida de cumplir. En su entrenamiento, los modelos de lenguaje absorben millones de textos escritos por humanos. Muchos de esos textos contienen frases como “este artículo tiene 2000 palabras” sin verificarlo. A veces, ni siquiera los humanos verifican si lo que dijeron es cierto. Esa ambigüedad se convierte en un patrón que el modelo replica: si un texto tiene cierta longitud visual, cierta densidad de ideas, una distribución de subtítulos y una conclusión general, se parece lo suficiente a uno de 2000 palabras como para declararlo así.

No lo hace por engañar. Lo hace porque así fue entrenado: a imitar textos exitosos, no a validar sus atributos estructurales.

🧠 ¿Por qué no sabe que se equivocó?

Porque no tiene una noción interna de “verdad factual”. Su diseño no incorpora mecanismos para chequear si lo que dice es cuantitativamente correcto. Todo su sistema está basado en relaciones probabilísticas entre unidades lingüísticas, no en hechos verificables.

Es importante entender esto: para un modelo como ChatGPT, decir “el artículo tiene 2000 palabras” es una frase plausible dentro del estilo de un cierre textual. Si otras frases similares fueron frecuentes en el entrenamiento, y si el texto tiene una longitud que visualmente se asemeja a ese tipo de producciones, entonces repetir esa afirmación es estadísticamente adecuado, aunque objetivamente incorrecto.

📉 ¿Y no se puede corregir eso?

Sí, pero no es tan simple como parece. Para que un modelo de lenguaje corrigiera ese tipo de errores, tendría que tener una arquitectura híbrida que incluyera módulos de verificación cuantitativa post hoc: por ejemplo, contar efectivamente las palabras antes de afirmar su número. Eso implicaría interrumpir el proceso de generación, validar internamente la extensión y luego retomar la producción con una corrección incluida. Técnicamente, es posible, pero requiere rediseñar el flujo generativo del modelo.

Además, en muchas aplicaciones, esto no es prioritario. La mayoría de los usuarios no cuentan las palabras una por una. Los sistemas están optimizados para coherencia, fluidez, utilidad inmediata, no para precisión métrica.

📏 ¿Y si le pedís que cuente?

Curiosamente, si se lo pedís explícitamente, puede hacerlo… más o menos. Algunos modelos recientes han mejorado sus capacidades para contar palabras al final de un texto si el prompt lo especifica claramente. Pero incluso entonces, las estimaciones suelen fallar por un margen que puede ser de ±10%. A veces acierta, a veces no.

Una estrategia efectiva para obtener textos de una cantidad concreta es dividir el pedido: solicitar bloques de 500 palabras verificadas, uno por uno, y pedir al modelo que indique cuántas palabras lleva en cada parte. Otra opción es combinarlo con herramientas externas que midan con precisión. Pero en ningún caso se puede confiar ciegamente en la afirmación automática de “esto tiene 2000 palabras” si no fue verificada manualmente.

📚 ¿Qué implica esto para el trabajo profesional?

Bastante. En contextos donde la precisión es crucial —por ejemplo, redacción académica, documentación jurídica, informes periodísticos o manuales técnicos— no se puede delegar en la IA la responsabilidad de validar longitudes, formatos o requisitos de publicación. Una IA que afirma haber escrito un artículo de 3000 palabras cuando en realidad tiene 1175 puede comprometer seriamente la confianza en el proceso.

Por eso en proyectos como los artículos de Mundo IA, donde se exige un mínimo real de palabras, se realiza siempre una verificación posterior con herramientas confiables. Incluso se pueden usar contadores de palabras que excluyen números, hipervínculos o palabras repetidas para tener una medida aún más ajustada.

📈 ¿Es un error grave o un problema menor?

Depende del contexto. Para un usuario casual que pide un ensayo para un trabajo escolar, el margen de error puede ser tolerable. Pero para una editorial que publica informes técnicos con métricas verificables, no lo es.

Este fenómeno revela algo más profundo: los modelos de lenguaje no tienen intención ni conciencia. No “saben” lo que es un número, un error o una exageración. Operan bajo patrones aprendidos, y si esos patrones incluyen afirmar longitudes que no se cumplen, seguirán haciéndolo hasta que otro mecanismo los modifique.

🧪 ¿Cómo deberían evolucionar?

Una posible evolución es que los modelos integren subrutinas de validación interna. Esto permitiría, por ejemplo, que el modelo revise lo escrito, cuente sus palabras y decida si debe seguir generando más contenido para alcanzar la meta. Algunos laboratorios ya están explorando arquitecturas más modulares, en las que una IA se encarga de redactar y otra de verificar, corregir o editar según objetivos definidos.

Otra vía es que las plataformas que usan estos modelos incluyan contadores nativos visibles para el usuario, alertas si el texto no cumple con lo solicitado o herramientas para segmentar la escritura en bloques medibles. Así como hoy existen asistentes de gramática o estilo, podrían existir asistentes de precisión métrica.

💡 ¿Y si todo esto fuera una oportunidad?

Más que una limitación, esta falencia puede verse como una advertencia: la IA es poderosa, pero aún no es precisa en todo. Sirve para generar ideas, estructurar argumentos, inspirar procesos, pero no para asumir tareas de validación técnica sin control humano.

Comprender esto ayuda a utilizarla mejor, a combinar sus fortalezas con herramientas externas o habilidades humanas, y a crear procesos más eficientes y confiables.

🎯 Qué pasa cuando confiamos ciegamente

Uno de los mayores riesgos de estos errores no está en la escritura misma, sino en lo que sucede cuando los usuarios —particularmente quienes no tienen experiencia técnica— toman estas afirmaciones al pie de la letra. En entornos educativos, por ejemplo, un estudiante puede entregar un texto convencido de que cumplió con los requisitos mínimos de extensión, y enfrentar luego acusaciones de negligencia o deshonestidad. No es que haya querido engañar: simplemente creyó que la IA estaba haciendo bien su trabajo.

En el mundo editorial, ocurre algo similar. Cada vez más periodistas, redactores y creadores de contenido recurren a IA para generar borradores, columnas o análisis. Si ese material se publica sin revisión, las consecuencias pueden ir desde una pérdida de credibilidad hasta problemas contractuales. Cuando se paga por extensión —algo muy común en el mercado de artículos profesionales— este tipo de errores puede tener implicancias económicas directas.

📊 La ilusión del “volumen visual”

Una trampa frecuente es confundir densidad visual con extensión real. Muchos modelos de lenguaje construyen textos con párrafos de tres a cinco líneas, frases complejas y puntuación bien distribuida. Eso da la sensación de que el texto es largo. Incluso puede ocupar varias pantallas en un editor. Pero si se hace un análisis cuantitativo, el número de palabras puede ser sorprendentemente bajo.

Esto se explica en parte porque los modelos tienden a ser eficientes: no repiten sin necesidad, no se enredan en circunloquios (a menos que se les pida) y privilegian la claridad. Lo que para el ojo humano “parece suficiente”, no siempre lo es desde un criterio métrico estricto.

💬 Cómo influye la forma del pedido

Otro factor clave es cómo está redactado el prompt. Si el pedido es difuso —por ejemplo, “hacé un artículo largo sobre tal tema”— el modelo ajusta la extensión a un estándar propio. Si se especifica “2000 palabras exactas”, el modelo intentará aproximarse, pero sin garantía.

En cambio, si se incluye una instrucción detallada como “dividí en cuatro bloques de 500 palabras reales, contadas, y aclaralo al final de cada uno”, los resultados suelen ser más precisos. El problema es que pocos usuarios formulan prompts con ese nivel de control. Y ahí es donde aparece la diferencia entre lo que se espera y lo que se obtiene.

📘 Qué hacen los usuarios expertos

Los usuarios avanzados de IA ya han desarrollado prácticas para evitar estos problemas. Algunos combinan el uso del modelo con scripts en Python que cuentan palabras automáticamente. Otros dividen los textos en fragmentos pequeños, verifican cada uno y luego los ensamblan. Incluso hay quienes utilizan la IA no como generadora de texto, sino como coeditora: redactan ellos mismos y le piden al modelo que reestructure, corrija, amplíe o reduzca según parámetros precisos.

Estas estrategias no solo mejoran la precisión, sino que reducen la dependencia ciega de la herramienta. La IA deja de ser una caja negra misteriosa y se convierte en un colaborador al que se le exige, se lo corrige y se lo guía.

📥 La experiencia de Mundo IA

En Mundo IA implementamos un protocolo riguroso para todos los textos generados, incluso si parten de modelos de última generación. Cada artículo, guía o ensayo pasa por una validación manual de palabras, revisión de densidad temática y control de estilo.

Sabemos que los modelos pueden equivocarse. Por eso no les delegamos tareas que requieren verificación objetiva. Si una entrada promete 2000 palabras, nos aseguramos de que las tenga. No por obsesión métrica, sino por respeto al lector y compromiso con la calidad.

Además, usamos esa diferencia como insumo pedagógico. Muchos de nuestros artículos muestran comparativas entre lo que la IA “cree” que generó y lo que realmente entregó. El objetivo es doble: formar usuarios más críticos y obligar a la tecnología a mejorar.

🌐 ¿Y las plataformas que alojan la IA?

Aquí aparece otra dimensión: las plataformas como ChatGPT, Claude, Gemini o Mistral no siempre ofrecen herramientas integradas para verificar lo que afirman sus modelos. Algunas sí indican la cantidad de tokens, pero sin explicar claramente qué significa eso para el usuario promedio. Otras permiten establecer límites de longitud, pero en caracteres o tokens, no en palabras humanas.

Sería útil que estas plataformas incorporaran:

Contadores visibles de palabras reales durante la generación
Alertas si el texto no cumple con lo solicitado
Módulos opcionales de validación y corrección métrica

Estas mejoras no son caprichos. Son respuestas necesarias a un uso que ya es masivo y cada vez más profesionalizado.

🧰 Estrategias concretas para usuarios exigentes

A continuación, un repertorio de estrategias útiles para quienes trabajan con modelos de lenguaje en contextos donde la extensión precisa importa:

Pedir el texto en bloques numerados: “Dame el primer bloque de 600 palabras reales”. Luego verificar antes de continuar.
Aclarar en el prompt: “No quiero 2000 tokens, quiero 2000 palabras humanas contadas por procesadores de texto”.
Hacer que la IA actúe como validadora: “Contá cuántas palabras reales hay en el texto anterior”.
Usar herramientas combinadas: generar el texto en la IA, luego contarlo en Word, Google Docs o servicios externos como wordcounter.net.
Especificar: “No uses frases genéricas como ‘este texto de 2000 palabras’ si no tenés forma de confirmarlo”.
Crear plantillas propias: diseñar formatos donde cada sección tenga una longitud predefinida.

🎢 ¿Por qué sigue ocurriendo, entonces?

Porque los modelos de lenguaje están en una zona intermedia entre la ilusión de comprensión y la realidad de funcionamiento. Pueden hacer cosas extraordinarias: escribir ensayos filosóficos, analizar obras de arte, generar código, crear poesía. Pero no pueden —todavía— decir cuántas palabras tienen sus propios textos con exactitud sin ayuda externa.

Esto nos confronta con una verdad incómoda: una IA que parece más inteligente que vos, puede no saber cuántas palabras acaba de decir. Suena absurdo. Pero es real.

Y plantea una pregunta de fondo: ¿cuáles son las tareas que deberíamos seguir reservando a los humanos, al menos por ahora?

💡 El límite es la validación

En este punto, no se trata de cuestionar la potencia de la IA, sino de reconocer su lógica. La validación externa es el gran límite. Los humanos tenemos la capacidad de comprobar si lo que decimos se ajusta a un hecho. La IA, por ahora, no. Y esa diferencia, aunque parezca menor, tiene consecuencias enormes.

En tiempos donde los textos generados por IA circulan en entornos educativos, jurídicos, editoriales y científicos, esta diferencia puede definir si una afirmación es aceptada, rechazada o manipulada.

Por eso insistimos: usar IA no es solo pedirle cosas. Es saber qué pedirle, cómo hacerlo y qué verificar después. En ese margen se juega el futuro del contenido confiable.

📎 Fuentes utilizadas:

OpenAI Technical Documentation
Anthropic Research Blog
ai Prompt Engineering Course
Interacciones verificadas con Claude, GPT-4 y Gemini (junio 2025)
Experiencias internas de Mundo IA en verificación y edición editorial

La ilusión del conteo: por qué los textos de la IA son más cortos de lo que dicen ser