Los modelos más avanzados del mundo no pueden leer el formato de documento más usado

El formato inmortal que desafía a los modelos más avanzados del mundo

Décadas después de su creación, el PDF sigue siendo el documento universal de la humanidad digital. Los sistemas de lectura automática más sofisticados del planeta trocan con él a diario: lo interpretan mal, lo reconstruyen con errores, o simplemente no pueden acceder a lo que contiene. Esta es la historia de una batalla técnica que nadie esperaba que siguiera sin resolverse en 2026.

Por el equipo editorial | 25 de febrero, 2026

En noviembre de 2025, Luke Igel y un grupo de investigadores independientes abrieron sus computadoras con una tarea aparentemente sencilla: revisar los miles de páginas que el Comité de Supervisión de la Cámara de Representantes de los Estados Unidos había publicado sobre los archivos de Jeffrey Epstein. Los documentos estaban ahí, disponibles, subidos en masa. El problema era que, en la práctica, eran ilegibles. No porque el contenido fuera oscuro o técnico, sino porque el sistema de reconocimiento óptico de caracteres aplicado a esos archivos había fallado de manera tan sistemática que las búsquedas no arrojaban resultados confiables, los hilos de correo aparecían fragmentados, y navegar por el material se convertía en una suerte de arqueología frustrante.

Lo que Igel describió a The Verge como una interfaz "tosca" fue, en realidad, la antesala de un problema mucho mayor. Cuando el Departamento de Justicia de los Estados Unidos comenzó a liberar su propio lote de archivos relacionados, la escala se volvió difícil de ignorar: más de tres millones de documentos en formato PDF, digitalizados pero prácticamente inaccesibles. El reconocimiento de caracteres había sido aplicado, sí, pero con una tasa de error que, multiplicada por millones de páginas, convertía el corpus en una biblioteca donde los lomos de los libros estaban mal rotulados, los índices eran ficticios, y las búsquedas devolvían resultados al azar. Tres millones de archivos públicos, disponibles para quien quisiera consultarlos, encerrados detrás de una capa de texto corrupto.

Esta situación no es una curiosidad gubernamental ni una falla puntual de un organismo con sistemas anticuados. Es, según los especialistas que llevan años estudiando el problema, la expresión más visible de una tensión que recorre todo el ecosistema de procesamiento automático de documentos: la brecha entre lo que los modelos de lenguaje pueden hacer cuando el texto está bien formado, y lo que ocurre cuando ese texto llega empaquetado dentro de un PDF.

Un formato diseñado para los ojos humanos, no para las máquinas

El PDF nació en 1993, de la mano de Adobe, con un propósito preciso: garantizar que un documento se vea exactamente igual sin importar el sistema operativo, la impresora o el dispositivo que lo abra. Esa fidelidad visual fue su virtud fundacional y, con el tiempo, su talón de Aquiles tecnológico. Porque para preservar la apariencia, el formato almacena la posición exacta de cada elemento en la página: coordenadas, fuentes, capas, imágenes. Lo que no necesariamente guarda es el significado estructural de esos elementos. Una tabla, para el ojo humano, es una tabla; para un extractor automático, puede ser una colección de bloques de texto dispersos con coordenadas que se superponen de maneras imprevisibles.

Este detalle, aparentemente técnico, tiene consecuencias prácticas enormes. Cuando un sistema de procesamiento automático intenta leer un PDF, debe reconstruir el orden lógico de la información a partir de datos de posición, inferir qué es un encabezado y qué es un pie de página, distinguir columnas de texto continuo, identificar celdas de una tabla y preservar las relaciones entre ellas. Si el documento fue creado directamente en formato digital, el proceso tiene alguna esperanza de funcionar con razonable precisión. Pero si el PDF es una imagen escaneada de un documento físico, el sistema debe completar un paso previo: convertir esa imagen en texto mediante reconocimiento óptico de caracteres, un proceso que existe desde los años setenta y que, a pesar de décadas de refinamiento, sigue siendo notoriamente frágil.

"Tenemos los datos. Simplemente no podemos acceder a ellos." Frase recurrente entre equipos de análisis documental en empresas y organismos públicos, citada por Doc.AI en diciembre de 2025.

La ironía es difícil de ignorar. Los modelos de lenguaje actuales redactan contratos, explican conceptos científicos complejos, generan código funcional en docenas de lenguajes de programación. Sin embargo, Edwin Chen, director ejecutivo de la empresa de datos Surge, ha señalado que estos mismos sistemas tropiezan con lo que él llama "fallas poco glamorosas": reconstruir el orden correcto de los párrafos en un documento de dos columnas, interpretar una nota al pie que fue escaneada con una leve inclinación, o extraer con fidelidad los números de una tabla financiera donde el escáner originó una mancha. Un modelo puede ser capaz de razonar sobre geopolítica y al mismo tiempo malinterpretar la estructura de una factura.

El problema no es solo de precisión. Es de confianza. En los contextos donde la extracción automática de documentos tiene mayor valor, como análisis legal, investigación periodística, auditoría financiera o cumplimiento regulatorio, un error cometido con tono seguro es más peligroso que la ausencia de respuesta. Una fecha malinterpretada, un número con un dígito cambiado, una cláusula contractual recortada a la mitad: cada uno de estos fallos puede tener consecuencias reales y, en muchos casos, difíciles de detectar.

Modos de falla más frecuentes al procesar PDFs con sistemas automáticos de extracción, según análisis de Pulse Document Intelligence (2025) y evaluaciones internas de modelos de lenguaje de propósito general.

El OCR: el puente más viejo y más roto de la cadena

El reconocimiento óptico de caracteres es el primer eslabón de cualquier flujo de trabajo que necesite convertir un documento físico o una imagen en texto procesable. Si ese eslabón falla, todo lo que venga después, la indexación, la búsqueda, la síntesis automática, el análisis semántico, se construye sobre una base inestable. Y el OCR falla con una frecuencia que los grandes anuncios del sector tecnológico tienden a minimizar.

Las evaluaciones internas de la plataforma Pulse Document Intelligence, publicadas en 2025 y citadas en LinkedIn por el analista Sid Manchkanti, muestran que los modelos de lenguaje de propósito general presentan tres modos de falla consistentes al enfrentarse a documentos de alta complejidad: sustituyen o alucinan caracteres en posiciones críticas, como decimales en cifras financieras o abreviaturas en terminología legal; pierden la estructura bidimensional de las tablas, fusionando filas o separando valores de sus encabezados; y asocian mal los pares clave-valor en formularios, atribuyendo datos a campos incorrectos. Ninguno de estos errores es catastrófico en un documento simple. Todos se vuelven problemáticos a escala.

⚠️ Modos de falla documentados en sistemas automáticos de extracción

Alucinación de caracteres: El sistema sustituye letras o dígitos por valores plausibles pero incorrectos. Un "8" se convierte en "B", una fecha pierde un año, un número decimal pierde su coma. En documentos legales o financieros, cada uno de estos errores puede alterar el sentido de una cláusula o el valor de una transacción.

Colapso de tablas: Las relaciones bidimensionales entre filas y columnas se aplanan en texto lineal. Los encabezados se separan de los datos que describen. Las celdas fusionadas generan contenido fantasma o vacíos inesperados.

Inversión del orden de lectura: En documentos con múltiples columnas, notas marginales o diseños complejos, el sistema puede reconstruir el texto en un orden que no respeta el flujo narrativo del original.

Ignorancia de capas no textuales: Firmas digitalizadas, sellos, marcas de agua o formularios con casillas de verificación pueden tapar texto subyacente o ser ignorados completamente, generando lagunas invisibles en la extracción.

La plataforma Intuition Labs publicó en enero de 2026 un análisis comparativo de los principales modelos de reconocimiento óptico disponibles, tanto de código abierto como comerciales, entre ellos Mistral OCR, GPT-4o y los servicios en la nube de Google y Amazon. La conclusión general fue inequívoca: ningún sistema alcanza una fiabilidad uniforme en todos los tipos de documentos. Los modelos con mejor desempeño en texto impreso de calidad deterioran su precisión de manera marcada frente a documentos manuscritos, idiomas con alfabetos no latinos, o archivos escaneados a resolución inferior a los 300 ppp. La varianza no es marginal: en algunas categorías, la tasa de error supera el 20%.

The Verge recogió en su cobertura de febrero de 2026 el testimonio de quienes intentaron navegar los archivos del Departamento de Justicia: la experiencia era similar a intentar clasificar una biblioteca donde muchos lomos tienen el título mal impreso. Tenías el archivo, pero no la llave para abrirlo de manera útil.

        El costo invisible del procesamiento defectuoso: Según estimaciones del sector de automatización documental, el error de OCR en entornos empresariales no solo genera retrabajos: también produce decisiones incorrectas que no se detectan hasta meses después. En auditorías legales, una tasa de error del 1% sobre un millón de páginas equivale a diez mil fragmentos de información incorrecta circulando como válidos dentro del sistema.
    

De archivos a conocimiento: el horizonte que todavía no llegó

Lo que la historia del Comité de Supervisión y el Departamento de Justicia ilumina con particular crudeza es la diferencia entre tener datos y poder usar esos datos. Luke Igel, según reportó The Verge, imaginaba una herramienta capaz de funcionar como una suerte de Gmail para los archivos de Epstein: hilos organizados, remitentes identificados, fechas normalizadas, búsquedas que devolvieran resultados consistentes. Una interfaz que convirtiera el volcado masivo de documentos en una base de conocimiento consultable. Esa herramienta no existía. Y su ausencia no era una falla de ambición, sino de infraestructura.

Porque el salto de "archivo PDF" a "conocimiento estructurado" no es un paso, sino una cadena de transformaciones. El texto debe ser extraído con fidelidad; luego, su estructura debe ser reconstruida con exactitud; a continuación, las entidades relevantes, personas, fechas, lugares, montos, deben ser identificadas y normalizadas; finalmente, esas entidades deben ser relacionadas entre sí de manera que permitan responder preguntas que no estaban formuladas en el documento original. Cada uno de esos pasos introduce posibilidades de error que se acumulan. Si el OCR falla en el primero, todo el edificio se tambalea.

Los investigadores del campo de la recuperación de información han comenzado a cuantificar ese efecto en cascada. Un estudio publicado en ScienceDirect en 2025 analizó el impacto de la calidad del reconocimiento óptico sobre los componentes de los sistemas RAG (generación aumentada por recuperación), la arquitectura que permite a los modelos de lenguaje consultar bases de documentos externas antes de responder. Los resultados confirmaron lo que muchos sospechaban: la degradación del OCR en el punto de entrada se amplifica progresivamente a lo largo del pipeline, de modo que incluso errores menores en la extracción inicial generan distorsiones significativas en la respuesta final del modelo.

✅ Condiciones para que la extracción automática funcione con fiabilidad

Calidad del documento de origen: Documentos escaneados a resolución mínima de 300 ppp, sin manchas, con texto horizontal y tipografía estándar presentan tasas de error marcadamente menores que archivos con cualquiera de estas condiciones degradada.

Homogeneidad del corpus: Conjuntos de documentos del mismo tipo, como facturas de un mismo proveedor o contratos bajo una misma plantilla, se procesan con mayor fiabilidad que colecciones heterogéneas con múltiples formatos y estructuras variables.

Supervisión humana en el ciclo: Los flujos de trabajo que incorporan verificación humana en los casos de baja confianza del sistema alcanzan precisiones útiles para uso empresarial. Los que eliminan completamente la intervención humana en aras de la automatización total presentan tasas de error inaceptables en contextos de alta exigencia.

La respuesta práctica del sector no ha sido esperar a que los modelos mejoren hasta alcanzar una fiabilidad completa, sino construir flujos de trabajo híbridos que reconocen la automatización como una aceleración del proceso humano, no como su reemplazo. The Meridiem, medio especializado en tecnología empresarial, lo formuló en términos directos tras el caso del Departamento de Justicia: la automatización parcial con verificación humana es lo que está disponible ahora. La automatización total todavía no lo está. Quien compre una solución de procesamiento documental creyendo que elimina por completo la participación humana está comprando algo que, en entornos de alta exigencia, no existe.

Esta conclusión, que podría sonar a derrota, es en realidad una calibración necesaria. El sector de la atención al cliente atravesó un ciclo similar: la promesa de que los chatbots automatizarían completamente el soporte fue seguida por el descubrimiento de que los modelos híbridos, donde la máquina resuelve los casos simples y eleva los complejos a un operador humano, funcionan mejor que cualquiera de los dos extremos por separado. En el procesamiento documental se repite el patrón: la ventaja competitiva no está en el modelo de lenguaje más avanzado, sino en la capacidad de manejar los casos donde la entrada está degradada, donde la confianza del sistema es baja, donde el diseño del documento rompe las suposiciones del extractor.

📊 El problema en cifras

Más de 3 millones de archivos PDF liberados por el Departamento de Justicia de los Estados Unidos en 2025 permanecen prácticamente inaccesibles debido a fallas en el reconocimiento óptico aplicado durante su digitalización.

80-85% es la tasa de éxito estimada del OCR convencional cuando se aplica a escala sobre documentos de calidad variable, lo que implica que entre 150.000 y 600.000 páginas por cada millón pueden contener errores no detectados.

Más de 200 millones de páginas fueron procesadas por la plataforma Pulse Document Intelligence en los 60 días previos a su informe de abril de 2025, con proyecciones de superar los 1.000 millones a fin de año, en un contexto donde el volumen de datos no estructurados sigue duplicándose año a año.

GPT-4V, Claude y modelos similares presentan costos de procesamiento que se disparan con documentos de alta densidad visual: una página con gráficos o diseño complejo puede consumir más de 3.000 tokens, lo que hace que documentos de 90 páginas agoten incluso las ventanas de contexto más amplias disponibles comercialmente.

La pregunta que el sector no termina de responder con satisfacción es cuándo el punto de inflexión se alcanzará: cuándo el reconocimiento automático de documentos será lo suficientemente fiable como para que la verificación humana sea la excepción y no la regla. Los analistas más optimistas mencionan modelos multimodales de próxima generación, entrenados específicamente en la comprensión de estructuras documentales complejas, capaces de inferir la lógica de una tabla no por la posición de sus coordenadas sino por el significado de su contenido. Los más cautelosos recuerdan que el OCR existe desde los años setenta, y que cada generación tecnológica ha prometido resolver el problema definitivamente sin lograrlo del todo.

Lo que sí está cambiando es la escala del problema y, con ella, la urgencia de resolverlo. Pulse procesó más de 200 millones de páginas en 60 días durante 2025 y proyectaba superar los mil millones antes de fin de año. Ese volumen hace que incluso tasas de error modestas representen cantidades enormes de información incorrecta circulando por los sistemas de quienes toman decisiones. Organizaciones legales, fondos de inversión, agencias regulatorias, redacciones periodísticas: todos dependen, en mayor o menor medida, de que los documentos que ingestan sean lo que parecen ser.

El PDF, ese formato concebido para preservar la apariencia visual de los documentos humanos, se ha convertido así en el obstáculo más mundano y más persistente en el camino hacia la promesa de la automatización inteligente. No es un adversario dramático. No tiene nombre de código ni aparece en los titulares de las conferencias de tecnología. Es, simplemente, el formato más común del mundo, diseñado con lógica impecable para un propósito, y empleado masivamente para otro. Resolver esa disonancia, convertir archivos en conocimiento confiable, es el desafío técnico más prosaico y más urgente que el ecosistema de procesamiento automático enfrenta hoy.

Referencias

The Meridiem. "AI Hits a Wall: Why Millions of PDFs Remain Unsearchable." 22 de febrero de 2026.

Manchkanti, Sid. "The State of Document Parsing in 2025." LinkedIn Pulse, 30 de abril de 2025.

Intuition Labs. "Comparative Analysis of AI OCR Models for PDF to Structured Text." Enero de 2026. Incluye evaluación de Mistral OCR, GPT-4o y servicios en la nube de Google y Amazon.

ScienceDirect. "Defining the problem: The impact of OCR quality on retrieval-augmented generation components." 2025. DOI: 10.1016/j.ipm.2025.103097.

Evolution AI. "What are the Limitations of Deploying Generative AI to Read PDFs?" Febrero de 2024.

Cradl AI. "Using LLMs for OCR and PDF Parsing." 22 de febrero de 2026.

Doc.AI. "We have the data. We just can't get to the data." LinkedIn, diciembre de 2025.

Anthropic / Datastudios.org. "How Claude Reads PDF Files in 2025: Workflow, Capabilities, and Limitations." Junio de 2025.

Foxit. "How Enterprise Teams Extract PDF Data with AI at Scale." Julio de 2025.

Los modelos más avanzados del mundo no pueden leer el formato de documento más usado