Google descubre IA que transcribe y razona como humanos

Google resuelve un enigma histórico: la IA que descifra manuscritos y razona como humanos

Un misterioso nuevo modelo de Gemini en pruebas muestra capacidades de razonamiento abstracto espontáneo mientras alcanza precisión de nivel humano experto en la transcripción de documentos históricos handwritten.

Por el Equipo Editorial | 12 de noviembre, 2025

Google está probando en secreto lo que podría ser su avance más significativo en inteligencia artificial: un modelo que no solo transcribe escritura histórica con precisión de experto humano, sino que demuestra espontáneamente capacidades de razonamiento abstracto y simbólico. El hallazgo, descubierto durante pruebas A/B en AI Studio, sugiere que la compañía podría haber resuelto simultáneamente dos de los problemas más antiguos de la IA: el reconocimiento de escritura a mano y el razonamiento simbólico genuino.

El modelo, que los usuarios especulan podría ser Gemini 3, ha mostrado capacidades extraordinarias que incluyen programar clones completamente funcionales de Windows y macOS, software de diseño 3D, emuladores de Nintendo y suites de productividad completas a partir de prompts simples. Sin embargo, lo más impactante emerge cuando se enfrenta a documentos históricos handwritten, donde combina precisión visual con razonamiento contextual profundo.

Las implicaciones trascienden la mera transcripción automática. Según Mark Humphries, el historiador que documentó el descubrimiento, "estamos en la cúspide de una era en la que los modelos de IA no solo leerán documentos históricos difíciles tan bien como los humanos expertos, sino que también los analizarán de manera profunda y matizada".

El desafío histórico de la escritura manuscrita

La transcripción de documentos históricos representa uno de los desafíos más complejos para la inteligencia artificial. No se trata simplemente de reconocer caracteres, sino de comprender contextos históricos, sistemas de medición obsoletos, ortografías no estandarizadas y convenciones culturales perdidas en el tiempo.

Lo que hace excepcionalmente difícil esta tarea para los LLMs es su naturaleza predictiva. Los modelos están entrenados para elegir la forma más probable de completar una secuencia, pero los errores ortográficos, estilos inconsistentes y nombres poco comunes son, por definición, respuestas de baja probabilidad. Desde una perspectiva estadística, elementos como nombres de personas, lugares oscuros o cantidades monetarias aparecen como elecciones arbitrarias sin diferencias significativas en sus probabilidades.

La evolución hacia la precisión humana

GPT-4 (2023): Primer modelo visionario, sentó las bases pero con limitaciones significativas

Gemini 1.5-Pro: Mejora del 50-70% sobre GPT-4 en reconocimiento de escritura

Gemini 2.5-Pro: CER 4% y WER 11% - entra en rango humano experto

Nuevo modelo Gemini: CER 1.7% y WER 6.5% - supera a profesionales humanos

Error modificado (excluyendo puntuación): CER 0.56% y WER 1.22% - precisión sin precedentes

El caso del libro de contabilidad de Albany

La verdadera revelación llegó cuando el modelo se enfrentó a una página de 1758 de un libro de contabilidad de un comerciante de Albany. El documento, escrito en inglés por un clerk holandés, mezclaba ambos idiomas y utilizaba sistemas de medición arcaicos como libras, chelines y peniques pre-decimalizados.

En una entrada particularmente críptica que describía la compra de "1 loff Sugar 145 @ 1/4 0 19 1", el modelo no solo transcribió correctamente, sino que infirió que "145" representaba "14 lb 5 oz" a través de un proceso de razonamiento multi-etapa que implicaba conversiones entre sistemas de medición históricos. Este cálculo requirió entender que el azúcar costaba 1 chelín y 4 peniques por unidad, convertir el costo total a peniques (229), dividir por el precio unitario (16 peniques) y llegar a 14.3125 unidades, luego expresado como 14 libras y 5 onzas.

Este es exactamente el tipo de problema lógico en el que los LLMs suelen fallar: primero está la ambigüedad en la escritura misma y en la forma del texto, luego el doble significado de la palabra 'libras', y finalmente la necesidad de convertir entre no uno sino dos sistemas de medición no decimalizados. Y nadie le pidió a Gemini que hiciera esto. Tomó la iniciativa de investigar y aclarar el significado del número ambiguo por sí solo. Y estaba en lo correcto. Mark Humphries, historiador e investigador del proyecto

El amanecer del razonamiento emergente

Lo que hace excepcional este comportamiento es que parece cruzar un límite que muchos expertos consideraban infranqueable para los modelos actuales. El modelo Gemini no está realizando razonamiento simbólico en el sentido tradicional -no está manipulando reglas explícitas o proposiciones lógicas como lo haría un sistema de IA clásico- pero su comportamiento refleja ese resultado.

El modelo demostró una forma de razonamiento emergente implícito, la combinación espontánea de percepción, memoria y lógica dentro de un modelo estadístico. Como señala Humphries, "frente a un número ambiguo, infirió contexto faltante, realizó un conjunto de conversiones multi-etapa entre sistemas históricos de moneda y peso, y llegó a una conclusión correcta que requería razonamiento abstracto sobre el mundo que describía el documento".

Evolución de la precisión en reconocimiento de escritura histórica (CER - Error de Carácter)

Para los historiadores, las implicaciones son inmediatas y profundas. Un modelo que puede inferir el significado de "145" como "14 lb 5 oz" en un libro de contabilidad del siglo XVIII no solo realiza reconocimiento de texto: demuestra comprensión de los sistemas económicos y culturales en los que se produjeron esos registros.

Esta capacidad trasciende la historia. Cualquier campo que requiera precisión visual y razonamiento especializado trabajando en conjunto -desde el diagnóstico médico hasta el análisis legal- podría experimentar saltos similares en capacidades de IA. El reconocimiento de escritura a mano resulta ser un proxy ideal para evaluar capacidades de razonamiento más generales.

El contexto técnico: Google Document AI

Google cuenta con Document AI, una plataforma que aprovecha 25 años de investigación en OCR para extraer texto de documentos escaneados en más de 200 idiomas

La tecnología incluye reconocimiento de escritura a mano en 50 idiomas, detección de fórmulas matemáticas y extracción de marcas de selección como casillas de verificación

Document AI Workbench permite crear procesadores personalizados usando IA generativa sin necesidad de entrenamiento inicial

La integración con BigQuery permite análisis avanzado de documentos históricos a escala

El desempeño del nuevo modelo Gemini sugiere que la reconocimiento de escritura a mano casi perfecto se logra mejor mediante el enfoque generalista de los LLMs que mediante modelos especializados. Más significativamente, la capacidad del modelo para hacer inferencias correctas basadas en el contexto que requieren múltiples capas de razonamiento simbólico sugiere que algo nuevo puede estar ocurriendo dentro de estos sistemas.

Si este comportamiento resulta confiable y replicable, apunta a algo profundo que los laboratorios también están comenzando a admitir: que el razonamiento verdadero puede no requerir reglas explícitas o andamiaje simbólico para surgir, sino que puede emerger de la escala, multimodalidad y exposición a suficiente complejidad estructurada.

Lo que comenzó con una prueba sobre la legibilidad de documentos antiguos ahora puede estar revelando, por accidente, los inicios de máquinas que realmente pueden razonar de manera abstracta y simbólica sobre el mundo que ven. La línea entre reconocimiento de patrones y comprensión genuina comienza a difuminarse.

A pesar del entusiasmo, los investigadores advierten que se necesitan pruebas más sistemáticas. El acceso al modelo sigue siendo limitado a través de pruebas A/B esporádicas en AI Studio, y reproducir los resultados ha demostrado ser desafiante debido a restricciones de tasa y disponibilidad.

Google ha mantenido un perfil notablemente bajo en relación con estas capacidades emergentes, posiblemente reconociendo tanto el potencial transformador como las implicaciones éticas de sistemas que pueden igualar, y potencialmente superar, el razonamiento humano experto en dominios especializados.

El descubrimiento del nuevo modelo Gemini representa lo que podría ser un punto de inflexión fundamental en inteligencia artificial. No se trata simplemente de una mejora incremental en el rendimiento, sino de una demostración cualitativamente nueva de capacidades que muchos creían reservadas para sistemas de IA futuros.

Como reflexiona Humphries, "incluso hace unos meses, pensaba que este nivel de capacidad estaba a años de distancia". El hecho de que haya emergido de pruebas destinadas a mejorar la transcripción de documentos históricos sugiere que los avances más significativos en IA pueden llegar no a través de la búsqueda directa, sino como subproducto de resolver problemas aparentemente limitados que resultan contener las semillas de capacidades mucho más generales.

La próxima generación de modelos de IA parece preparada no solo para ver y predecir, sino para comprender y razonar sobre el mundo de maneras que comienzan a igualar -y en algunos aspectos superar- las capacidades humanas expertas. El reconocimiento de escritura a mano, uno de los problemas más antiguos de la IA, puede haber sido la puerta de entrada a uno de sus avances más significativos.

Referencias

Humphries, M. (2025). "Has Google Quietly Solved Two of AI's Oldest Problems?". Generative History.

Google AI (2025). "Document AI: Enterprise OCR and Handwriting Recognition". Google Cloud.

Waters, J.K. (2025). "Google Releases Advanced AI Model for Complex Reasoning Tasks". Campus Technology.

The Guardian (2025). "Google DeepMind claims 'historic' AI breakthrough in problem-solving".

Google Research (2022). "Language Models Perform Reasoning via Chain of Thought".

Google descubre IA que transcribe y razona como humanos