NEWSLETTER

Fei-Fei Li desafía los límites del lenguaje con mundos generados por inteligencia

030ce3f9-5dd9-45dd-8b36-8cb3bad7fd78

Fei-Fei Li desafía los límites del lenguaje con mundos generados por inteligencia

Del texto a los mundos: la inteligencia espacial como próxima frontera
Fei-Fei Li, arquitecta del renacimiento del aprendizaje profundo con ImageNet, publicó un manifiesto declarando que el lenguaje ya no basta. Los modelos actuales son elocuentes pero ciegos al mundo físico, incapaces de estimar distancias, rotar objetos mentalmente o predecir física básica. Su respuesta: modelos de mundo con inteligencia espacial, sistemas que generan entornos tridimensionales consistentes, procesan múltiples modalidades y predicen estados futuros basándose en acciones. World Labs, la startup que cofundó y que alcanzó valuación unicornio en cuatro meses con financiamiento de 230 millones de dólares, acaba de revelar Marble, el primer sistema capaz de crear mundos explorables a partir de imágenes individuales. Esta no es iteración incremental sobre tecnología existente. Es un argumento para repensar fundamentalmente qué constituye inteligencia artificial, trasladando el foco de la competencia lingüística hacia la comprensión visceral del espacio, el tiempo y la causalidad física.

En 1950, cuando la computación apenas superaba la aritmética automatizada, Alan Turing planteó una pregunta que todavía resuena: ¿pueden pensar las máquinas? Requería imaginación extraordinaria visualizar lo que él vislumbraba: que la inteligencia podría construirse en lugar de nacer. Ese insight lanzó la búsqueda científica llamada inteligencia artificial. Ahora, 25 años después de que Fei-Fei Li comenzara su carrera investigando visión por computadora, una de las figuras más influyentes del campo declara que hemos llegado al límite de lo que el lenguaje puede enseñar a las máquinas.

Los grandes modelos de lenguaje transformaron cómo accedemos y trabajamos con conocimiento abstracto. Pero permanecen como escritores en la oscuridad: elocuentes pero sin experiencia, conocedores pero desanclados de realidad física. Pueden generar prosa impecable, explicar física cuántica y producir código funcional. Sin embargo, pregúntales qué tan lejos están dos objetos en una fotografía y fallarán estrepitosamente. Pídeles que roten mentalmente un cubo y se desmoronan. Muéstrales un video corto y perderán coherencia en segundos.

Esta brecha no es defecto técnico superficial sino limitación arquitectónica fundamental. Li argumenta que la próxima revolución no vendrá de modelos más grandes entrenados con más texto, sino de sistemas capaces de comprender el mundo como lo hacemos nosotros: espacialmente, en tres dimensiones, con física que gobierna cada interacción. La inteligencia espacial representa la frontera más allá del lenguaje, la capacidad que vincula imaginación, percepción y acción.

Por qué el lenguaje no es suficiente

La capacidad nunca ha sido más emocionante que ahora. Los modelos generativos pasaron de laboratorios a la vida cotidiana, convirtiéndose en herramientas de creatividad y productividad para miles de millones. Demostraron capacidades antes consideradas imposibles: texto coherente, montañas de código, imágenes fotorrealistas, clips de video cortos. Ya no es cuestión de si estas tecnologías cambiarán el mundo. Por cualquier definición razonable, ya lo hicieron.

Sin embargo, mucho permanece fuera de alcance. La visión de robots autónomos sigue siendo intrigante pero especulativa, lejos de los dispositivos cotidianos que futuristas prometieron durante décadas. El sueño de investigación masivamente acelerada en campos como cura de enfermedades, descubrimiento de nuevos materiales y física de partículas permanece mayormente incumplido. La promesa de sistemas que verdaderamente comprenden y empoderan creadores humanos, ya sean estudiantes aprendiendo química molecular, arquitectos visualizando espacios o cineastas construyendo mundos, permanece inalcanzable.

Las limitaciones espaciales expuestas

Los modelos multimodales actuales, entrenados con volúmenes masivos de datos multimedia además de texto, introdujeron nociones básicas de conciencia espacial. Pueden analizar imágenes, responder preguntas sobre ellas y generar visualizaciones hiperrealistas. A través de avances en sensores y háptica, los robots más sofisticados pueden comenzar a manipular objetos en entornos altamente restringidos.

Pero la verdad contundente es que las capacidades espaciales permanecen dramáticamente lejos del nivel humano. Los límites se revelan rápidamente. Los modelos de última generación raramente superan el azar al estimar distancia, orientación y tamaño. No pueden rotar objetos mentalmente regenerándolos desde nuevos ángulos. No navegan laberintos, reconocen atajos ni predicen física básica. Los videos generados, incipientes y sí, impresionantes, frecuentemente pierden coherencia después de segundos.

Mientras las máquinas actuales sobresalen en lectura, escritura, investigación y reconocimiento de patrones en datos, estos mismos modelos enfrentan limitaciones fundamentales al representar o interactuar con el mundo físico. Nuestra visión del mundo es holística: no solo lo que miramos, sino cómo todo se relaciona espacialmente, qué significa y por qué importa.

Para entender por qué estas capacidades permanecen elusivas, necesitamos examinar cómo evolucionó la inteligencia espacial y cómo moldea nuestra comprensión del mundo. Mucho antes de que los animales pudieran anidar, cuidar crías, comunicarse con lenguaje o construir civilizaciones, el acto simple de percibir desencadenó silenciosamente un viaje evolutivo hacia la inteligencia. Esta habilidad aparentemente aislada de recopilar información del mundo externo creó un puente entre percepción y supervivencia que solo creció más fuerte conforme pasaron generaciones.

Capa sobre capa de neuronas surgieron de ese puente, formando sistemas nerviosos que interpretan el mundo y coordinan interacciones entre organismo y entorno. Muchos científicos conjeturaron que percepción y acción se convirtieron en el bucle central que impulsó la evolución de la inteligencia, la base sobre la cual la naturaleza creó nuestra especie: la máxima encarnación de percibir, aprender, pensar y hacer.

Inteligencia espacial como andamiaje de la cognición

Cada día dependemos de inteligencia espacial para los actos más ordinarios: estacionar imaginando la brecha menguante entre parachoques y bordillo, atrapar llaves lanzadas atravesando la habitación, navegar aceras concurridas sin colisión, verter café somnolientos en una taza sin mirar. En circunstancias extremas, bomberos navegan edificios colapsando a través de humo cambiante, emitiendo juicios instantáneos sobre estabilidad y supervivencia, comunicándose mediante gestos y lenguaje corporal, instinto profesional compartido para el cual no existe sustituto lingüístico.

Los niños pasan la totalidad de sus meses o años preverbales aprendiendo el mundo mediante interacciones lúdicas con sus entornos. Todo esto sucede intuitivamente, automáticamente: una fluidez que las máquinas todavía no logran. La inteligencia espacial también es fundamental para imaginación y creatividad. Narradores crean mundos únicamente ricos en sus mentes y aprovechan múltiples formas de medios visuales para traerlos a otros, desde pintura rupestre antigua hasta cine moderno y videojuegos inmersivos.

La historia está llena de momentos definitorios de civilización donde la inteligencia espacial jugó roles centrales. En la antigua Grecia, Eratóstenes transformó sombras en geometría para calcular la circunferencia terrestre. Watson y Crick descubrieron la estructura del ADN construyendo físicamente modelos moleculares tridimensionales. En cada caso, la inteligencia espacial impulsó la civilización cuando científicos e inventores tuvieron que manipular objetos, visualizar estructuras y razonar sobre espacios físicos, ninguno de los cuales puede capturarse solo en texto. Sobre momentos históricos impulsados por razonamiento espacial

Desafortunadamente, las máquinas actuales todavía no piensan así. Progreso tremendo ciertamente se logró en años recientes. Sin embargo, los sistemas contemporáneos sufren limitaciones reveladoras. El filósofo Wittgenstein escribió que "los límites de mi lenguaje significan los límites de mi mundo". Para estas máquinas existe más que solo palabras. La inteligencia espacial representa la frontera más allá del lenguaje, la capacidad que vincula imaginación, percepción y acción, abriendo posibilidades para que las tecnologías verdaderamente mejoren la vida humana, desde cuidado de salud hasta creatividad, desde descubrimiento científico hasta asistencia cotidiana.

Construyendo modelos de mundo

Entonces, ¿cómo construir máquinas espacialmente inteligentes? ¿Cuál es el camino hacia modelos capaces de razonar con la visión de Eratóstenes, ingeniar con la precisión de un diseñador industrial, crear con la imaginación de un narrador e interactuar con su entorno con la fluidez de un respondedor de emergencias?

Construir sistemas espacialmente inteligentes requiere algo aún más ambicioso que los grandes modelos de lenguaje: modelos de mundo, un nuevo tipo de arquitectura generativa cuyas capacidades de comprensión, razonamiento, generación e interacción con mundos semántica, física, geométrica y dinámicamente complejos, virtuales o reales, están muy más allá del alcance de los modelos lingüísticos actuales. El campo es incipiente, con métodos actuales que van desde sistemas abstractos de razonamiento hasta generadores de video.

World Labs se fundó a principios de 2024 basándose en esta convicción: que los enfoques fundacionales todavía se están estableciendo, haciendo de esto el desafío definitorio de la próxima década. En este campo emergente, lo que más importa es establecer los principios que guían el desarrollo. Para inteligencia espacial, Li define modelos de mundo mediante tres capacidades esenciales.

Las tres capacidades esenciales de los modelos de mundo

Generativo: consistencia física y geométrica. Los modelos de mundo deben generar entornos simulados infinitamente variados siguiendo instrucciones semánticas o perceptuales, permaneciendo geométrica, física y dinámicamente consistentes, representando espacios reales o virtuales. La comprensión del presente debe vincularse coherentemente con el pasado, con estados previos que condujeron al actual.

Multimodal: procesamiento diverso por diseño. Así como animales y humanos, un modelo de mundo debe procesar entradas en amplio rango de formas. Dada información parcial, ya sean imágenes, videos, mapas de profundidad, instrucciones textuales, gestos o acciones, debe predecir o generar estados mundiales tan completos como sea posible. Esto permite que tanto agentes como humanos se comuniquen sobre el mundo mediante entradas diversas.

Interactivo: predicción de estados siguientes. Si acciones o metas forman parte de la entrada, las salidas deben incluir el siguiente estado del mundo. Cuando se proporciona solo una acción con o sin estado meta, el modelo debe producir salida consistente con el estado previo, el estado meta pretendido si existe, significados semánticos, leyes físicas y comportamientos dinámicos.

El alcance de este desafío excede cualquier cosa que estas tecnologías hayan enfrentado antes. Mientras el lenguaje es fenómeno puramente generativo de cognición humana, los mundos juegan según reglas mucho más complejas. Aquí en la Tierra, la gravedad gobierna movimiento, las estructuras atómicas determinan cómo la luz produce colores y brillo, innumerables leyes físicas restringen cada interacción. Incluso los mundos más fantasiosos están compuestos de objetos espaciales y agentes que obedecen las leyes físicas y comportamientos dinámicos que los definen.

Reconciliar todo esto consistentemente, lo semántico, lo geométrico, lo dinámico y lo físico, demanda enfoques completamente nuevos. La dimensionalidad de representar un mundo es vastamente más compleja que la de una señal unidimensional secuencial como el lenguaje. Lograr modelos de mundo que entreguen las capacidades universales que disfrutamos como humanos requerirá superar varias barreras técnicas formidables.

Desafíos técnicos centrales en World Labs: Definir una función de tarea universal tan simple y elegante como la predicción del siguiente token en modelos lingüísticos ha sido objetivo central de la investigación en modelos de mundo. Las complejidades de sus espacios de entrada y salida hacen inherentemente más difícil formular tal función. Pero aunque mucho permanece por explorar, esta función objetivo y representaciones correspondientes deben reflejar las leyes de geometría y física, honrando la naturaleza fundamental de los modelos de mundo como representaciones fundamentadas tanto de imaginación como de realidad.

Marble: el primer paso hacia mundos generados

Esta investigación no es ejercicio teórico. Es el motor central para una nueva clase de herramientas creativas y de productividad. El progreso dentro de World Labs ha sido alentador. Recientemente compartieron con número limitado de usuarios un vistazo de Marble, el primer modelo de mundo que puede ser impulsado por entradas multimodales para generar y mantener entornos tridimensionales consistentes que usuarios y narradores pueden explorar, con los cuales interactuar y sobre los cuales construir en su flujo de trabajo creativo.

Lo que distingue a Marble es que toma una imagen individual e "imagina" las partes fuera del marco. Usuarios con acceso temprano probaron el modelo proporcionando imágenes de espacios de oficina moderna. El sistema no solo renderizó la escena visible sino que generó mesas y salas de conferencias más allá de la imagen original. Esto se vincula al elemento de "modelo de mundo" que World Labs promete.

El modelo probablemente crea representación latente de objetos desde la imagen, luego expande los alrededores basándose en la distribución de datos con los que fue entrenado, generando la escena tridimensional completa. El modelo actual de World Labs está diseñado para crear entornos tridimensionales completos en lugar de enfocarse en objetos aislados. Sin embargo, Marble permanece limitado al generar ambientes exteriores.

Aplicaciones emergentes de inteligencia espacial

Creatividad: superpotenciando narrativas inmersivas. La plataforma Marble de World Labs pondrá capacidades espaciales sin precedentes en manos de cineastas, diseñadores de juegos, arquitectos y narradores de todo tipo, permitiéndoles crear e iterar rápidamente sobre mundos tridimensionales completamente explorables sin la sobrecarga del software convencional de diseño tridimensional. El acto creativo permanece tan vital y humano como siempre; las herramientas simplemente amplifican lo que los creadores pueden lograr.

Robótica: inteligencia encarnada en acción. Los animales, desde insectos hasta humanos, dependen de inteligencia espacial para comprender, navegar e interactuar con sus mundos. Los robots no serán diferentes. El progreso del aprendizaje robótico depende de solución escalable de datos de entrenamiento viables. Los modelos de mundo jugarán rol definitorio aquí. Conforme aumenten su fidelidad perceptual y eficiencia computacional, las salidas de modelos de mundo pueden cerrar rápidamente la brecha entre simulación y realidad.

Ciencia y medicina: el horizonte más largo. En investigación científica, sistemas espacialmente inteligentes pueden simular experimentos, probar hipótesis en paralelo y explorar ambientes inaccesibles para humanos, desde océanos profundos hasta planetas distantes. En salud, la inteligencia espacial reformará todo desde laboratorio hasta cabecera. Puede acelerar descubrimiento de fármacos modelando interacciones moleculares en múltiples dimensiones, mejorar diagnósticos ayudando a radiólogos a detectar patrones en imágenes médicas y habilitar sistemas de monitoreo ambiental que apoyan pacientes sin reemplazar la conexión humana que la curación requiere.

Para aprovechar óptimamente el modelo, es necesario comprender con qué tipo de datos fue entrenado. Por ejemplo, el modelo funcionó bien generando oficinas desde imágenes arquitectónicas. Pero cuando se le proporcionó la ilustración de una taberna fantástica, la escena generada fue granulada y defectuosa, posiblemente porque el estilo de ilustración no estaba alineado con el tipo de datos con los que fue entrenado. Marble tiende a desempeñarse mejor cuando se le proporciona una imagen fija tridimensional, posiblemente porque fue entrenado con muchas renderizaciones tridimensionales. Además, mientras más te alejas de la imagen original, menos detallados se vuelven los objetos.

La arquitecta detrás de la revolución

Fei-Fei Li ya ganó su lugar en la historia de estas tecnologías. Jugó papel fundamental en la revolución del aprendizaje profundo al trabajar años para crear el conjunto de datos ImageNet y la competición asociada, que desafiaba sistemas a reconocer objetos y animales a través de mil categorías. En 2012, una red neuronal llamada AlexNet envió ondas de choque a través de la comunidad investigadora cuando superó resonantemente todos los otros tipos de modelos y ganó el concurso ImageNet.

En 2006, Li, profesora recién nombrada en la Universidad de Illinois, vio a sus colegas martillando el mismo concepto: un mejor algoritmo tomaría mejores decisiones, independientemente de los datos. Pero ella se dio cuenta de una limitación a este enfoque: el mejor algoritmo no funcionaría bien si los datos de los que aprendía no reflejaban el mundo real. Su solución: construir un mejor conjunto de datos. "Decidimos que queríamos hacer algo completamente sin precedentes históricamente. Vamos a mapear el mundo entero de objetos".

Evolución del error en ImageNet Challenge desde 2010 hasta 2017, mostrando el impacto dramático de AlexNet en 2012 y la eventual superación de precisión humana.

Desde ahí, las redes neuronales despegaron, impulsadas por vastas cantidades de datos de entrenamiento gratuitos disponibles en internet y GPUs que entregan poder computacional sin precedentes. En los 13 años desde ImageNet, investigadores de visión por computadora dominaron el reconocimiento de objetos y avanzaron hacia generación de imágenes y videos. Li cofundó el Instituto de Stanford para Inteligencia Artificial Centrada en Humanos y continuó empujando los límites de la visión por computadora.

Su startup actual, World Labs, está dando a las máquinas inteligencia espacial tridimensional. La motivación de Li siempre ha sido clara: estas tecnologías deben aumentar capacidad humana, no reemplazarla. Durante años trabajó para alinear desarrollo, despliegue y gobernanza con necesidades humanas. Las narrativas extremas de tecno-utopía y apocalipsis son abundantes estos días, pero ella continúa sosteniendo visión más pragmática: desarrolladas por personas, usadas por personas y gobernadas por personas. Deben respetar siempre la agencia y dignidad de las personas.

El futuro de mundos generados

Más allá de aplicaciones creativas, esta tecnología tiene implicaciones significativas para entrenar agentes encarnados. Al crear gemelos digitales realistas y diversos del mundo real, desarrolladores pueden entrenar y validar modelos de robótica y vehículos autónomos en simulación. El futuro de sistemas encarnados probablemente dependerá de combinación de ambos enfoques: modelos generativos como Marble crearán mundos virtuales vastos y complejos para entrenar agentes equipados con modelos de mundo predictivos eficientes.

El campo reconoce dos conceptos distintos de "modelo de mundo". El primero, representado por sistemas como Marble de World Labs y Genie 3 de DeepMind, se refiere a modelo generativo que puede crear y simular ambiente externo. Estos modelos están diseñados para generar configuraciones donde agentes pueden ser entrenados o donde usuarios pueden tener experiencias interactivas.

El segundo concepto es sistema predictivo interno que un agente utiliza para interpretar el mundo circundante. Esto está más cerca de cómo operan humanos y animales: no predecimos el futuro a nivel de píxeles sino que dependemos de representaciones abstractas para anticipar resultados probables. Modelos como Joint Embedding Predictive Architecture de Meta están diseñados para este propósito. Aprenden las características latentes que gobiernan interacciones en el mundo, permitiendo que un agente haga predicciones eficientes y tome acciones sin necesitar simulación fotorrealista completa.

La última década vio convertirse a estas tecnologías en fenómeno global y punto de inflexión en tecnología, economía e incluso geopolítica. Pero como investigadora, educadora y ahora emprendedora, todavía es el espíritu detrás de la pregunta de Turing de hace 75 años lo que más inspira a Li. Todavía comparte su sentido de asombro. Es lo que la energiza cada día mediante el desafío de la inteligencia espacial.

Por primera vez en la historia, estamos posicionados para construir máquinas tan sintonizadas con el mundo físico que podemos confiar en ellas como verdaderos socios en los mayores desafíos que enfrentamos. Ya sea acelerando cómo comprendemos enfermedades en el laboratorio, revolucionando cómo contamos historias o apoyándonos en nuestros momentos más vulnerables debido a enfermedad, lesión o edad, estamos al borde de tecnología que eleva los aspectos de la vida que más nos importan. Esta es una visión de vidas más profundas, ricas y empoderadas.

Casi 500 millones de años después de que la naturaleza desatara los primeros destellos de inteligencia espacial en animales ancestrales, tenemos la suerte de encontrarnos entre la generación de tecnólogos que pronto podrían dotar a las máquinas con la misma capacidad, y el privilegio suficiente para aprovechar esas capacidades para el beneficio de personas en todas partes. Nuestros sueños de máquinas verdaderamente inteligentes no estarán completos sin inteligencia espacial. Fei-Fei Li, CEO y cofundadora de World Labs

Referencias

Andreessen Horowitz Substack, "From Words to Worlds: Spatial Intelligence is AI's Next Frontier" - manifiesto completo de Fei-Fei Li (noviembre 10, 2025).

Decrypt, "AI's Progress Now Depends on 'World Models' That Grasp Physical Reality" - análisis sobre modelos de mundo (noviembre 10, 2025).

TechTalks, "What to know about World Labs Marble and where it stands in the world model race" - análisis técnico de Marble (septiembre 20, 2025).

IEEE Spectrum, "AI Pioneer Fei-Fei Li Has a Vision for Computer Vision" - entrevista exclusiva sobre inteligencia espacial (diciembre 24, 2024).

Crunchbase, "AI Startup World Labs Launches With $230M From Andreessen Horowitz, Nvidia's Venture Arm" - detalles de financiamiento (septiembre 13, 2024).

TechCrunch, "NEA led a $100M round into Fei-Fei Li's new AI startup, now valued at over $1B" - evolución de valuación (agosto 15, 2024).

Quartz, "The data that transformed AI research and possibly the world" - historia de ImageNet (julio 20, 2022).

IEEE Spectrum, "How AlexNet Transformed AI and Computer Vision Forever" - lanzamiento de código fuente original (marzo 25, 2025).

Pinecone, "AlexNet and ImageNet: The Birth of Deep Learning" - análisis técnico del impacto.

Wikipedia, "ImageNet" - documentación comprehensiva del dataset y competiciones (actualizada agosto 26, 2025).

American Academy of Arts and Sciences, "Searching for Computer Vision North Stars" - perspectiva de Li sobre evolución del campo (mayo 19, 2022).

The Neuron Daily, "Dr. Fei-Fei Li, the Godmother of AI, on why we need 'Spatial Intelligence'" - resumen ejecutivo del manifiesto (noviembre 2025).

36Kr, "Viral! Fei-Fei Li's 10,000-Word Article Defines Next Decade of AI" - traducción y análisis completo.

YourStory, "The Woman Who Revolutionized AI: Fei-Fei Li's Groundbreaking Impact on Computer Vision" - biografía y legado (enero 29, 2025).

Teknotum, "World Labs releases Marble: detailed, high resolution and 'infinite' 3D worlds" - primeras impresiones de Marble (septiembre 17, 2025).

Recent Posts

Generated Image November 15, 2025 - 2_58AM

La “granja de portátiles”: el arma secreta de Corea del Norte

  Cinco ciudadanos estadounidenses se declararon culpables de operar ‘granjas de portátiles’ para blan
Read More
815fb62d-1f9f-41f9-8bb7-e8bbde4e5928

De archivador a investigador: la nueva era de NotebookLM

  NotebookLM deja de ser un simple anotador. Sus nuevas funciones de investigación automatizada y generación mult
Read More

Para estar informado, Ingresá o Creá tu cuenta en MundoIA...

Sign In

Recordá revisar la carpeta de "no deseados", el correo puede llegar allí