Veo 3.1, la apuesta de Google por el estudio virtual

Imagina escribir una sola oración y observar cómo se materializa en pantalla un búho sabio surcando nubes nocturnas, aterrizando junto a un tejón en un sendero iluminado por la luna. No solo ves las alas batir y el viento susurrar entre las ramas, también escuchas el crujir de ramitas bajo las patas del tejón y una partitura orquestal con instrumentos de viento que acompaña la escena con ritmo optimista. No hay camarógrafos, actores ni equipo de sonido. Solo un algoritmo que transforma palabras en imágenes y sonidos con coherencia cinematográfica.

Bienvenidos al campo de batalla más fascinante de la tecnología en 2025: la generación automática de video ha dejado de ser una curiosidad experimental para convertirse en una herramienta que amenaza redefinir industrias enteras.

Google lanzó Veo 3.1, la evolución más ambiciosa de su modelo generativo de video. No es una actualización incremental; es una declaración de guerra contra OpenAI y su modelo Sora 2, lanzado apenas dos semanas antes. La competencia entre estos titanes tecnológicos ha escalado con velocidad vertiginosa, y lo que está en juego trasciende cuotas de mercado: se trata del futuro de la producción audiovisual, el empleo creativo y la naturaleza misma de lo que consideramos auténtico.

Veo 3.1 introduce capacidades que hace apenas un año habrían parecido ciencia ficción. El modelo genera videos de hasta sesenta segundos en resolución 1080p con audio nativo completamente sincronizado: conversaciones naturales, efectos de sonido coordinados y ambientes inmersivos que se integran orgánicamente con el contenido visual. Acepta tanto formatos horizontales como verticales, adaptándose a plataformas desde cine tradicional hasta redes sociales. Pero la verdadera revolución radica en su integración con Flow, la herramienta de edición cinematográfica de Google, que ahora ofrece control granular sin precedentes sobre cada aspecto de la creación.

Flow, la plataforma que alimenta Veo 3.1, incluye tres funciones que transforman radicalmente el proceso creativo. «Ingredients to Video» permite combinar múltiples imágenes de personajes, objetos y estilos para construir una escena coherente. No se trata simplemente de pegar elementos; el sistema comprende las relaciones espaciales, la iluminación y la narrativa visual para fusionarlos en una composición cinematográfica unificada. Un diseñador puede proporcionar una foto de un personaje, una imagen de un objeto específico y una referencia estilística, y Veo 3.1 orquesta estos ingredientes en una secuencia con movimiento natural y audio apropiado.

«Frames to Video» aborda uno de los desafíos más complejos de la animación: la interpolación entre puntos clave. Los creadores proporcionan un fotograma inicial y uno final, y el sistema genera la transición completa, manteniendo coherencia física y temporal. Esta capacidad elimina horas de trabajo manual en producciones tradicionales, permitiendo prototipado rápido de secuencias complejas.

La función «Extend» quizás sea la más revolucionaria. Utilizando el último segundo de un clip existente, el sistema puede prolongar el video indefinidamente, generando secuencias que superan el minuto de duración cuando se encadenan múltiples extensiones. La continuidad de audio está limitada a ese segundo final del clip original, lo que requiere planificación cuidadosa, pero la posibilidad de crear narrativas más largas marca un cambio de paradigma: los sistemas generativos comienzan a desafiar la supremacía del video de formato corto.

Las nuevas herramientas de edición incluyen «Insert» y «Remove», que permiten añadir objetos a escenas existentes o eliminar elementos y personajes sin necesidad de software externo. Estas funcionalidades, aunque no están disponibles inmediatamente en todas las plataformas de acceso, señalan la dirección estratégica de Google: convertir Veo en una suite completa de producción, no solo un generador aislado.

El duelo de gigantes tecnológicos

La comparación entre Veo 3.1 y Sora 2 de OpenAI revela filosofías profundamente diferentes sobre el futuro del video generado. Sora 2, lanzado el 30 de septiembre de 2025, prioriza la simulación física realista y la precisión en movimientos complejos. Los desarrolladores de OpenAI destacan mejoras en física: cuando un jugador de baloncesto falla un tiro, el balón rebota correctamente en el tablero. El sistema modela rutinas de gimnasia olímpica, trucos de skateboarding y saltos hacia atrás en tablas de paddle con fidelidad a la física del mundo real, incluyendo momentum, flotabilidad y dinámica de cuerpos rígidos.

Matt Shumer, fundador de Otherside AI y adoptante temprano de tecnologías generativas, expresó decepción inicial con Veo 3.1, señalando que es «notablemente peor que Sora 2» y «bastante más caro». Sin embargo, reconoció que las herramientas de Google, como el soporte para referencias e extensión de escenas, representan un punto brillante en el lanzamiento. Travis Davids, artista digital 3D y creador de contenido especializado en sistemas automatizados, coincidió parcialmente. Aunque notó mejoras en calidad de audio, particularmente en efectos de sonido y diálogo, señaló limitaciones persistentes: falta de soporte para voces personalizadas, imposibilidad de seleccionar voces generadas directamente y el límite continuo de ocho segundos en generaciones iniciales, a pesar de afirmaciones públicas sobre duraciones más largas.

La consistencia de personajes a través de ángulos de cámara cambiantes sigue requiriendo instrucciones cuidadosas en Veo 3.1, mientras que Sora 2 maneja esto de manera más automática. Decrypt, en su análisis técnico, identificó que la generación de imagen a video con diálogo en Veo 3.1 sufre problemas similares a la generación estándar de imagen a video: el modelo prioriza coherencia tan fuertemente que ignora la adherencia a instrucciones y a imágenes de referencia. En pruebas, escenas generadas usando referencias produjeron sujetos completamente diferentes a los proporcionados.

Sin embargo, Veo 3.1 tiene ventajas indiscutibles. El sincronizado labial supera a cualquier otro modelo actualmente disponible. En modo texto a video, genera sonido ambiente coherente que coincide con elementos de la escena. El diálogo, la entonación, las voces y las emociones son precisos y superan a modelos competidores. De los tres sistemas capaces de generar palabras reales, Sora, Veo y Grok, Veo 3.1 requiere menos intentos para obtener resultados satisfactorios en modo texto a video.

La economía de los píxeles sintéticos

El modelo de precios revela las estrategias empresariales subyacentes. Veo 3.1 opera exclusivamente en niveles de pago a través de la API de Gemini. El costo es de aproximadamente 0.40 dólares por segundo de video generado con audio en el modo estándar, mientras que Veo 3.1 Fast cuesta 0.15 dólares por segundo para generación más rápida. Los usuarios gratuitos reciben 100 créditos mensuales para probar el sistema, suficientes para generar alrededor de cinco videos mensuales. Esta estructura de precios posiciona a Veo 3.1 como el modelo de generación de video más caro actualmente, al nivel de Sora 2 y solo superado por Sora 2 Pro, que cuesta más del doble por generación.

La disponibilidad multiplataforma es estratégica. Veo 3.1 está accesible a través de Flow, la interfaz propia de Google para realización cinematográfica asistida; la API de Gemini, dirigida a desarrolladores que construyen capacidades de video en aplicaciones; y Vertex AI, donde la integración empresarial pronto soportará extensión de escenas y otras capacidades clave. Esta distribución multicapa refleja el intento de Google de capturar simultáneamente el mercado creativo profesional, el ecosistema de desarrolladores y las implementaciones corporativas.

Sora 2 adopta un enfoque diferente. Aunque el acceso inicial fue gratuito, Sam Altman, CEO de OpenAI, admitió que este acceso abierto es insostenible, dado que el uso ya excedió expectativas. La versión completa requiere suscripción a ChatGPT Plus por 20 dólares mensuales o ChatGPT Pro por 200 dólares mensuales. Sin embargo, OpenAI lanzó Sora 2 junto con una aplicación móvil revolucionaria para iOS con interfaz estilo TikTok que prioriza compartir y remezclar contenido. La función Cameo permite a usuarios insertarse a sí mismos o a amigos en cualquier escena generada con notable precisión después de una grabación única de video y audio para verificación de identidad.

Este enfoque social representa una visión audaz: no solo una herramienta, sino un ecosistema completo para creación de contenido nativo de sistemas automatizados. La aplicación alcanzó un millón de descargas en cinco días, generando debates sobre contenido generado por algoritmos inundando redes sociales. Google, en contraste, posiciona Veo 3.1 como la alternativa profesional a la plataforma viral de Sora 2.

El veredicto técnico y sus implicaciones

Pruebas independientes revelan fortalezas y debilidades distintivas. Android Authority probó ambos sistemas con prompts idénticos. Para una escena simple de espresso siendo vertido en una taza blanca en cámara lenta, Veo 3 produjo un resultado con viscosidad convincente del líquido y remolinos realistas al asentarse, aunque el café solo se dispensó de un lado del portafiltro. Sora 2 mostró física realista sin los errores de Veo 3, pero la mejora no fue dramática. En escenas con animales, Sora 2 alcanzó niveles inquietantemente reales de realismo.

NerdBot concluyó que Veo 3 se destaca en calidad cinematográfica y control profesional, mientras Sora 2 prioriza autenticidad física y simulación precisa de movimientos. Para contenido documental, videos educativos o cualquier cosa que requiera movimiento auténtico, Sora 2 sobresale. El motor de física de Sora 2 brilla especialmente en escenarios atléticos: parkour, gimnasia y deportes mostraron consistentemente comprensión de momentum, aceleración y mecánica corporal.

Sin embargo, la batalla está lejos de terminar. El mercado de generación de video en 2025 está saturado: el modelo Gen-4 de Runway apunta a cineastas, Luma Labs ofrece generación rápida para redes sociales, Adobe integra Firefly Video en Creative Cloud, y actualizaciones de xAI, Kling y Meta apuntan a realismo, generación de sonido y adherencia a instrucciones. Cada plataforma busca su nicho en un ecosistema fragmentado.

La verdadera pregunta no es cuál modelo técnico es superior, sino qué visión del futuro audiovisual prevalecerá: ¿sistemas que democratizan la creación mediante interfaces sociales accesibles, o herramientas profesionales que ofrecen control granular para creativos experimentados? ¿Plataformas que priorizan velocidad y viralidad, o soluciones que enfatizan fidelidad cinematográfica y coherencia narrativa?

Lo único certero es que la frontera entre lo filmado y lo generado continúa difuminándose. Cada actualización de Veo, Sora o sus competidores reduce el espacio donde la autenticidad visual puede refugiarse. La próxima década no determinará si los algoritmos pueden crear video convincente, eso ya es un hecho consumado. Determinará si los humanos pueden mantener relevancia en el proceso de contar historias visuales, o si nos convertiremos en meros editores de sueños sintéticos concebidos por máquinas que nunca han visto el mundo que tan perfectamente simulan.

Referencias

StartupHub AI. «Google’s Veo 3.1 Elevates Generative AI Video Control»

Max Productive. «Google VEO 3.1 Released: Features & Examples»

BGR. «Google Launches New Veo 3.1 AI Video Model And Improved Editing Capabilities In Flow»

VentureBeat. «Google releases new AI video model Veo 3.1 in Flow and API: what it means for enterprises»

Decrypt. «Google Unveils Veo 3.1 to Rival OpenAI’s Sora 2—But Does It Deliver?»

NerdBot. «Veo 3.1 vs Sora 2: The Battle of Next-Gen AI Video Generators»

Android Authority. «I tested ChatGPT’s new Sora 2 model against Google’s Veo 3, and the difference is astounding»

Google DeepMind. «Veo – Video Generation Model»

Engadget. «Google’s Veo 3.1 is better at generating videos from images»

Veo 3.1, la apuesta de Google por el estudio virtual