Gemini Omni quiere hacer con el vídeo lo que Nano Banana hizo con las imágenes: Google apunta muy alto

Publicado: mayo 19, 2026, 8:23 pm

Gemini Omni quiere hacer con el vídeo lo que Nano Banana hizo con las imágenes: Google apunta muy alto

Crear una imagen con IA ya no sorprende como antes. Lo que empieza a marcar la diferencia es la capacidad de modificarla, darle continuidad y convertir una idea inicial en algo más elaborado sin perder el hilo por el camino. En vídeo, ese reto es mucho mayor: hay movimiento, tiempo, física y personajes que debe seguir pareciendo coherentes. Gemini Omni llega con la promesa de abordar este problema y hacer de la edición una tarea mucho más sencilla.

La propia Google DeepMind pide pensar en Gemini Omni como en Nano Banana, pero para vídeo. La referencia tiene sentido porque Nano Banana fue el generador de imágenes de Google que llevó la creación visual con IA a una escala muy llamativa. La primera versión, lanzada en agosto de 2025, sumó 13 millones de usuarios en cuatro días y había generado más de 5.000 millones de imágenes a mediados de octubre.

Google presenta ahora Gemini Omni Flash como el primer modelo de la familia Gemini Omni. Según la compañía, está diseñado para crear contenido a partir de cualquier entrada. La idea es que el usuario podamos combinar imágenes, audio, vídeo y texto como punto de partida para generar vídeos de alta calidad apoyados en el conocimiento del mundo real de Gemini.

Un modelo de generación de vídeo que apuesta por la coherencia

La parte más interesante está en cómo Google describe el proceso de edición. No se plantea solo como una herramienta para generar un clip desde cero, sino como un sistema capaz de trabajar sobre una escena mediante instrucciones encadenadas. La compañía habla de cambiar elementos concretos o transformar por completo un vídeo de partida, ajustando estética, acción, entorno, ángulo, estilo o detalles específicos. También promete mantener la consistencia de los personajes, conservar la continuidad de la escena y ofrecer una física más coherente.

{«videoId»:»xaa9w96″,»autoplay»:false,»title»:»Gemini Omni», «tag»:»ia», «duration»:»54″}

En su nota, enseña cómo Gemini Omni puede partir de una escena y modificarla con una instrucción directa, ya sea para cambiar el material de un objeto, alterar una acción o convertir una idea compleja en una explicación visual. Veamos algunos ejemplos de prompts.

“Make the sculpture out of bubbles” (Haz que la escultura esté hecha de burbujas)
“When the person touches the mirror, make the mirror ripple beautifully like liquid, and the person’s arm turns into reflective mirror material” (Cuando la persona toque el espejo, haz que el espejo ondule con un efecto líquido y elegante, y que su brazo se convierta en un material reflectante)
“Claymation explainer of protein folding, everything is made out of clay, no hands, stop motion, accurate” (Un explicador en claymation sobre el plegamiento de proteínas, todo hecho de arcilla, sin manos, en stop motion y con precisión)

En Xataka hemos hecho una primera prueba con una imagen reconocible: la Puerta de Alcalá, en Madrid. El punto de partida era una fotografía estática y el prompt que utilizamos fue el siguiente:

{«videoId»:»xaa9wn4″,»autoplay»:false,»title»:»Prueba Gemini Omni», «tag»:»tecnología», «duration»:»12″}

“Create a video from this image. Cars are moving forward and people are walking.” (Crea un vídeo a partir de esta imagen. Los coches avanzan y la gente camina).

La idea era comprobar hasta qué punto Gemini Omni podía convertir una escena real en un pequeño clip con movimiento. En el vídeo de arriba se aprecia precisamente ese intento de animar la imagen original, con coches que avanzan, peatones que caminan y un sonido ambiental que encaja con la escena. También parece conservar algunos elementos de marca visibles en los vehículos, especialmente el logo de Mercedes-Benz, aunque en otros casos, como Fiat, el resultado resulta menos claro.

Hablemos de disponibilidad. Google asegura que Gemini Omni Flash empieza a llegar a los suscriptores de Google AI Plus, Pro y Ultra a través de Gemini y Google Flow, mientras que su despliegue sin coste en YouTube Shorts y YouTube Create App arranca esta semana.

En Xataka

Bienvenidos al duopolio de la IA: el sector ya factura 80.000 millones al año, pero OpenAI y Anthropic se llevan el 89% de los ingresos

En nuestra prueba con una cuenta corporativa, sin embargo, nos encontramos con un límite bastante ajustado: tras generar tres vídeos, el sistema nos avisó de que “habíamos alcanzado nuestro límite de generación de vídeo hasta el 20 de mayo a las 19:59”. No sorprende demasiado si pensamos en lo que está ocurriendo por debajo: crear vídeo con IA exige muchos recursos, así que todo apunta a que Google estaría dosificando el acceso, al menos en esta primera fase.

Cuando hablamos de generación de vídeo con inteligencia artificial, es probable que uno de los primeros nombres que se nos venga a la cabeza sea Sora. Llegó como una de las grandes promesas de OpenAI para este terreno. El recorrido, sin embargo, terminó siendo bastante más corto de lo que sugería aquella ambición inicial. Su web y su app dejaron de estar disponibles a finales de abril de 2026, aunque la API seguirá funcionando hasta el 24 de septiembre.

Imágenes | Google | Xataka

En Xataka | Hay una batalla por tener el modelo de IA que programa mejor. Y en ella ha aparecido un rival bueno, bonito y muy barato: Cursor

–
La noticia

Gemini Omni quiere hacer con el vídeo lo que Nano Banana hizo con las imágenes: Google apunta muy alto

fue publicada originalmente en

Xataka

por

Javier Marquez

.