Publicado: mayo 25, 2026, 6:17 pm
<
Cómo se edita un video con lenguaje natural

Antes de Omni, los modelos de generación de video de Google —entre ellos Veo— requerían instrucciones muy precisas para funcionar bien. Se describía cada detalle: el ángulo de la cámara, la iluminación, el movimiento, el ambiente. Omni elimina esa carga. De acuerdo con la guía técnica publicada por Google DeepMind , con Omni no es necesario ser tan específico en el prompt porque el modelo razona sobre lo que debería suceder y llena los detalles usando su propio conocimiento del mundo : historia, ciencia, física, cultura. Le puedes decir «explica visualmente la diferencia entre computación clásica y computación cuántica» sin describir cómo debería verse cada escena. Omni lo deduce. A eso se suma otra capacidad clave: la memoria de contexto . Cuando editas un video, el modelo recuerda lo que ya hiciste. Los personajes mantienen coherencia visual entre instrucciones. El flujo de trabajo funciona como una conversación. Subes tu video —o partes desde uno generado por el modelo— y empiezas a dar instrucciones en texto. Cada instrucción se construye sobre la anterior. Google DeepMind documenta varios tipos de edición que el modelo entiende de forma nativa: Cambios de elementos específicos. Puedes pedirle que transforme un objeto en particular sin alterar el resto del video. En los ejemplos de la guía oficial, una instrucción como «cambia la mariposa por una abeja» modifica ese elemento y preserva todo lo demás. Una instrucción posterior —»convierte la abeja en un pequeño enjambre de luciérnagas»— toma el resultado anterior como punto de partida. Control de cámara. Omni entiende terminología cinematográfica real. Puedes pedirle ángulos específicos como «static», «locked off» o «fixed». Puedes indicar movimientos como «push in», «dolly zoom» o «punch in». También puedes definir el estilo de cámara: «natural smartphone zoom», «film camera» o «webcam style». No necesitas saber qué significa cada término para usarlo —puedes experimentar— pero el modelo los ejecuta con precisión técnica.



Cómo escribir un buen prompt para Omni
Sincronización de entradas múltiples. En lugar de trabajar solo con video, puedes combinar referencias. Un prompt documentado en la guía de Google DeepMind usa un video de entrada, una imagen de referencia y un archivo de audio simultáneamente: «Los pájaros del video forman vagamente la silueta de un pájaro basada en la imagen, sincronizados con el audio.» Omni integra las tres fuentes en un resultado coherente. Cambios de estilo visual completo. Si quieres mantener el movimiento original de un video pero cambiar completamente cómo se ve, Omni puede aplicar estilos como anime, claymation o acuarela sobre el material existente sin alterar la acción. Generación desde storyboard. Si ya tienes clara la narrativa, puedes subir imágenes que funcionen como storyboard y Omni genera el video siguiendo ese orden visual, imagen por imagen. La guía técnica de Google DeepMind establece que mientras más detalle incluya el prompt, mayor control tendrá el usuario sobre el resultado. Hay cinco elementos que el modelo procesa y que conviene especificar cuando se quiere mayor precisión: Encuadre y movimiento de cámara. ¿Gran angular, plano medio o primer plano? ¿La cámara se desliza suavemente o se mueve con brusquedad? Especificarlo da resultados más cercanos a lo que se busca.
Quién puede usarlo y dónde está disponible
Estilo. ¿La escena debe verse realista o cinematográfica? ¿Íntima o grandiosa? Describir el efecto que se quiere lograr —no solo el tema— orienta al modelo hacia el tono correcto. Iluminación. ¿De dónde viene la luz? ¿Es luz solar, una farola, iluminación fuera de cuadro? ¿El resultado debe verse nítido, cálido o etéreo? La iluminación define el ambiente más que cualquier otro elemento. Locación. Describir el espacio donde transcurre la escena. No hace falta detallar cada elemento; con describir el ambiente general —»un paisaje alienígena con agua azul clara»— el modelo construye el resto. Acción. Qué está pasando, quiénes son los personajes u objetos y cómo se mueven e interactúan entre sí. Gemini Omni Flash —el primer modelo de la familia Omni— está disponible en México a través de tres vías, con condiciones distintas según la plataforma: YouTube Shorts y la app YouTube Create: acceso sin costo para todos los usuarios. Es la forma más directa de probar el modelo sin ningún tipo de suscripción. App de Gemini y Google Flow: disponible para suscriptores de Google AI Pro y Ultra. Estas son las versiones de pago de los planes de Google, lo que significa que no está disponible de forma gratuita en estas plataformas. APIs para desarrolladores y clientes empresariales: disponible en las próximas semanas, según el anuncio oficial de Google. La guía técnica de Google DeepMind advierte explícitamente que se requiere una suscripción de Google AI para algunas funciones, y que las capacidades disponibles varían según el plan y la región geográfica. Todos los videos generados con Omni incluyen la marca de agua invisible SynthID —tecnología de Google para identificar contenido generado con IA— y pueden verificarse como creados con Gemini Omni desde la app de Gemini, Gemini en Chrome y la Búsqueda de Google.
Lo que viene después
Gemini Omni Flash es el primer modelo de la familia, no el único. Google ha anunciado que próximamente el modelo también podrá generar imágenes y audio como resultado —hoy solo produce video— y que ampliará los tipos de entrada de audio aceptados más allá de referencias de voz. La función de avatar digital —que permite crear videos con la propia imagen y voz del usuario— ya está disponible de forma limitada. La edición de voz en video, en cambio, sigue en fase de pruebas: Google indica que está evaluando cómo ofrecer esa capacidad de forma responsable antes de lanzarla al público general. La promesa central de Omni, según Koray Kavukcuoglu , director de tecnología de Google DeepMind, es la fusión entre el razonamiento de Gemini y su capacidad creativa. El modelo no solo ejecuta instrucciones: entiende qué debería pasar a continuación dentro de una escena, y lo construye desde ahí.
]]>
