AGENCIAS
MOUNTAIN VIEW.- Google presentó Gemini Omni, una nueva evolución de su sistema de inteligencia artificial capaz de combinar texto, imágenes, video y audio para crear contenidos audiovisuales mediante instrucciones escritas o conversadas, un paso que acerca aún más la creación digital a una interacción similar a hablar con otra persona.
La herramienta, cuya primera versión se llama Gemini Omni Flash, permite tomar distintos materiales de referencia —desde una fotografía hasta un clip de voz o un boceto— y convertirlos en videos editables. Una de sus funciones más llamativas es que el usuario puede modificar escenas simplemente describiendo cambios: añadir objetos, transformar paisajes, alterar movimientos o cambiar estilos visuales.
Según Google, el sistema también intenta comprender mejor elementos físicos como gravedad, movimiento o comportamiento de fluidos, con el objetivo de generar escenas más realistas y coherentes.
Otra novedad es que Omni puede utilizar conocimientos integrados sobre historia, ciencia y contexto cultural para construir explicaciones visuales complejas, algo que la compañía describe como una combinación entre creatividad y razonamiento.
Este tipo de inteligencia artificial pertenece a la categoría “multimodal”, es decir, modelos que procesan varios formatos al mismo tiempo. Hasta hace pocos años, la mayoría de las IA trabajaban solo con texto; ahora pueden interpretar voz, imágenes y video de manera simultánea.
Google indicó que todos los videos generados incluirán la marca digital SynthID, diseñada para identificar contenido creado mediante IA y reducir riesgos de manipulación o desinformación.
Gemini Omni Flash ya comenzó a desplegarse para suscriptores de Google IA Plus, Pro y Ultra, a través de la aplicación de Gemini y Google Flow. Sin embargo, también se implementa sin costo alguno para usuarios en YouTube Shorts y la aplicación YouTube Create.
El avance refleja una tendencia creciente en la industria tecnológica: pasar de sistemas que responden preguntas a herramientas capaces de producir escenas completas, casi como pequeños estudios audiovisuales impulsados por inteligencia artificial.

