Google představuje Gemini Omni: multimodální model pro generování videa

Co se stalo

Google DeepMind uvedl Gemini Omni, novou rodinu modelů zaměřenou na generování a editaci videa. První model řady – Gemini Omni Flash – je od tohoto týdne dostupný předplatitelům Google AI Plus, Pro a Ultra přes aplikaci Gemini a Google Flow. Zdarma je také k dispozici uživatelům YouTube Shorts a YouTube Create App. API přístup pro vývojáře a firemní zákazníky se plánuje na nadcházející týdny.

Omni přijímá jako vstup libovolnou kombinaci textu, obrázků, audia a videa a generuje videovýstup. Editace probíhá konverzačně – každý pokyn navazuje na předchozí, přičemž model udržuje konzistenci postav, fyziky scény i vizuálního stylu. Do budoucna jsou plánované výstupní modality i pro obrázky a audio.

Všechna videa jsou opatřena neviditelným digitálním vodoznakem SynthID, ověřitelným přes aplikaci Gemini, Chrome i Google Search.

Proč to je důležité

Pro produktové a kreativní týmy jde o posun v dostupnosti video produkce: komplexní úpravy, které dříve vyžadovaly specializované nástroje a postprodukci, lze nově zadávat přirozeným jazykem v iterativním dialogu. Firmy využívající YouTube nebo Google Workspace získávají tento nástroj integrovaný přímo do stávajících platforem.

Z pohledu CTO stojí za pozornost brzké otevření API – Omni lze pravděpodobně zapojit do vlastních workflow pro automatizaci tvorby marketingového nebo vzdělávacího obsahu. Nasazení ve firemním prostředí ale bude vyžadovat prověření zásad pro použití avatarů a pravidel pro nakládání se vstupními médii.

Zdroje

video generationai modelsgoogle geminimultimodal aicontent creationsynthiddigital watermarking