Co se stalo
Google DeepMind uvedl Gemini Omni, novou rodinu modelů zaměřenou na generování a editaci videa. První model řady – Gemini Omni Flash – je od tohoto týdne dostupný předplatitelům Google AI Plus, Pro a Ultra přes aplikaci Gemini a Google Flow. Zdarma je také k dispozici uživatelům YouTube Shorts a YouTube Create App. API přístup pro vývojáře a firemní zákazníky se plánuje na nadcházející týdny.
Omni přijímá jako vstup libovolnou kombinaci textu, obrázků, audia a videa a generuje videovýstup. Editace probíhá konverzačně – každý pokyn navazuje na předchozí, přičemž model udržuje konzistenci postav, fyziky scény i vizuálního stylu. Do budoucna jsou plánované výstupní modality i pro obrázky a audio.
Všechna videa jsou opatřena neviditelným digitálním vodoznakem SynthID, ověřitelným přes aplikaci Gemini, Chrome i Google Search.
Proč to je důležité
Pro produktové a kreativní týmy jde o posun v dostupnosti video produkce: komplexní úpravy, které dříve vyžadovaly specializované nástroje a postprodukci, lze nově zadávat přirozeným jazykem v iterativním dialogu. Firmy využívající YouTube nebo Google Workspace získávají tento nástroj integrovaný přímo do stávajících platforem.
Z pohledu CTO stojí za pozornost brzké otevření API – Omni lze pravděpodobně zapojit do vlastních workflow pro automatizaci tvorby marketingového nebo vzdělávacího obsahu. Nasazení ve firemním prostředí ale bude vyžadovat prověření zásad pro použití avatarů a pravidel pro nakládání se vstupními médii.
Zdroje
- DeepMind Blog – Introducing Gemini Omni
- Google SynthID – přehled nástrojů pro transparentnost obsahu