Google 在 I/O 大會上發表全新多模態生成模型 Gemini Omni(首發版本為 Gemini Omni Flash),全面提升影片生成與對話編輯能力。簡單而言,這款模型讓創作者完全無需鑽研複雜的提示詞(Prompt),只需用日常講話的口語,隨意搭配相片、文字或錄音,就能直接生成符合現實物理規律、極具真實感的影片。 新模型主打「以影片為起點」的全能輸出,除了支援多輪對話直接修改場景,還能在數秒內為用戶建立專屬的數碼分身。相關功能即日起向指定訂閱用戶開放,本週起更會無縫整合至 YouTube 創作工具,讓全球創作者免費體驗,大幅降低影片製作門檻。

▲Google 發表全新多模態生成模型 Gemini Omni Flash
掌握物理常識 支援多輪對話修改
傳統影片生成模型往往不夠理解現實世界,導致畫面經常出現「反物理」的怪異現象。Gemini Omni Flash 則內置極強的物理常識,完美理解重力、動能及流體動力學等自然規律,令生成的影片效果更加自然逼真。實用性方面,用戶現在可以用日常對話方式連續編輯影片,隨時隨地指示系統將背景重塑為科幻電影的外星球,甚至在保留原有故事線的同時,直接在畫面中添加新角色、更換道具或調整鏡頭視角。

▲用戶現在能透過日常對話方式進行連續編輯,隨時指示系統將背景重塑為科幻電影外星球

▲Gemini Omni Flash 內置極強物理世界常識,理解重力、動能及流體動力學等規律

數秒建立專屬分身
新模型的混合輸入功能非常強大,支援將圖像、文字、音訊及草圖自由組合,一鍵生成結構一致的高質素影片。用戶只需上傳一段自己的短片與語音,系統就能在數秒內建立出聲音、動作與表情完全吻合的專屬數碼分身,非常適合應用於教學與簡報製作。
會場示範有趣玩法

▲輸入一條女士影片彈結他的影片, 另外選取了新影片想有的元素,也一併加入
製作出的影片如下:

▲可看見已跟指示製作成動漫角色,並加入了天空等用家輸入的元素
不過,隨著 AI 影像生成技術普及,業界亦高度關注 Deepfake(深度偽造)帶來的風險。為此,Google 採取了關鍵的安全監管措施,強制為所有由新模型生成的影片內嵌 SynthID 隱形浮水印,以確保內容透明度。Google 同時宣布,Nvidia、OpenAI、Kakao 及 ElevenLabs 等科技巨頭亦已加入 SynthID 陣營,共同防範偽造風險。

▲ Google 同時宣布,Nvidia ,OpenAI,Kakoo 及 IIElveenlabs 也加入SynthID 隱形浮水印
資料來源:Google IO
