人工智能

【Google I/O 2026】Gemini Omni 製片 AI 模型登場用日常語言就可製片, 改片完美模擬重力流體物理現象

作者

Vin
發佈日期

2026-05-20
閱讀時間

5分鐘
字體大小

Google 在 I/O 大會上發表全新多模態生成模型 Gemini Omni（首發版本為 Gemini Omni Flash），全面提升影片生成與對話編輯能力。簡單而言，這款模型讓創作者完全無需鑽研複雜的提示詞（Prompt），只需用日常講話的口語，隨意搭配相片、文字或錄音，就能直接生成符合現實物理規律、極具真實感的影片。新模型主打「以影片為起點」的全能輸出，除了支援多輪對話直接修改場景，還能在數秒內為用戶建立專屬的數碼分身。相關功能即日起向指定訂閱用戶開放，本週起更會無縫整合至 YouTube 創作工具，讓全球創作者免費體驗，大幅降低影片製作門檻。

Gemini Omni Flash 新科技展示.

▲Google 發表全新多模態生成模型 Gemini Omni Flash

掌握物理常識　支援多輪對話修改

傳統影片生成模型往往不夠理解現實世界，導致畫面經常出現「反物理」的怪異現象。Gemini Omni Flash 則內置極強的物理常識，完美理解重力、動能及流體動力學等自然規律，令生成的影片效果更加自然逼真。實用性方面，用戶現在可以用日常對話方式連續編輯影片，隨時隨地指示系統將背景重塑為科幻電影的外星球，甚至在保留原有故事線的同時，直接在畫面中添加新角色、更換道具或調整鏡頭視角。

太空站內自拍照，背景為火星表面和星空，展.

▲用戶現在能透過日常對話方式進行連續編輯，隨時指示系統將背景重塑為科幻電影外星球

彈珠遊戲裝置，帶有金屬和塑料元素，展示科.

▲Gemini Omni Flash 內置極強物理世界常識，理解重力、動能及流體動力學等規律

ALT標籤：分子生物學中的Alpha Helix與Beta Sheet模.

數秒建立專屬分身

新模型的混合輸入功能非常強大，支援將圖像、文字、音訊及草圖自由組合，一鍵生成結構一致的高質素影片。用戶只需上傳一段自己的短片與語音，系統就能在數秒內建立出聲音、動作與表情完全吻合的專屬數碼分身，非常適合應用於教學與簡報製作。

會場示範有趣玩法

ALT標籤：手機屏幕顯示多張數碼相片.

▲輸入一條女士影片彈結他的影片，另外選取了新影片想有的元素，也一併加入

製作出的影片如下：

街頭藝人彈奏吉他，展示音樂才華. 女孩彈奏吉他，背景是藍天和白雲，展現音樂. 戶外吉他演奏者在藍天白雲下彈奏. 女孩在戶外坐著彈奏吉他，背景是藍天和白雲. 女孩彈奏吉他，穿著牛仔外套，背景是粉色雲.

▲可看見已跟指示製作成動漫角色，並加入了天空等用家輸入的元素

不過，隨著 AI 影像生成技術普及，業界亦高度關注 Deepfake（深度偽造）帶來的風險。為此，Google 採取了關鍵的安全監管措施，強制為所有由新模型生成的影片內嵌 SynthID 隱形浮水印，以確保內容透明度。Google 同時宣布，Nvidia、OpenAI、Kakao 及 ElevenLabs 等科技巨頭亦已加入 SynthID 陣營，共同防範偽造風險。

ALT標籤：四人科技聚會討論，享受美味漢堡.

▲ Google 同時宣布，Nvidia ，OpenAI，Kakoo 及 IIElveenlabs 也加入SynthID 隱形浮水印

資料來源：Google IO

掌握物理常識 支援多輪對話修改

數秒建立專屬分身

會場示範有趣玩法

掌握物理常識　支援多輪對話修改