×

人工智能

教學：Gemini Omni 最新 Google 影片生成 AI 模型簡單語句生成複雜影片免 VPN 香港都用到

街頭表演的年輕女吉他手，微笑演奏吉他，背.

作者

Vin
發佈日期

2026-05-21
閱讀時間

15分鐘
字體大小

自從 OpenAI 宣布結束影片生成平台 Sora ，生成式 AI 影片平台一直由 Seedance 領先，但 Seedance 的使用流程相對繁瑣。最近 Google 推出全新影片生成模型 Gemini Omni Flash，直接內置在大家常用的 Gemini 對話框內，功能包括類似 Sora 的個人虛擬化身（Personal Avatar）、相片轉成影片、以及將影片與相片融合生成的全新玩法，最重要是 Google 指可以直接「用人話」溝通，只要簡單語言就可生成你腦中天馬行空的想法。Google 更強調 Gemini Omni Flash 可以在影片生成後再修改，而非從頭生成，而且熟悉真實世界的物理定律、重力與流體動力學，令影片視覺上更真實。立即睇睇效果如何。

海底世界與寵物貓的對比圖，展示了兩個截然.

▲Gemini Omni 只要簡單語言就可生成你腦中天馬行空的想法

▲Gemini Omni 內置在大家常用的 Gemini 對話框，並取代之前的 Veo

Gemini 網頁連結：gemini.google.com

Android Play Store 下載連結：https://play.google.com/store/apps/details?id=com.google.android.apps.bard

iOS App Store 下載連結：https://apps.apple.com/app/google-gemini/id6477489729

1. 基礎實測：相轉片功能

我們先試最基本的玩法，「相片變影片」。在實際測試中，我們上傳了記者小嫺的靜態相片，要求生成一段圍繞她進行 360 度旋轉運鏡的影片，並額外要求加上她彈結他的動作，就看看影片會否有扭曲的情況。

時尚女性在戶外咖啡店享受陽光，穿著白色休.

▲ 我們上傳了記者小嫺的靜態相片

▲ 生成影片的操作簡單，在 Gemini 對話框按「＋」，再按影片便可開始生成影片

女主播在戶外咖啡店進行表演，展示專業的舞.

▲由於 Gemini Omni 強調可以「用人話」溝通，我們的指令也很簡單：「圖中女人手上拿著結他演奏，攝影機360度跟隨女主角」

結果：

街頭藝人在繁華街道上演奏吉他，背景是咖啡.

▲等大概一分鐘，有片睇

從影片可見，Gemini Omni 鎖定了相片中小嫺的五官與衣服細節，而且原圖中小嫺金髮中夾雜的黑色髮根與層次漸變，在影片中有完美保留，可見在髮絲與色彩的細部處理上亦很精緻。同時，Gemini Omni 自行理解並無縫「腦補」她背部原本不存在的衣服結構與背景空間。最值得稱讚的是，即使原始相片採用直度拍攝，影片仍可完美運算出橫向比例的影片，完全沒有出現傳統 AI 常見的面部崩壞或衣著突變。而她手指撥弄結他弦線的手勢與身體擺動幅度，亦完美契合物理邏輯，整段畫面看起來就像是用專業穩定器實地拍攝出來的電影級短片。

街頭演奏的女吉他手.

▲原圖中小嫺金髮夾雜的黑色髮根與層次漸變，在影片中有完美保留，更無縫「腦補」她背部原本不存在的衣服結構與背景空間

戶外街頭音樂表演，年輕女子彈奏吉他，享受.

▲結他弦線的手勢與身體擺動幅度，亦完美契合物理邏輯

選擇橫向 16:9 或直向 9:16 影片

▲ 生成影片前可以選擇橫向 16:9 或直向 9:16 影片，以往 Veo 沒有這個選擇

萬用Prompt ：如果你想試類似效果，可以試以下的指令

「請為我生成一段10秒的影片。影片主體為 [主體]，正在進行 [動作]。畫面採用 [鏡頭運動方式] 運鏡，並以 [視覺風格/光影調性] 作為視覺基調，確保物體運動符合真實物理規律。」

2. 實試即場改片

真正展現 Omni 強大的地方，在於生成影片後可立即透過對話修改。當你看到第一版成品，覺得女子手上那把文青木結他不夠搖滾時，你完全不需要重新上傳相片或從頭生成影片。你只需要直接回覆一句話，要求它「將結他改為黑色的 Gibson 電結他，背景加上搖滾舞台的射燈效果」。

▲ 你完全不需要重新上傳相片或從頭生成影片，只需要直接回覆一句話

你會發現，上一段片小嫺五官、衣服、手部撥弦的生動姿態在新片都完美保留，只有木結他被極其精準地替換成充滿金屬光澤的電結他，背景亦自然地投射出炫目的紫色射燈。此類連續對話式剪片技術，徹底打破了傳統 AI 影片只能一次性生成的局限。

結果：

女吉他手在戶外咖啡廳演奏吉他，背景有座位.

音樂表演現場，女演奏者在戶外舞台上彈吉他.

▲背景亦自然地投射出炫目的紫色射燈

3. 進階實測「片加相」跨界：電單車片與漫畫 Moodboard 完美揉合

如果想玩得更進階，就一定要嘗試「影片加相片」的混合多模態輸入。今次實測我們提供 Omni 一段由 AI 生成的電單車行駛短片，並同步上傳了一張漫畫特效風格的設計概念圖（Moodboard），然後指令 Gemini Omni 將兩者結合。

夜晚騎行的男女騎士，穿著安全裝備在隧道中.

▲我們提供 Omni 一段由 AI 生成的電單車行駛短片

▲ 我們在 Gemini 用 Nano Banana 生成了漫畫特效風格的設計概念圖

摩托車騎行夜景，兩人穿著黑色皮衣，戴著頭.

▲ 指令也是非常簡單：「在保持所有內容不變的情況下進行編輯。加入圖片 mood board 的動畫效果」

結果：

摩托車夜騎，男女騎士穿著皮衣在城市街道快.

出來的成品效果好得令人難以置信，模型並非單純在原本的影片上套用一層死板的濾鏡，而是將設計概念圖中的二次元圖案化為真正會動的動態特效。畫面四周動態生成了極具張力的漫畫速度集中線，排氣管後方更生動地噴出隨風擴散、極具卡通質感的漫畫面狀煙霧。這些動態元素的演繹極其合理且流暢，排氣管煙霧改成實體流動的像素特效，而整部電單車的動態連貫性依然能夠保持完美不受影響。

騎士與乘客在隧道中高速行駛，展現冒險精神.

騎士與乘客在隧道中高速行駛，展現冒險精神.

萬用Prompt ：如果你想試類似效果，可以試以下的指令：

「參考我上傳這張相片的 [特定美術風格/色彩調性]，將其完美融入到上傳的影片之中，要求精確保留原本影片中 [主體] 的 [肢體動作/速度感]，但將整個環境、光影、以及主體表面質感徹底重構為相片中的藝術風格。」

4. 終極概念實測：物理與空間重塑

最後我們挑戰融合了分鏡設計、跨片段場景與奇幻物理定律的終極試煉。我們上傳了一張室內有玻璃窗的圖片，窗外是香港街景；另外上傳了一段手指觸碰玻璃窗的影片，玻璃窗後有貓咪。

我們希望無縫連接以上影片和圖片。第一個鏡頭設定為相片中的玻璃窗，而窗外原本平淡的都市街景，在影片播放時變成熱帶魚游來游去的深海世界。接著，鏡頭以一個流暢的平移或轉身動作，天衣無縫地過渡到另一段有貓咪在玻璃窗後的影片。當片中人的手指觸碰到窗戶玻璃時，原本堅硬的玻璃會變成彈性的啫喱效果，隨著手指壓下來的力度產生極具質感的向內凹陷與回彈。

窗戶外的都市天際線與高樓.

▲我們上傳了一張有玻璃窗的圖片

貓咪在透明籠子內安靜休息，背景顯示室內環.

▲ 另外上傳了一段手指觸碰玻璃窗的影片，玻璃窗後有貓咪

結果：

海底世界的窗外景色，展示多彩熱帶魚在珊瑚.

▲影片開首，玻璃窗外的景色變成深海世界

海底世界水族館內部展示多彩珊瑚與熱帶魚.

▲ 鏡頭慢慢向右平移，Omni 為此畫面想像了一個現實不存在的魚缸

海底世界的魚群與珊瑚，與室內貓咪的悠閒景.

▲ 最後平移到貓

貓咪對手指感興趣，正在用鼻子嗅探，背景為.

▲當手指觸碰到窗戶玻璃時，原本堅硬的玻璃變成彈性的啫喱效果

可見 Gemini Omni 真的如指令生成影片，而且過渡非常流暢。如果要吹毛求疵，便是影片的畫面仍是比較像動畫，而非原本提供的寫實風格。

萬用Prompt ：如果你想試類似效果，可以試以下的指令：

「請將相片與影片結合成單一影片。第一鏡頭設定為那張玻璃窗相片，隨後將窗外原本的 [街景] 變為相片中所展現的 [全新奇幻空間]。接著，鏡頭以流暢的轉身或平移運鏡，無縫過渡到第二段影片中。當第二段影片中的 [主體] 觸碰到 [媒介 A] 時，該介質需要根據受力方向，轉化為具備 [指定物理質地/如啫喱、流體] 的凹陷與彈性回饋效果，保持前後物理規則與畫面美感的一致性。」

5. 建立你的虛擬化身

建立你的虛擬化身後，日後生成短片便可固定在片中用虛擬化身的外型。操作流程非常直觀。用戶只需點擊對話框旁的「+」號輸入選單，選取全新的「虛擬化身」功能，系統隨即會引導開啟鏡頭並錄製一段自拍短片，用以精確捕捉面部特徵與聲線。完成錄製後，只需在對話框中輸入文本，畫面上栩栩如生的 AI 化身就會用個人的聲音和神態自然地講述內容。

智能手機科技產品圖片.

▲用戶只需點擊對話框旁的「+」號輸入選單，選取全新的「虛擬化身」功能（ YouTube ）

智能手機自拍相片，展示用戶在手機上拍攝的.

▲系統隨即會引導開啟鏡頭並錄製一段自拍短片（ YouTube ）

不過，小編所用的 AI Pro 帳戶在實際測試時，在選單中仍未見到「虛擬化身」的按鈕。相信因為 Google 目前正採用分批推送機制，希望可以盡快為讀者試新功能。

如何搶先體驗

如果想第一時間用到 Gemini Omni Flash，目前最直接的方法是訂閱 Google AI Plus、Pro 或 Ultra 計劃，這樣就能直接在 Gemini 啟用。目前在 Gemini 應用程式中，付費的 Pro 計劃（即 Google AI Premium / Gemini Advanced）訂閱用戶，每日的使用額度大約限制在 3 至 5 條影片左右，每條長度10 秒）。最需要注意的是，額度限制並不是在每天午夜 12 點自動重置，而是嚴格採用「24 小時滾動冷卻機制」——意味著冷卻時間是從你上一次成功生成（或生成失敗）影片的精確時間開始，往後推移整整 24 小時。

更重要的是，Google 的新一代配額是以「運算力消耗為基礎（Compute-based）」。這表示生成一條普通的文字轉影片，與進行高算力的「多輪編輯」、「影片對影片風格揉合」或「生成 3D 物理啫喱特效」，所扣除的算力配額是完全不同的。一次極其複雜的多輪渲染指令可能就會瞬間消耗你當天 20% 甚至更多的運算配額。一旦當日算力用盡，系統就會提示你「達到生成上限，請在幾小時後再試」，用戶必須等待 5 小時的循環配額重置。這項限制無疑增加了每次多輪剪片時，提示詞下得精準與否的重要性。

另外，Google 亦正逐步將這個模型推送到 YouTube Shorts 和 YouTube Create 開發工具之中，創作者很快就能直接在手機上用這個新世代模型來進行即時的影片翻玩與剪輯。