Google Veo 2 AI 影片生成懶人包　圖片變影片 + 物理模擬極真實 + 穩定生成單一角色

2024-12-18

Published by

Oscar

人工智能日新月異，現在生成的圖片、影片都已經難辨真假。Google 最近推出的 Veo 2 使用 Imagine 3 引擎，大幅提升了影片生成像真度，無論是視覺效果還是物理模擬，都達到了前所未有的精細度。Veo 2 生成速度和細緻度顯著超越現有的 AI 影片生成技術。

物理模擬能力強大

Veo 2 的物理模擬能力傲視同儕，遠遠超越其他同類型模型。初代影片生成模型在模擬液體流動、互動等物理現象時，時有不自然的情況，而 Veo 2 解決了上述問題，能夠精準重現水果掉進魚缸時濺起的水花、倒咖啡時液體的流動，令影片栩栩如生，充滿真實感。

▲濺起的水花逼真至極，圖片來源：Jerrod Lew@YouTube

▲小狗潛下水底時的氣泡非常清晰，圖片來源：Google DeepMind@YouTube

Google DeepMind 上傳的示範影片可見 Veo 2 能夠完美重現倒咖啡的過程，從液體流動、濺出的水花，到杯子與液體之間的相互作用，細節栩栩如生。Veo 2 生成的影片精緻度甚高，讓觀眾有如身臨其境。

▲如非註明，相信大家都覺得這是實拍影片，圖片來源：Google DeepMind@YouTube

能連續生成統一人物

除了在物理模擬方面表現出色，Veo 2 在創意呈現上同樣驚為天人。無論是動作片中的激烈場景，還是劇情片中的細膩情感，這款模型都能夠活靈活現完美再現。YouTuber TheAIGRID 分享的作品顯示 Veo 2 成功生成一部薯仔做主角的處境喜劇，雖然這個設定相當「有創意」，Veo 2 仍能確保人物視覺一致性，顯示其處理複雜場景和角色的能力。

▲使用 Veo 2 生成，由薯仔做主角的處境喜劇，圖片來源：TheAIGRID@YouTube

TheAIGRID 亦分享了一條由薯仔做主角的動作影片，影片中的薯仔因天雨路滑而跣腳，薯仔的動作非常靈活，而且 Veo 2 會生成滑倒時濺起的水花。

▲生成薯仔滑倒的場景非常滑稽，圖片來源：TheAIGRID@YouTube

▲Veo 2 沒有忘記生成滑倒時四濺的水花，圖片來源：TheAIGRID@YouTube

此外 Veo 2 處理動態場景亦游刃有餘。以往要生成車輛高速行駛衝落瀑布的場景極具挑戰，而 Veo 2 卻能精確捕捉車輛運動、空氣阻力和水花飛濺等細節，並且完美符合現實物理規律，展現出無可比擬的真實感。

▲可呈現汽車高速行駛的速度感，圖片來源：TheAIGRID@YouTube

▲水花飛濺符合現實物理邏輯，圖片來源：TheAIGRID@YouTube

數分鐘即生成 8 秒 720p 影片

與同類工具相比，Veo 2 的影片生成速度迅捷如風，只需幾分鐘便可生成一部 720p 影片，而且生成的影片在畫質和細節上都堪稱無懈可擊平，未來或可生成更高解像度、時間更長的影片。

▲紅鶴的羽毛條條分明，水面的漣漪亦非常精細，圖片來源：Google DeepMind@YouTube

值得一提的是，Veo 2 在高解析度和光影效果方面的表現，尤其在動態場景中更為突出。從車輛反射、液體流動，到快節奏動作場景中的每一個細節，所有元素都經過精心呈現，讓觀眾能夠感受到影片中的每一分變化。

▲汽車的反射非常像真，圖片來源：Google DeepMind@YouTube

▲會生成高速轉彎時輪胎磨擦地面產生的煙霧，圖片來源：Google DeepMind@YouTube

文字生成、圖片轉影片均可

Veo 2 提供了兩種主要的影片生成方式：文字轉影片和圖片轉影片。文字轉影片功能讓用戶可以直接通過輸入文字提示來生成相應的影片。此功能的強大之處在於，它能根據詳盡的描述生成高度真實且富有電影感的畫面，無論是人物的服裝、鏡頭角度，還是場景的燈光設置，都展現出一絲不苟的精準控制。

▲文字生成影片介面，可輸入極詳細的文字 Prompt，圖片來源：Jerrod Lew@YouTube

▲生成的影片符合輸入的指令，圖片來源：Jerrod Lew@YouTube

▲輸入簡單指令亦可生成擬真度極高的影片，圖片來源：Cyber Jungle@YouTube

指令： An extreme close-up shot focuses on the face of a female DJ, her beautiful, voluminous black curly hair framing her features as she becomes completely absorbed in the music. Her eyes are closed, lost in the rhythm, and a slight smile plays on her lips. The camera captures the subtle movements of her head as she nods and sways to the beat, her body instinctively responding to the music pulsating through her headphones and out into the crowd. The shallow depth of field blurs the background. She’s surrounded by vibrant neon colors. The close-up emphasizes her captivating presence and the power of music to transport and transcend.

中文翻譯：非常近的特寫鏡頭對焦在女 DJ 的臉，她那美麗而豐盈的黑色捲髮勾勒出她的五官正全神貫注於音樂中，她的雙眼微閉，沉浸在節奏中，嘴角微微上揚，露出一絲微笑。鏡頭捕捉到她頭部隨著節拍點頭擺動的微妙動作，身體本能地隨著音樂在耳機中傳來的脈動回應，並向人群散發著能量。背景因為淺景深而模糊，周圍被鮮豔的霓虹色彩所包圍。這個特寫鏡頭突顯出她迷人的存在感，以及音樂帶來將人帶入另一個境界的力量。

▲處理複雜指令亦易如反掌，描述愈仔細 Veo 2 就可以生成愈逼真的影片，圖片來源：Google DeepMind

指令： Low-angle tracking shot, 18mm lens. The car drifts, leaving trails of light and tire smoke, creating a visually striking and abstract composition. The camera tracks low, capturing the sleek, olive green muscle car as it approaches a corner. As the car executes a dramatic drift, the shot becomes more stylized. The spinning wheels and billowing tire smoke, illuminated by the surrounding city lights and lens flare, create streaks of light and color against the dark asphalt. The cityscape – yellow cabs, neon signs, and pedestrians – becomes a blurred, abstract backdrop. Volumetric lighting adds depth and atmosphere, transforming the scene into a visually striking composition of motion, light, and urban energy.

中文翻譯：低角度追蹤鏡頭，使用18mm鏡頭。車輛漂移時，留下燈光和輪胎煙霧的軌跡，創造出視覺上引人注目且抽象的構圖。鏡頭低位追蹤，捕捉到流線型的橄欖綠色肌肉車轉彎時的動態。隨著車輛進行戲劇性的漂移，鏡頭風格變得更加獨特。旋轉的車輪和洶湧的輪胎煙霧，受到周圍城市燈光和鏡頭光暈的照射，形成光線和色彩的條紋，與黑暗的瀝青路面形成對比。城市景觀—黃色的士、霓虹燈招牌和行人—成為模糊的抽象背景。體積光照增添了深度和氛圍，將場景轉化為一幅動態、光線和都市能量的視覺衝擊構圖。

▲可要求 Veo 2 模擬不同角度、焦距拍攝去生成影片，圖片來源：Google DeepMind

指令：Cinematic shot of a female doctor in a dark yellow hazmat suit, illuminated by the harsh fluorescent light of a laboratory. The camera slowly zooms in on her face, panning gently to emphasize the worry and anxiety etched across her brow. She is hunched over a lab table, peering intently into a microscope, her gloved hands carefully adjusting the focus. The muted color palette of the scene, dominated by the sickly yellow of the suit and the sterile steel of the lab, underscores the gravity of the situation and the weight of the unknown she is facing.The shallow depth of field focuses on the fear in her eyes, reflecting the immense pressure and responsibility she bears.

中文翻譯：電影感鏡頭中一位女性醫生穿著暗黃色防護服，站在實驗室中被刺眼的螢光燈照亮。鏡頭慢慢拉近她的臉，輕微地平移強調她額頭上刻畫出的擔憂和焦慮。她俯身在實驗桌旁，專注地凝視著顯微鏡，戴著手套的雙手小心地調整焦距。場景的色調飽和度低，主要由防護服的病態黃色和實驗室的潔淨鋼鐵色調主導，突顯出當前情境的嚴峻，以及她面對未知的沉重壓力。淺景深聚焦於她眼中的恐懼，映射出她所承受的巨大壓力和責任。

▲也可利用指令控制影片的燈光效果，圖片來源：Google DeepMind

指令：The camera floats gently through rows of pastel-painted wooden beehives, buzzing honeybees gliding in and out of frame. The motion settles on the refined farmer standing at the center, his pristine white beekeeping suit gleaming in the golden afternoon light. He lifts a jar of honey, tilting it slightly to catch the light. Behind him, tall sunflowers sway rhythmically in the breeze, their petals glowing in the warm sunlight. The camera tilts upward to reveal a retro farmhouse with mint-green shutters, its walls dappled with shadows from swaying trees. Shot with a 35mm lens on Kodak Portra 400 film, the golden light creates rich textures on the farmer’s gloves, marmalade jar, and weathered wood of the beehives.

中文翻譯：鏡頭輕柔地穿過一排排粉彩色的木製蜂箱，嗡嗡作響的蜜蜂在畫面中進出。鏡頭停留在站立於中央的農夫身上，他穿著潔白的養蜂服，在金色午後的陽光下閃閃發光。他舉起一瓶蜂蜜，輕輕傾斜，讓陽光照射進瓶中。農夫背後，高高的向日葵隨著微風節奏輕輕搖曳，花瓣在溫暖的陽光下閃耀。鏡頭向上傾斜，顯示出一座復古風格的農舍，配有薄荷綠色的百葉窗，牆面上斑駁的陰影來自搖曳的樹木。這一切使用 35mm 鏡頭搭配 Kodak Portra 400 菲林拍攝，金色的光線為農夫的手套、果醬瓶和蜂箱的風化木材增添了豐富的質感。

▲甚至可以叫 Veo 2 模仿菲林效果，圖片來源：Google DeepMind

雖然 Veo 2 目前不支援用戶上傳自己的圖片，不過用戶可以利用 Google 的 Imagine AI 藝術模型生成所需圖片，然後將其轉換為影片，這個功能名為「Text to Image to Video」，用戶可以先利用文字生成滿意的圖片，之後利用剛才生成的圖片作為影片開頭，並轉化為影片，為用戶提供了更多創意空間，並生成符合個人需求的影片。

▲首先輸入文字指令生成圖片，圖片來源：Jerrod Lew@YouTube

▲告訴 AI 如何運鏡、畫面動作，圖片來源：Jerrod Lew@YouTube

▲現在 Veo 2 就可以幫你將圖片變成影片，圖片來源：Jerrod Lew@YouTube

Google DeepMind 官方示範影片

下面是 Google DeepMind 官方發布的示範影片，可見除了生成像真度極高的影片，Veo 2 亦可生成卡通、抽像及富有幻想力的影片。如果不是一早註明這些影片是由 AI 生成，相信大家也會認為下面的影片都是實際拍攝吧。目前 Veo 2 可以生成 8 秒鐘 720p 影片，估計未來可生成時間更長、畫質更高的影片。

總結

Veo 2 標誌著 Google 在 AI 影片生成領域的突破性進展。隨著技術不斷發展，未來 Veo 2 有望在畫質、生成速度及創意自由度等方面實現更多突破。總括而言，Veo 2 無論在視覺效果、物理模擬，還是創意表現和多元創作方式上，都展現出卓越的優勢，使其成為目前市場上最具潛力的影片生成模型之一。

▲可生成極富創意的影片，圖片來源：Jerrod Lew@YouTube

======

加入 unwire thread 傾傾科技背後黑暗事

========

Published by

Oscar

1 年前 ago