在 AI 影像生成技術進入白熱化競爭的 2026 年,Google 推出 Nano Banana 2(正式名稱為 Gemini 3 Flash Image)為 AI 製圖市場投下了一枚震撼彈。這款模型不再只是機械式地堆砌像素,它展現出一種前所未有的「語意理解力」,能夠精準修正用家想修改的部份,而不會像以前會影響圖片的其他部份,猶如一把精準的改圖手術刀。以下我們就會為大家分析 Nano Banana 2 的優點,並一篇文就學懂新升級的各種新元素。
需要連上 VPN(並選擇香港以外國家地區),另需要登入你的 Google 帳戶
在輸入指令後,在下方選單選擇「建立圖像」便可。
網址:https://arena.ai/zh/image/direct
如果你沒有 VPN 的話,可進入 Arena.ai 網站,並選擇使用 Image(圖像功能)與 Gemini 3 Pro,便可使用 Nano Banana 2。
過去我們在使用文生圖功能時,最常遇到的挫折莫過於模型無法處理複雜的空間關係,或是對於特定文字的嵌入感到吃力。在本次的實測中,我首先嘗試挑戰它的「空間邏輯」。我們嘗試給出一個包含多層次元素的指令。
觀察點:Nano Banana 2 輕易地克服了傳統 AI 容易出現的文字拼寫錯誤,那行書名清晰可辨,毫無扭曲。光學細節處理更有專業級相片輸出,左側玻璃杯中的藍色液體產生真實折射效果,甚至連背景雨夜窗戶的微光都細膩地透射在水面。
▲觀察點: 陰影與質感的過渡細膩,仍感到植物有一點「數碼感」,但已經很不錯
接著我們將測試難度提升至動態捕捉,嘗試讓它生成一隻在海灘奔跑並濺起水花的金毛獵犬。
▲觀察點: 淺起的水滴夠清晰,動物毛髮的動態亦十分自然。
進入影像編輯功能的測試階段時,Nano Banana 2 展現出了如同「數碼手術刀」般的精準度--它能在保持原圖一致性的前提下,進行局部的結構性修改。例如我們上傳了一張穿著正式西裝的照片,隨後下達指令要求將西裝外套換成 Jacket。
測試目標: 測試模型在保持「原圖一致性」的前提下,進行局部修改的準確度。
▲觀察點:模型可精準識別肩膀與軀幹的邊界,新生成的夾克布料細節都適應原本的身體姿勢,而在此之下原本的西褲準確地沒有被修改,而背景圖案也沒有被修改。過往圖片會被不合理地修整,現在此問題已得到改善。
為進一步測試 Nano Banana 2 的「場景擴增」能力,我們輸入了一張狹窄的咖啡杯特寫,並要求它將畫面往外擴展,展示出巴黎塞納河畔的露天場景。
▲觀察點:Nano Banana 2 完整複製了咖啡桌的紋理,也根據原圖杯子右上角打進去的陽光角度,推算出新圖片的環境光源方向。模型對環境光影的「全局理解」,讓它在處理風景照的細節增減時更好。但可留意到原本咖啡杯的細節保持不變
我們也測試了 Nano Banana 2 最具野心的功能:多圖融合與風格遷移。這項功能考驗的是模型如何將不同來源的資訊進行「邏輯化」的整合。
在 Nano Banana 2 當中,你可以將多個角色、多個物件放入到同一個場景中,而新製作出來的相片,能夠保持他們原本的風格。
▲可看到我們將不同物件的圖片上載,能結合成一張全新的集合圖片。雖然相機比例好像小了一點,但你可通過後續向 AI 落指令,將特定物件放大縮小
我選取了貓貓相片作為主體,並配上一張荒涼的火星地表圖,要求模型將貓轉移到火星場景中,並為其穿上特製的太空衣。
▲最初我們輸入的 2 張圖片,分別是貓圖片以及火星地表圖片
▲動漫人物可自然地融入真實風的風景圖片,另外人物設計亦在新圖片中保持與原圖一致
除了功能的進化,Nano Banana 2 在畫質輸出的物理極限上也帶來了飛躍性的突破,正式支援原生 4K 高解析度輸出。對追求極致細節的專業工作者而言,無疑是最具吸引力的升級。只要在生成圖片時,叫它輸出 4K 畫質圖片即可。這次我們就生成了一些 4K 畫質的圖片:
▲以這張東京鐵塔的城市景觀圖片為例,在電腦檢查它的大小,可發現其解像度達到 2752 x 1536
▲ AI 製作出來的圖片,已足夠成為一張桌面牆紙
Nano Banana 2 也進一步改善在圖片中準確植入大量且連貫的文字。過去的模型能準確寫出幾個單字已屬不易,但 Nano Banana 2 可展現近乎排版軟件的製作準繩度。
首先我們嘗試輸入一篇耳機的評測文章,之後叫 Nano Banana 2 將文章裡面提及過產品優點,連同產品名稱、售價一併加入圖片當中:
▲結果可看到幾乎與人手在 InDesign 等排版軟件上製作的質素極為相近。而我們可留意到,AI 在圖片中耳機的左手邊填充了一些內容,令文字可在這裡插入,這也解決了我們編輯經常遇到的問題。
在上面完成的圖片,我們可將之翻譯成其他語言。這樣方便你將其他語言的圖片,很方便翻譯成你想要的語言,而文字編排的風格又跟原圖相近:
經過一整天的深度實測,Nano Banana 2 給我們的整體感受是「流暢且更具智慧」。它大幅降低了與 AI 溝通的門檻,更在細節處理上達到了專業級別。Nano Banana 2 的出現,預示著 2026 年的影像創作將從單純的「生成」邁向更深層次人類與 AI 的「共同創作」。