人工智能

Google Nano Banana Pro 強化版圖像生成 AI 提升推理能力,圖中文字輸出能力

作者

Lawton
發佈日期

2025-11-21
閱讀時間

6分鐘
字體大小

Google 於 2025 年 11 月 20 日發表最新圖像生成 AI 模型 Gemini 3 Pro Image（又名 Nano Banana Pro）。這款基於 Gemini 3 Pro 構建的新模型，在資訊圖像化、文字渲染準確度及推理能力方面，均較上一代 Gemini 2.5 Flash Image（Nano Banana）有顯著提升。

▲應用1：將文章化成圖片

▲應用1：將文章化成圖片甚至是圖表

▲應用2：手繪圖案之後，可以輸出不同應用圖片

▲應用2：更可應用在不同場景

▲應用3：輸入一個故事，可為故事產生連環圖片

推理功能強化資訊圖像化

Google 表示 Nano Banana Pro 搭載 Gemini 3 先進推理功能，除能生成圖像，更可將資訊轉化為資訊圖表（infographic）或將手寫筆記轉換成圖表。模型能理解複雜指令，例如「將日落變得更戲劇化，同時保留原有氛圍」，無需使用遮罩或圖層，僅透過自然語言即可執行精確轉換。內部測試顯示，用戶甚至輸入程式碼片段或 LinkedIn 履歷，模型便能產出資訊圖表。

文字渲染準確度大幅提升

圖像生成 AI 過往常將文字視為圖案，導致生成文字雜亂無章。Nano Banana Pro 利用 Gemini 強化多語言推理功能，大幅改善文字渲染準確度。測試顯示，當要求模型以日文製作咖喱烹飪流程圖表時，上一代 Nano Banana 生成日文文字錯漏百出，數字順序亦不正確；相比之下 Nano Banana Pro 生成日文及插圖均準確無誤，僅有少數箭頭指向錯誤。

▲過往 Nano Banana 文字輸出較弱，經常輸出一些意思不明的文字

▲Nano Banana Pro 大幅提升文字輸出能力

支援多圖像合成與高解像度輸出

新模型可同時使用最多 14 張圖像進行合成，並維持最多 5 個人物一致性與相似度。用戶能夠將多個元素融合為單一構圖，將草圖轉化為產品，或將藍圖轉換為逼真 3D 結構。同時 Nano Banana Pro 支援最高 4K 解像度輸出，針對專業應用提供更高品質選項。

編輯功能與使用方式

Nano Banana Pro 提供進階編輯控制，用戶可選擇並編輯圖像任何部分，調整相機角度、焦點、色調，甚至將日間圖像轉換為夜景。模型在 Gemini 應用程式中提供，用戶選擇「思考」模式後點選「建立圖片」即可使用。免費與付費訂閱 Google AI 用戶均可使用，但免費用戶圖像生成數量有限制。每次編輯費用為 0.15 美元（約港幣 HK$1.17），並可同時生成最多 4 個版本。

防偽措施與未來發展

為辨別 AI 生成圖像，Google 在 Nano Banana Pro 生成圖像中嵌入 C2PA 元數據，並透過 SynthID 電子浮水印進行檢測。Gemini 應用程式現已新增 @SynthID 擴充功能，用戶可上傳圖像檢查是否由 AI 生成，影片及音訊支援即將推出。Google 宣布將把 Google 廣告圖像生成功能升級至 Nano Banana Pro，並擴展至 Google Slides 及 Google Vids 的 Workspace 用戶。

資料來源：Google