Google 於 2026 年 6 月 3 日正式發布開源模型 Gemma 4 12B。模型主打以低硬件門檻實現接近大型模型效能。開發者只需配備 16GB VRAM 的普通手提電腦,便能在本地流暢運行這款具 120 億參數的多模態模型,同時享有代理推理(Agent Reasoning)及多模態處理能力。
效能表現:以小搏大直追 26B
根據 Google 公布的基準測試數據,Gemma 4 12B 多項指標均超越上一代 Gemma 3 27B,顯示第四代架構於訓練與推論效率有顯著提升。12B 版本表現極接近體積大一倍的 Gemma 4 26B,科學問答 GPQA Diamond 項目取得 78.8 分,MMLU Pro 則為 77.2 分。視覺問答方面 Gemma 4 12B 於 DocVQA 項目獲得 94.9 高分,InfoVQA 亦有 88.4 分表現,證明模型具備處理複雜圖表及萃取資料能力。

統一架構:捨棄獨立編碼器
Gemma 4 12B 採用全新統一架構(Unified Architecture),完全移除傳統多模態模型所需的視覺及音訊編碼器,改以輕量化嵌入模組(Embedding Module)替代。原始音訊訊號及視覺輸入可直接投影至與文字標記(Text Token)相同空間,語言模型主幹可直接處理多模態工作。架構改良有效降低系統反應延遲,同時減少記憶體佔用,令整體記憶體用量不足 Gemma 4 26B 一半。
原生音訊輸入:Gemma 4 系列首創
Gemma 4 12B 亦是 Google Gemma 4 系列首款支援原生音訊輸入的中型模型,適合用於開發語音助理及各類需要即時多模態處理的邊緣 AI 應用。模型亦內置多標記預測(Multi-Token Prediction,MTP)起草器,進一步壓縮推論延遲以提升回應速度。
開放授權:Apache 2.0
Gemma 4 12B 依循 Apache 2.0 授權條款開放使用,開發者現可於 Hugging Face 或 Kaggle 下載模型權重。低硬件門檻加上寬鬆授權條款,令模型成為企業開發內部機密資料分析工具、語音助理及各類邊緣 AI 應用的務實選擇,進一步擴大本地 AI 開發的應用範疇。
資料來源:Google Blog
