NVIDIA 推出120B 參數模型 GTC 大會前夕推出解決代理 AI 長推理難題

NVIDIA 在 2026 年 GTC 大會前夕推出 Nemotron 3 Super 開源混合專家模型。該模型擁有 120B 參數，推論時僅啟用 12B 活躍參數，並針對 Blackwell 架構改良。NVIDIA 期望此模型加速企業自主代理系統，解決長推理與情境膨脹挑戰。

企業積極部署

多家 AI 原生企業及軟件平台已開始部署 Nemotron 3 Super。Perplexity 將模型納入其搜尋及 Computer 產品 20 個協作模型之一。CodeRabbit、Factory 及 Greptile 則整合模型至 AI 代理以降低成本。

Edison Scientific 及 Lila Sciences 等機構應用模型於深度文獻搜尋及分子理解任務。Amdocs、Palantir、Cadence、達梭系統及西門子亦部署模型，用於電信、資安、半導體設計等工作流程自動化。

Nemotron 3 Super 針對多代理系統兩大難題。長推理及情境膨脹令每次互動 token 量增至 15 倍，增加成本並令代理偏離任務。模型提供 100 萬 token 上下文視窗，保留完整工作流程避免偏移。

思考稅問題是指複雜代理每步驟需大型模型推論，導致成本高及速度慢。NVIDIA 透過高效架構解決此限制。

Nemotron 3 Super 採用混合專家架構（MoE）結合 Mamba 層及 Transformer 層。Mamba 層提升 4 倍記憶體及運算效率，Transformer 層則強化推論。

Latent MoE 技術以單專家成本啟用 4 個專家以提升準確度。多 token 預測同步預測多個未來 token，令推論速度增加 3 倍。相較前代，資料傳輸量增加 5 倍，準確度提升 2 倍。

在 Blackwell 平台使用 NVFP4 精度降低記憶體占用，推論速度比 Hopper 平台 FP8 快 4 倍，同時維持相同準確度。

NVIDIA 以寬鬆授權釋出模型權重，開發者可在工作站、資料中心或雲端部署及個人化。模型用合成資料訓練，NVIDIA 公開 10 兆 token 訓練資料集、15 個強化學習環境及評估流程。

開發者可透過 NVIDIA NeMo 平台微調模型或建構新模型。目前透過 build.nvidia.com、Perplexity、OpenRouter 及 Hugging Face 存取，並支援 NVIDIA NIM 微服務，實現從地端至雲端部署。

軟件開發代理一次載入完整程式碼庫，實現端到端生成及除錯。財務分析場景載入數千頁報告，避免重複推論以提升效率。高準確工具調度確保在龐大函式庫選正確功能，適用於資安自動化。