NVIDIA 在 2026 年 GTC 大會前夕推出 Nemotron 3 Super 開源混合專家模型。該模型擁有 120B 參數,推論時僅啟用 12B 活躍參數,並針對 Blackwell 架構改良。NVIDIA 期望此模型加速企業自主代理系統,解決長推理與情境膨脹挑戰。
企業積極部署
多家 AI 原生企業及軟件平台已開始部署 Nemotron 3 Super。Perplexity 將模型納入其搜尋及 Computer 產品 20 個協作模型之一。CodeRabbit、Factory 及 Greptile 則整合模型至 AI 代理以降低成本。
Edison Scientific 及 Lila Sciences 等機構應用模型於深度文獻搜尋及分子理解任務。Amdocs、Palantir、Cadence、達梭系統及西門子亦部署模型,用於電信、資安、半導體設計等工作流程自動化。
解決代理應用限制
Nemotron 3 Super 針對多代理系統兩大難題。長推理及情境膨脹令每次互動 token 量增至 15 倍,增加成本並令代理偏離任務。模型提供 100 萬 token 上下文視窗,保留完整工作流程避免偏移。
思考稅問題是指複雜代理每步驟需大型模型推論,導致成本高及速度慢。NVIDIA 透過高效架構解決此限制。
混合架構三大創新
Nemotron 3 Super 採用混合專家架構(MoE)結合 Mamba 層及 Transformer 層。Mamba 層提升 4 倍記憶體及運算效率,Transformer 層則強化推論。
Latent MoE 技術以單專家成本啟用 4 個專家以提升準確度。多 token 預測同步預測多個未來 token,令推論速度增加 3 倍。相較前代,資料傳輸量增加 5 倍,準確度提升 2 倍。
在 Blackwell 平台使用 NVFP4 精度降低記憶體占用,推論速度比 Hopper 平台 FP8 快 4 倍,同時維持相同準確度。
開放授權及訓練資料
NVIDIA 以寬鬆授權釋出模型權重,開發者可在工作站、資料中心或雲端部署及個人化。模型用合成資料訓練,NVIDIA 公開 10 兆 token 訓練資料集、15 個強化學習環境及評估流程。
開發者可透過 NVIDIA NeMo 平台微調模型或建構新模型。目前透過 build.nvidia.com、Perplexity、OpenRouter 及 Hugging Face 存取,並支援 NVIDIA NIM 微服務,實現從地端至雲端部署。
代理系統應用
軟件開發代理一次載入完整程式碼庫,實現端到端生成及除錯。財務分析場景載入數千頁報告,避免重複推論以提升效率。高準確工具調度確保在龐大函式庫選正確功能,適用於資安自動化。
資料來源:
NVIDIA Blog,MEXC News,Together AI
分享到 :
最新影片