中國人工智能初創企業 DeepSeek 時隔近 5 個月再度對 V3 基座模型進行升級,新發佈的 DeepSeek V3.1 模型具備對中國製造晶片最佳化功能及更快處理速度。DeepSeek 在微信帖文中表示,V3.1 模型採用 UE8M0 FP8 精度格式,該格式專為「即將發佈的下一代國產晶片」而設計,但未具體說明新兼容功能支援哪些晶片型號或製造商。
今次是 DeepSeek 近月第三次模型更新,他們今年 3 月進行早期 V3 強化,至 5 月則發佈 R1 模型升級。據介紹,DeepSeek-V3.1 對分詞器及 chat template 進行較大調整,與 DeepSeek-V3 有明顯差異。新版本核心亮點是採用全新混合推理架構,允許模型在統一框架內支援「思考」與「非思考」兩種模式。
相對於其 R1 推理模型,V3.1 Think 模式能在更短時間內給出答案。通過「後訓練」最佳化,新模型在工具使用與代理任務中表現有較大提升,在 Aider 多語言編程基準測試中得分更超越 Anthropic Claude 4 Opus。
DeepSeek 表示,經過思維鏈壓縮訓練後,V3.1-Think 在輸出 token 數減少 20% 至 50% 情況下,各項任務平均表現與公司 R1-0528 持平,且在搜尋代理多項測評中取得較大提升,超越 R1-0528。
目前官方 App 與網頁端模型已同步升級至 V3.1,DeepSeek API(應用程式擴展介面)亦同步升級,且上下文均已擴展為 128K,意味着模型現時能處理更多訊息,並擁有更強記憶能力。新版本同時新增對 Anthropic API 格式支援以簡化遷移。
DeepSeek 指,V3.1 模型採用 UE8M0 FP8 精度格式,是針對下一代國產晶片設計。據了解,UE8M0 FP8 並非 NVIDIA 官方 FP8 標準,而是一種變體格式。目前支援 FP8 主要是 NVIDIA H 和 B 系列,國產晶片中已有明確支援 FP8 的產品。
外媒引述分析指出,對國產晶片兼容性關注可能表明,隨着北京在華盛頓出口限制背景下,繼續努力開發美國技術替代品,DeepSeek 正把其 AI 模型與中國不斷發展半導體生態系統保持一致。另一方面,DeepSeek 宣佈將於下月 6 日起執行新 API 定價方案,取消夜間優惠,被外界視為公司在服務能力擴容後,加速商業化進程關鍵一步。
來源:品玩
分享到 :
最新影片