中國 AI 新創公司 DeepSeek 在 2026 年元旦假期發布技術論文,提出名為「流形約束超連接」(mHC)訓練框架,解決大型語言模型訓練過程不穩定問題。由創始人梁文鋒參與撰寫的論文迅速引發業界關注,多家國際科技媒體稱為「突破性進展」。
mHC 技術針對現有超連接(Hyper-Connections, HC)架構缺陷而設計。何愷明於 2016 年提出殘差連接技術奠定深度學習發展基礎,2024 年業界進一步提出 HC 超連接概念,惟 HC 訓練過程容易出現不穩定狀況。DeepSeek 論文以 27B 參數模型為例,指出 HC 在約 1,200 步訓練後出現損失激增,放大倍數峰值達 3,000 倍,導致訓練無法持續。
DeepSeek 提出的 mHC 架構將 HC 殘差連接空間映射到特定流形,恢復身份映射特性,同時加入嚴格基礎設施最佳化以確保效率。技術將放大倍數控制在約 1.6 倍,相比 3,000 倍大幅降低,讓訓練全程保持穩定。
在 27B 參數模型測試中,mHC 訓練時間僅增加 6.7%,複雜推理任務準確率從 43.8% 提升至 51.0%,閱讀理解任務從 47.0% 提升至 53.9%。DeepSeek 論文表示結論已獲內部大規模實驗進一步證實,暗示公司已完成新一代基座大模型 DeepSeek V4 訓練。
論文發布時機引發外界揣測。DeepSeek 過往在 R1 模型發布前曾公開基礎訓練研究,分析師認為 mHC 技術將成為下一代旗艦模型核心架構。根據社交媒體消息,DeepSeek V4 預計 2026 年 2 月 17 日農曆新年假期間推出,與去年 DeepSeek R1 發布節奏相符。
至於外界期待 DeepSeek R2 推理模型,Business Insider 報道指原定 2025 年中發布 R2 因梁文鋒對效能不滿而延遲。部分分析師認為可能不會有獨立 R2 版本,因 DeepSeek 已將早期 R1 更新整合至 V3 模型,mHC 技術也可能直接應用於 V4。不過考慮當前競爭態勢,DeepSeek 仍可能採取雙線策略,讓 V4 專攻通用市場,另推 R2 針對編程等專業領域與 Claude 競爭。
根據現有資訊,DeepSeek V4 確定支援 FP8 算子,可在國產 AI 晶片上訓練,預料屬多模態模型。2025 年 DeepSeek V3/R1 讓開源大模型首次登頂業界榜首,外界期待 V4 能帶來同等影響力創新突破。
來源:DeepSeek