中國 AI 初創企業 DeepSeek 預計在 2 月中旬農曆新年前後推出新一代旗艦級 AI 模型 V4,主打強勁程式碼生成能力。兩位直接知情人士透露,這款新模型是 2024 年 12 月發布 V3 模型升級版,內部基準測試顯示其程式碼生成表現優於 Anthropic Claude、OpenAI GPT 等現有主流模型。
處理超長程式碼提示詞取得突破
知情人士表示,V4 模型處理及解析超長程式碼提示詞方面實現技術突破,對從事複雜軟件開發工程師具備顯著應用優勢。模型在訓練全流程中對數據模式理解能力亦得到改良,且未出現效能衰減問題。傳統 AI 模型在多輪次訓練過程中,數據模式識別精度往往會衰減,擁有大規模 AI 晶片運算群研發機構通常需透過增加訓練輪次解決這問題。
其中一位知情人士指出,用戶或會發現 V4 模型輸出答案邏輯更嚴謹清晰,反映該版本模型具備更強推理能力,執行複雜任務時可靠性將大幅提升。
新訓練架構突破算力限制
DeepSeek 上週發表由行政總裁梁文鋒聯合署名研究論文,提出名為「Manifold-Constrained Hyper-Connections」(mHC) 全新訓練架構。該架構支援研發人員在不按比例增加晶片資源前提下,構建參數規模更大 AI 模型。Counterpoint Research 首席分析師 Wei Sun 向 Business Insider 表示,這個方法是「突破性進展」,DeepSeek 結合多種技術將訓練成本降至最低,即使成本略有增加,新訓練方法也能產生更高効能。
低成本優勢震動業界
DeepSeek 憑藉低成本高效能優勢在全球 AI 領域嶄露頭角。該公司 R1 推理模型於 2025 年 1 月發布後震動矽谷與華爾街,訓練成本約 1,200 萬美元(約 9,360 萬港元),遠低於美國競爭對手。相比之下 OpenAI 年度訓練及推理成本接近 70 億美元(約 546 億港元),GPT-4 年度成本超過 54 億美元(約 421.2 億港元)。DeepSeek 在中國市場推出融合 R1 與 V3 雙模型能力聊天機械人後迅速走紅,在發展中國家亦獲廣泛採用。
2024 年 12 月發布 V3.2 版本在部分基準測試中表現優於 OpenAI GPT-5 及 Google Gemini 3.0 Pro,但此後該公司未推出重量級升級模型,令即將推出 V4 模型備受業界矚目。截至目前,DeepSeek 未就此事回應置評請求。
資料來源:cnBeta
分享到 :
最新影片