中國 AI 初創 DeepSeek 低調推出推理模型 R1 的更新版本「DeepSeek-R1-0528」,在編程基準測試中表現大幅提升,成為中國 AI 模型中編程能力最強者,僅次於 OpenAI 的 o4-mini 系列。用戶報告新版本在推理深度、程式碼生成和輸出品質方面有顯著改善,但回應時間有所增加。
DeepSeek 透過微信群組確認完成 R1 模型的「小幅試驗性升級」,新版本已在官網聊天機器人和手機應用程式正式推出。DeepSeek 未披露更新具體技術細節,僅在 Hugging Face 開源平台發布模型權重和配置文件,不含任何說明文件。
LiveCodeBench 編程基準測試平台顯示,DeepSeek-R1-0528 在 AI 輔助編程領域排名第 4 位,超越阿里巴巴最新 Qwen3 模型和被視為頂尖編程模型的 Anthropic Claude 3.7,僅落後於 OpenAI 的 o4-mini-high、o3-high 和 o4-mini-medium。
用戶測試發現 DeepSeek-R1-0528 在多個方面有明顯改進。思維鏈推理行為變得更加結構化,展現類似 Google 模型的深度推理能力。編程性能獲得強力提升,代碼生成連貫性和輸出整潔度大幅改善,部分用戶將其與 Claude 3.7 的代碼生成能力相提並論。
新版本採用更審慎、深思熟慮的推理風格,單項任務思考時間可達 30 至 60 分鐘,體現「不僅快速而且深思熟慮的獨特推理風格」特徵。用戶普遍認為雖然回應時間變慢,但更準確的結果值得這種取捨。
來源:SCMP
分享到 :
最新影片