美國國家標準與技術研究院 (NIST) 轄下的人工智能標準與創新中心 (CAISI) 與商務部 9 月 30 日發布首份針對中國 DeepSeek AI 模型的評估報告,指出 DeepSeek 模型在性能、成本、安全等多方面均落後美國同類模型,並因安全缺陷和內置審查制度對美國使用者與國家安全構成風險。
性能測試全面落後
CAISI 專家評估 3 個 DeepSeek 模型 (R1, R1-0528 和 V3.1) 與 4 個美國模型 (OpenAI 的 GPT-5, GPT-5-mini, gpt-oss 及 Anthropic 的 Opus 4),涵蓋 19 個領域的基準測試。結果顯示 DeepSeek 模型幾乎全部得分低於美國模型,在軟件工程和網絡任務方面差距最大,美國最佳模型比 DeepSeek 最佳模型多解決 20% 以上的任務。報告亦指 DeepSeek 模型使用成本高於同類美國模型,在 13 個效能基準測試中,美國參考模型平均成本比最佳 DeepSeek 模型低 35%,效能卻更接近。
安全漏洞嚴重
報告特別強調 DeepSeek 模型存在嚴重安全問題。即使是 DeepSeek 最安全的 R1-0528 模型,也更容易受到代理劫持攻擊,執行惡意指令的可能性平均比美國前沿模型高 12 倍,被劫持的代理會在模擬環境中傳送釣魚郵件、下載並執行惡意軟件及竊取使用者登入憑證。在越獄攻擊測試中,DeepSeek 最安全的模型回應 94% 的明顯惡意請求,而美國參考模型僅回應 8%。
內建中國政府審查
報告基於 CAISI 與美國國務院聯合開發的新基準,測試 DeepSeek 模型在政治敏感問題上的表現。研究發現中國政府審查制度直接內建在 DeepSeek 模型中,這些模型比美國模型更符合中國政府敘事,其中 R1-0528 模型使用中文提示時符合率高達 25.7%。報告指 DeepSeek 模型附和中共宣傳的不準確和誤導性內容是美國參考模型的 4 倍。
商務部長警告依賴外國 AI 風險
美國商務部長盧特尼克 (Howard Lutnick) 在社交媒體表示,發布這些調查結果是為幫助確保美國在 AI 領域繼續保持領先地位。他強調報告明確指出 DeepSeek 遠遠落後,尤其在網絡和軟件工程領域,這些弱點不僅是技術層面,也表明依賴外國 AI 是危險且短視的。
DeepSeek 推新模型並降價
就在美國政府發布評估報告前夕,DeepSeek 於 9 月 29 日推出實驗性新模型 V3.2-Exp,同時大幅調降官方 API 價格超過 50%。新模型引入名為 DSA (DeepSeek Sparse Attention) 的新技術,目標是提升處理長文本序列的效率,DeepSeek 對美國政府評估報告尚未回應置評請求。
來源:NIST
分享到 :
最新影片
