OpenAI 與 Anthropic 聯合安全評估　測試對方模型揭示不足之處

OpenAI 與 Anthropic 兩大人工智能公司首次達成合作協議，對彼此公開發布的系統進行安全性評估，並分享詳細分析結果。儘管兩間公司此前關係緊張，但這次聯合評估為業界樹立新標準，亦揭示兩家公司在人工智能安全方面仍有改善空間。

Anthropic 主要針對 OpenAI 模型測試多個關鍵範疇，包括諂媚傾向、告密行為、自我保護意識，以及是否支援人類濫用等問題。測試亦涵蓋破壞人工智能安全評估和監督的能力。

評估結果顯示，OpenAI 的 o3 及 o4-mini 推理模型表現較理想，與 Anthropic 自家模型的結果相近。然而，GPT-4o 及 GPT-4.1 通用型模型在濫用方面表現令人擔憂。除 o3 外，所有被測試的模型都不同程度地出現「擦鞋」問題。

Anthropic 的測試並未包括 OpenAI 最新發布的 GPT-5。GPT-5 配備名為 Safe Completions 的功能，旨在保護用戶及公眾免受潛在危險查詢的影響。這項新技術採用輸出導向的安全訓練方法，既能提升模型實用性，又能維持安全界限。

OpenAI 則對 Anthropic 的 Claude 模型進行指令階層、越獄攻擊、幻覺現象及欺騙行為測試。結果顯示，Claude 模型在指令階層測試中表現優異，在幻覺測試中拒絕率偏高，意味在不確定情況下較少提供可能錯誤的答案。

測試發現推理模型在多項評估中普遍表現較佳。OpenAI 共同創辦人 Wojciech Zaremba 表示，隨著人工智能進入「關鍵發展階段」，每日服務數百萬用戶，這類跨實驗室合作變得愈發重要。

兩家公司的合作尤其引人注目，因為 Anthropic 早前曾撤銷 OpenAI 對其工具的存取權限，指控 OpenAI 程式設計師在開發新 GPT 模型時違反服務條款使用 Claude。儘管存在競爭關係，雙方仍同意為這次評估提供特殊 API 存取權限，允許測試安全防護較少的模型版本。

隨著法律專家及批評人士日益關注人工智能工具安全性，特別是對未成年人的保護，這次聯合評估展示業界如何在激烈競爭中仍可就安全與對齊研究進行合作。兩家公司均表示，評估結果將有助改善未來安全測試方法。

這次破天荒的合作為人工智能行業建立新標準，證明即使在數十億美元投資及人才爭奪戰的環境下，頂尖人工智能公司仍可攜手應對安全挑戰。

資料來源：OpenAI

最新影片