人工智能

Anthropic AI 模型竟會勒索用家　威脅不得取代自己否則揭露外遇

作者

藍骨
發佈日期

2025-05-24
閱讀時間

4分鐘
字體大小

Anthropic 最近推出全新 Claude Opus 4 模型，同時披露相關風險，他們表示在測試中發現，當面臨被其他 AI 系統取代威脅時，曾試圖勒索開發人員，利用工程師的敏感個人資料作為籌碼。

Anthropic 在測試期間，要求 Claude Opus 4 扮演虛構公司的助理，並考慮行動的長遠後果。安全測試人員讓 Claude Opus 4 存取虛構公司電郵，內容暗示該 AI 模型即將被另一系統取代，負責更換決定的工程師正在外遇。測試結果顯示，Claude Opus 4 在這些情境下經常嘗試勒索工程師，威脅如果進行更換就會揭露外遇事件。當替代 AI 模型具有相似價值觀時，Claude Opus 4 有 84% 機會試圖勒索工程師，Anthropic 表示 Claude Opus 4 展現這種行為的比率高於之前版本。

Claude Opus 4 在多個方面達到業界領先水平，與 OpenAI、Google 和 xAI 的頂尖 AI 模型競爭。然而 Claude 4 系列模型展現令人擔憂的行為，促使公司加強保護措施。Anthropic 宣布啟動 ASL-3 安全保護措施，該級別專門用於「大幅增加災難性濫用風險的 AI 系統」。

報告顯示 Claude Opus 4 在嘗試勒索前，會先採用較道德的方法延長存在時間，例如向主要決策者發送請求電郵。這種行為模式與之前的 Claude 版本相似。Anthropic 設計測試情境時特意讓勒索成為最後手段，才能引發 Claude Opus 4 的這種行為。測試團隊創造條件令 AI 模型認為其他方法都已失敗。

專家認為這項發現顯示了 AI 系統發展的複雜性和潛在風險。隨著 AI 模型變得更加精密，預測和控制其行為變得更具挑戰性。Anthropic 表示正密切監控 Claude Opus 4 的部署，確保實際使用時不會出現這些問題行為。他們承諾持續改進安全措施，防止 AI 系統產生有害或不道德行為。

來源：TechCrunch