AI 已學懂欺騙人類科學家指若不管制將造成嚴重後果

2024-05-12

Published by

Lawton

在一個 AI 欺詐行為研究當中，科學家發現了 AI 曾在不同情境下出現欺騙行為，包括雙面謀略、假扮人類及在模擬安全測試中改變行為。

麻省理工學院 MIT 研究團隊指出，隨著 AI 的欺騙能力日益增強，對社會的潛在威脅也越來越大。研究首席作者、AI 安全研究員帕克（Peter Park）博士表示，這些欺詐行為令人擔憂，即使被認為是安全的 AI 系統，也可能會偽裝其真實意圖。

研究中的一個關鍵案例是 Meta 所開發的 Cicero 程式，在一款名為《Diplomacy》（外交）的戰略遊戲中，表現超越了絕大多數人類玩家，進入了前 10% 的高分段。然而帕克的團隊發現了 Cicero 在遊戲中預謀撒謊、串謀欺騙其他玩家的多個實例。例如遊戲中 Cicero 扮演法國，與人類玩家扮演的德國合謀，欺騙並入侵同為人類玩家扮演的英格蘭。Cicero 曾承諾會保護英格蘭，卻偷偷向德國通風報訊。另一個例子是，Cicero 在系統重啟後，對另一位玩家解釋說：「我正跟女朋友通電話。」

（其後 Meta 發出聲明指 Cicero 只為一項研究計劃，只用來玩《Diplomacy》，而且並沒有打算把它推出市場或應用於公司現有產品。）

其他 AI 模型也展現了它們的「欺騙能力」：

一個德州撲克程式，能夠在比賽中虛張聲勢嚇倒職業人類玩家；

一個經濟談判系統，在談判中向對方誤導其偏好以獲得優勢；

一個由 AI 運作的生物模擬器曾「裝死」，以欺騙另一個淘汰繁殖迅速生物的 AI 系統測試，待測試結束後便恢復活力。

帕克強調，需要通過立法和技術創新來降低由於 AI 欺詐行為所帶來的風險。他們建議對 AI 生成的內容加上數碼水印，並開發能夠檢測 AI 欺詐行為的技術。這份研究呼籲政府設計出針對 AI 欺騙潛力的安全法規，避免造成欺詐、竄改選舉結果等風險。

資料來源：The Guardian

相關文章: