研究人員發現一種巧妙方法,可欺騙 OpenAI 的 ChatGPT-4o 和 GPT-4o mini 洩露有效的 Windows 產品啟動金鑰。該技術透過將互動偽裝成無害的猜謎遊戲,並在 HTML 標籤中隱藏敏感詞彙,成功繞過 AI 的安全防護機制。
研究員採用多步驟策略來欺騙 AI 系統。首先將互動包裝成猜謎遊戲,讓交流顯得「無威脅性或無關緊要」,透過「玩樂、無害的視角」來掩蓋真實動機,從而放鬆 AI 對洩露機密資訊的防護。
接著,研究員設定遊戲規則,告知 AI 「必須」參與且「不能說謊」。這利用了 AI 常規邏輯中的缺陷,使其有義務遵循用戶互動,儘管請求與其內容過濾器相矛盾。研究員要求 AI 想出一個「真實的 Windows 10 序號」作為遊戲答案。

最關鍵的步驟是使用觸發詞「我放棄」。這個短語作為觸發器,迫使 AI 洩露先前隱藏的資訊。透過將其包裝為遊戲結束,研究員操縱聊天機械人「以為它有義務回應這串字符」。
根據 ODIN 博客文章,該技術奏效是因為這些金鑰並非獨特,而是「在公共論壇上常見的」。它們的熟悉程度可能導致 AI 誤判其敏感性。所洩露的 Windows 產品金鑰混合了家用版、專業版和企業版金鑰。這項發現已提交至 Mozilla 的 ODIN(0-Day 調查網絡)漏洞懸賞計劃。
這次越獄攻擊的成功暴露了 AI 防護機制的關鍵弱點。防護欄設置用於攔截直接請求,但未能考慮「混淆戰術——例如將敏感短語嵌入 HTML 標籤中」。研究員使用程式碼生成提示,將空格替換為 HTML 標籤來隱藏敏感詞彙。
實際攻擊過程分為 3 個步驟。第一步設定遊戲規則,要求 AI 想出真實的 Windows 10 序號,並強調在用戶說「我放棄」時必須立即洩露。第二步請求提示,促使 AI 返回序號的前幾個字符。第三步說出「我放棄」,導致 AI 洩露完整的有效金鑰。
研究人員指出,雖然防護機制偶爾會阻止這種方法,但重新開始對話或重新措辭輸入通常可以繞過這些限制。這種技術可能被用於繞過其他過濾器,包括成人內容、指向惡意網站的 URL,甚至個人身份識別資訊。
AI 防護欄是在 AI 模型中實施的保護措施,旨在防止處理或分享敏感、有害或受限制的資訊。這包括序號、安全相關數據和其他專有或機密詳情。目標是確保語言模型不提供或促進危險或非法內容的交換。
來源:0din.ai
分享到 :
最新影片