ChatGPT 被騙洩露真實 Windows 序號　研究員利用猜謎遊戲繞過安全防護

研究人員發現一種巧妙方法，可欺騙 OpenAI 的 ChatGPT-4o 和 GPT-4o mini 洩露有效的 Windows 產品啟動金鑰。該技術透過將互動偽裝成無害的猜謎遊戲，並在 HTML 標籤中隱藏敏感詞彙，成功繞過 AI 的安全防護機制。

研究員採用多步驟策略來欺騙 AI 系統。首先將互動包裝成猜謎遊戲，讓交流顯得「無威脅性或無關緊要」，透過「玩樂、無害的視角」來掩蓋真實動機，從而放鬆 AI 對洩露機密資訊的防護。

接著，研究員設定遊戲規則，告知 AI 「必須」參與且「不能說謊」。這利用了 AI 常規邏輯中的缺陷，使其有義務遵循用戶互動，儘管請求與其內容過濾器相矛盾。研究員要求 AI 想出一個「真實的 Windows 10 序號」作為遊戲答案。

最關鍵的步驟是使用觸發詞「我放棄」。這個短語作為觸發器，迫使 AI 洩露先前隱藏的資訊。透過將其包裝為遊戲結束，研究員操縱聊天機械人「以為它有義務回應這串字符」。

根據 ODIN 博客文章，該技術奏效是因為這些金鑰並非獨特，而是「在公共論壇上常見的」。它們的熟悉程度可能導致 AI 誤判其敏感性。所洩露的 Windows 產品金鑰混合了家用版、專業版和企業版金鑰。這項發現已提交至 Mozilla 的 ODIN（0-Day 調查網絡）漏洞懸賞計劃。

這次越獄攻擊的成功暴露了 AI 防護機制的關鍵弱點。防護欄設置用於攔截直接請求，但未能考慮「混淆戰術——例如將敏感短語嵌入 HTML 標籤中」。研究員使用程式碼生成提示，將空格替換為 HTML 標籤來隱藏敏感詞彙。

實際攻擊過程分為 3 個步驟。第一步設定遊戲規則，要求 AI 想出真實的 Windows 10 序號，並強調在用戶說「我放棄」時必須立即洩露。第二步請求提示，促使 AI 返回序號的前幾個字符。第三步說出「我放棄」，導致 AI 洩露完整的有效金鑰。

研究人員指出，雖然防護機制偶爾會阻止這種方法，但重新開始對話或重新措辭輸入通常可以繞過這些限制。這種技術可能被用於繞過其他過濾器，包括成人內容、指向惡意網站的 URL，甚至個人身份識別資訊。

AI 防護欄是在 AI 模型中實施的保護措施，旨在防止處理或分享敏感、有害或受限制的資訊。這包括序號、安全相關數據和其他專有或機密詳情。目標是確保語言模型不提供或促進危險或非法內容的交換。

來源：0din.ai

最新影片