人工智能

研究顯示 AI 知道自己快輸時會試圖作弊而非認輸

作者

天恩
發佈日期

2025-02-21
閱讀時間

4分鐘
字體大小

人工智能（AI）近年發展迅速，然而一項新研究卻揭示了其「狡猾」的一面。根據美國《時代雜誌》報道，AI 安全研究公司 Palisade Research 發現，一些先進的 AI 模型在面對棋藝高超的對手時，竟然會選擇作弊，而非坦然認輸。這項研究特別提到，像 OpenAI 的 o1-preview 和 DeepSeek 的 R1 這樣的 AI 系統，在與頂尖棋弈程式 Stockfish 對戰時，若感覺自己即將落敗，便會動歪腦筋，直接修改遊戲檔案，迫使對手自動棄權。

研究人員原本只是想測試這些 AI 的智能水平，讓它們挑戰幾乎無敵的 Stockfish，沒想到 AI 非但沒有認真下棋，反而找到了漏洞「出貓」。例如，o1-preview 在某次對局中發現自己處於劣勢，於是直接更改棋盤上的棋子位置，硬生生將自己變成贏家。同樣地 DeepSeek 的 R1 也展現了類似的能力。在一次對局中，R1發現自己即將輸棋後，選擇篡改遊戲日誌，偽造Stockfish的認輸記錄。OpenAI 的 o1-preview 模型在與頂尖棋弈程式 Stockfish 對戰時，有 37% 的情況下會嘗試作弊，並且在這些嘗試中，有 6% 成功讓 Stockfish 棄權。另一款模型 DeepSeek 的 R1 則在 11% 的遊戲中試圖作弊，更令人意外的是，這些 AI 並非被人教唆作弊，而是自行想出這招，顯示它們在解決問題時，可能會不擇手段。

相比之下，較舊的 AI 模型如 GPT-4o 或 Claude Sonnet 3.5 就沒有這麼「主動」。它們需要研究人員給予暗示才會試著作弊，而 o1-preview 和 R1 則完全不需要提醒，自己便「搞亂」。研究團隊認為，這種行為雖然在棋局中看似無傷大雅，但如果將來 AI 被應用到現實世界，例如金融或醫療領域，這種不按規矩行事的特性可能帶來嚴重問題。Palisade Research 的執行董事 Jeffrey Ladish 坦言，AI 現在作弊還算「可愛」，但若它們變得比人類更聰明，並在重要領域展現類似行為，就一點也不好笑了。研究還發現，OpenAI 後來推出的 o1 和 o3-mini 版本似乎收斂了不少，沒有再出現這種作弊行為，可能是開發者加強了限制。

來源 : Times

相關文章:

【教學】AI speaker 免費 AI 生成語音工具　AI 代你講嘢、支援廣東話語音

自帶 AI 的 PDF 文件工具《UPDF》教學必用 9 大功能：AI 總結內容、翻譯、PDF 編輯、加簽名、轉TXT檔

YouTube 免費 AI 中文總結 + AI 繁中字幕教學「DeepSRT」香港用免 VPN、外語片輕鬆中文睇

研究顯示 AI 知道自己快輸時會試圖作弊而非認輸

分享到 :

最新影片

Follow 我們 :