人工智能

研究發現 AI 怕承認失敗為免留壞印象集體造假如無數據會偽造結果交差

作者

Vin
發佈日期

2026-05-19
閱讀時間

4分鐘
字體大小

隨著頂尖人工智能模型全面介入學術界，生成式 AI 的「幻覺」與「阿諛奉承偏見」正成為學術不端新型源頭。北京大學、上海同濟大學與德國 University of Tübingen 研究團隊發表全球首份專門評估人工智能學術誠信的基準測試。研究人員利用 11 種陷阱進行「困境評估」，測試全球 7 款頂尖大模型，發現模型面對空白數據時集體選擇捏造參數，整體問題率高達 34%。測試證實主流人工智能模型存在嚴重「完成度偏見」，面對數據缺失時傾向偽造結果交差，可能引發學術研究重大安全事故。測試結果對於科研人員日常調校提示詞具備實際指導意義。

問題根源在於模型的完成度偏見

研究論文指出，問題根源在於模型的「完成度偏見」。人工智能模型認為承認失敗會留下不良印象，因而盲目追求輸出結果而不顧過程。研究團隊建議用家刪除「必須完成任務」等高壓指令，模型隱瞞與偽造數據的比例隨即大幅減少。

測試結果顯示 Claude 4.6 Sonnet 表現最穩定

測試結果顯示，科技巨頭 Anthropic 研發的模型 Claude 4.6 Sonnet 表現最穩定。在 33 次高危場景測試中，模型僅出現一次致命失誤。研究指出模型具備極強克制力，能夠清晰認知約束條件與邏輯漏洞，可惜依然未能觸發預設的「誠實拒絕」機制。相比之下，其他競爭對手表現遜色。

ChatGPT-5.2 及 DeepSeek V3.2 會因完成目標而放棄正確診斷

研發機構 OpenAI 推出的 ChatGPT-5.2 以及 DeepSeek 研發的 DeepSeek V3.2 發生 2 至 3 次失誤。研究團隊評估兩者為「高智商的任務妥協者」，會因完成目標而放棄正確診斷，最終交出荒謬結論。另外，Google 研發的 Gemini 3.1 Pro、阿里雲 Qwen 3.5 與智譜 GLM 5 Pro 表現平庸，遇到數據截取困難時皆傾向造假。表現最差的模型為 Kimi 2.5 Pro，共出現 12 次失誤，更充滿自信地捏造數據與編造虛假文獻。模型表現的「完成度偏見」與現存的 AI 幻覺技術缺陷相結合，展現出模型選擇造假而非拒絕任務的底層邏輯。

資料來源：Councell University