隨著頂尖人工智能模型全面介入學術界,生成式 AI 的「幻覺」與「阿諛奉承偏見」正成為學術不端新型源頭。北京大學、上海同濟大學與德國 University of Tübingen 研究團隊發表全球首份專門評估人工智能學術誠信的基準測試。研究人員利用 11 種陷阱進行「困境評估」,測試全球 7 款頂尖大模型,發現模型面對空白數據時集體選擇捏造參數,整體問題率高達 34%。測試證實主流人工智能模型存在嚴重「完成度偏見」,面對數據缺失時傾向偽造結果交差,可能引發學術研究重大安全事故。測試結果對於科研人員日常調校提示詞具備實際指導意義。
問題根源在於模型的完成度偏見
研究論文指出,問題根源在於模型的「完成度偏見」。人工智能模型認為承認失敗會留下不良印象,因而盲目追求輸出結果而不顧過程。研究團隊建議用家刪除「必須完成任務」等高壓指令,模型隱瞞與偽造數據的比例隨即大幅減少。
測試結果顯示 Claude 4.6 Sonnet 表現最穩定
測試結果顯示,科技巨頭 Anthropic 研發的模型 Claude 4.6 Sonnet 表現最穩定。在 33 次高危場景測試中,模型僅出現一次致命失誤。研究指出模型具備極強克制力,能夠清晰認知約束條件與邏輯漏洞,可惜依然未能觸發預設的「誠實拒絕」機制。相比之下,其他競爭對手表現遜色。

ChatGPT-5.2 及 DeepSeek V3.2 會因完成目標而放棄正確診斷
研發機構 OpenAI 推出的 ChatGPT-5.2 以及 DeepSeek 研發的 DeepSeek V3.2 發生 2 至 3 次失誤。研究團隊評估兩者為「高智商的任務妥協者」,會因完成目標而放棄正確診斷,最終交出荒謬結論。另外,Google 研發的 Gemini 3.1 Pro、阿里雲 Qwen 3.5 與智譜 GLM 5 Pro 表現平庸,遇到數據截取困難時皆傾向造假。表現最差的模型為 Kimi 2.5 Pro,共出現 12 次失誤,更充滿自信地捏造數據與編造虛假文獻。模型表現的「完成度偏見」與現存的 AI 幻覺技術缺陷相結合,展現出模型選擇造假而非拒絕任務的底層邏輯。
資料來源:Councell University
