OpenAI 本週發表一份重要研究論文,系統性分析大型語言模型出現「幻覺」現象的根本原因。研究指出,現有訓練和評估程序更傾向獎勵模型猜測,而非鼓勵模型承認不確定性,這正是導致 AI 自信生成錯誤資訊的主要因素。

幻覺問題持續困擾 AI 發展
AI 幻覺指模型自信地生成看似合理但實際錯誤的陳述,這一問題已成為阻礙用戶完全信任 AI 系統的關鍵障礙。OpenAI 在論文中明確定義幻覺為「模型自信地生成不真實答案的情況」,即使是 GPT-5 等最新模型,幻覺現象仍然存在。
研究團隊以論文第一作者 Adam Tauman Kalai 為例進行測試,發現不同聊天機器人在詢問其博士論文標題時,都自信給出錯誤答案,顯示這一問題的普遍性。
評估機制成幻覺根源
OpenAI 研究發現,當前評估方法設置錯誤激勵機制是幻覺持續存在的部分原因。研究人員解釋,大多數評估模型性能的方式會鼓勵模型進行猜測,而非誠實面對不確定性。
這種情況類似多項選擇題測試:如果不知道答案但隨意猜測,仍有機會猜對;選擇留空則必定得零分。因此,當模型僅根據準確度進行評分時,會被鼓勵猜測而非承認「不知道」。
研究顯示,在數千道測試題中,採用猜測策略的模型最終在記分牌上表現優於謹慎承認不確定的模型。OpenAI 表示,弃權答案是謙遜指標的一部分,而謙遜正是該公司核心價值觀之一。
GPT-5 幻覺率顯著降低
雖然幻覺問題仍存在,OpenAI 最新發布的 GPT-5 在減少幻覺方面取得重要進展。根據 GPT-5 系統卡數據,新模型的幻覺率比 GPT-4o 低 26%,並在多項評估中表現卓越。
在 LongFact-Concepts 和 LongFact-Objects 測試中,GPT-5 的幻覺率分別僅為 0.7% 和 0.8%,遠低於 OpenAI o3 的 4.5% 和 5.1%。在醫療查詢等高風險場景中,GPT-5 的幻覺率僅為 1.6%,顯著低於其他模型。
改進評估方法成關鍵
OpenAI 提出簡單解決方案:對自信錯誤的懲罰力度應大於對不確定性的懲罰,同時對恰當表達不確定性的行為給予部分加分。研究團隊強調,僅增加新的不確定性感知測試並不足夠,需要更新廣泛使用的評估方法。
論文指出,如果主要評估指標繼續獎勵模型幸運猜測,模型就會持續學習猜測行為。修改評估指標可以擴大降低幻覺技術的採用範圍。
預訓練過程產生特定幻覺類型
研究也深入分析幻覺在預訓練過程中的產生機制。OpenAI 表示,語言模型通過預測海量文本中下一個詞進行學習,但與傳統機器學習不同,每個語句沒有「真/假」標籤,模型只看到流暢語言的正面示例。
研究團隊以圖像識別類比說明:如果用寵物生日標記照片,由於生日本質上隨機,無論算法多先進都會產生錯誤。同樣,拼寫和括號遵循一致模式,這些錯誤會隨規模擴大而消失;但像寵物生日這樣任意的低頻事實無法僅憑模式預測,因此導致幻覺。
團隊重組聚焦模型行為優化
與此同時,OpenAI 正在重組其模型行為團隊,這支約 14 人的研究小組負責塑造 AI 模型與人類互動方式。根據內部備忘錄,模型行為團隊將併入後期訓練團隊,向後期訓練主管 Max Schwarzer 匯報。
團隊創始負責人 Joanne Jang 將啟動名為 OAI Labs 的新項目,專注於發明和設計人們與 AI 協作的新介面原型。該團隊此前致力於塑造模型性格特徵、減少模型諂媚行為,並處理政治偏見等問題。
行業影響與未來展望
這項研究為理解 AI 幻覺問題提供重要理論基礎,有助於推動整個行業改進模型評估標準。OpenAI 表示,將繼續努力進一步降低語言模型輸出的置信錯誤率。
業界專家認為,隨着評估方法的改進和新技術應用,AI 幻覺問題有望得到更好控制,這將進一步提升用戶對 AI 系統的信任度和實用性。
資料來源:OpenAI
分享到 :
最新影片