Google 近日公佈現今 AI 聊天機械人可靠性評估結果,數據顯示即使表現最佳的 AI 模型,準確率也難以超越 70%。Google 採用新推出 FACTS Benchmark Suite 測試,發現表現最佳 Gemini 3 Pro 整體準確率僅 69%,OpenAI、Anthropic 和 xAI 的領先系統得分更低。這代表聊天機械人平均每三個答案就有一個出錯,即使回答時語氣顯得信心十足。
準確性測試比完成任務關鍵
Google 指出這項基準測試重要,在於現有大部分 AI 測試只關注模型能否完成任務,而非產出內容的真實性。對於金融、醫療和法律等行業,這差距可能造成重大損失。若回應聽起來流暢自信卻包含錯誤資訊,可能造成實質傷害,特別是用戶假設聊天機械人理解內容時。
四大測試範疇揭示弱點
FACTS Benchmark Suite 由 Google FACTS 團隊與 Kaggle 合作開發,涵蓋 3,513 個測試範例,直接測試四個實際應用場景的事實準確性。第一項測試衡量參數知識,檢查模型能否僅憑訓練期間學到的知識回答事實問題;第二項評估搜尋表現,測試模型使用網絡工具檢索準確資訊的能力;第三項著重基礎性,即模型是否能依據提供文件作答而不添加虛假細節;第四項檢視多模態理解,例如正確解讀圖表、圖示和圖像。
測試結果顯示不同模型之間存在明顯差異。Gemini 3 Pro 以 69% FACTS 分數領先,其次是 Gemini 2.5 Pro 和 OpenAI 的 ChatGPT-5,兩者得分接近 62%。Claude 4.5 Opus 得分約 51%,Grok 4 則約 54%。多模態任務是所有模型表現最弱範疇,準確率經常低於 50%。這情況值得關注,因為相關任務涉及解讀圖表、圖示或圖像,聊天機械人可能會信心十足地誤讀銷售圖表,或從文件中提取錯誤數字,導致容易忽略但難以挽回的錯誤。
雖有改善仍需人工監督
這並非表示聊天機械人毫無用處,但盲目信任存在風險。Google 數據顯示 AI 持續進步,Gemini 2.5 Pro 升級至 Gemini 3 Pro 後,搜尋測試錯誤率降低 55%,參數測試錯誤率降低 35%。然而在視為可靠真相來源前,AI 仍需要驗證、保護措施和人工監督。值得注意是 NewsGuard 於 2025 年 8 月審查發現,領先 AI 聊天機械人重複虛假新聞聲明比率,從 2024 年 18% 上升至 35%,反映 AI 準確性問題持續存在。
資料來源:Digital Trends
分享到 :
最新影片