人工智能

Google 實測 AI 準確率僅 69%　表現最佳型號仍有三成錯誤

作者

Lawton
發佈日期

2025-12-16
閱讀時間

4分鐘
字體大小

Google 近日公佈現今 AI 聊天機械人可靠性評估結果，數據顯示即使表現最佳的 AI 模型，準確率也難以超越 70%。Google 採用新推出 FACTS Benchmark Suite 測試，發現表現最佳 Gemini 3 Pro 整體準確率僅 69%，OpenAI、Anthropic 和 xAI 的領先系統得分更低。這代表聊天機械人平均每三個答案就有一個出錯，即使回答時語氣顯得信心十足。

準確性測試比完成任務關鍵

Google 指出這項基準測試重要，在於現有大部分 AI 測試只關注模型能否完成任務，而非產出內容的真實性。對於金融、醫療和法律等行業，這差距可能造成重大損失。若回應聽起來流暢自信卻包含錯誤資訊，可能造成實質傷害，特別是用戶假設聊天機械人理解內容時。

四大測試範疇揭示弱點

FACTS Benchmark Suite 由 Google FACTS 團隊與 Kaggle 合作開發，涵蓋 3,513 個測試範例，直接測試四個實際應用場景的事實準確性。第一項測試衡量參數知識，檢查模型能否僅憑訓練期間學到的知識回答事實問題；第二項評估搜尋表現，測試模型使用網絡工具檢索準確資訊的能力；第三項著重基礎性，即模型是否能依據提供文件作答而不添加虛假細節；第四項檢視多模態理解，例如正確解讀圖表、圖示和圖像。

測試結果顯示不同模型之間存在明顯差異。Gemini 3 Pro 以 69% FACTS 分數領先，其次是 Gemini 2.5 Pro 和 OpenAI 的 ChatGPT-5，兩者得分接近 62%。Claude 4.5 Opus 得分約 51%，Grok 4 則約 54%。多模態任務是所有模型表現最弱範疇，準確率經常低於 50%。這情況值得關注，因為相關任務涉及解讀圖表、圖示或圖像，聊天機械人可能會信心十足地誤讀銷售圖表，或從文件中提取錯誤數字，導致容易忽略但難以挽回的錯誤。

雖有改善仍需人工監督

這並非表示聊天機械人毫無用處，但盲目信任存在風險。Google 數據顯示 AI 持續進步，Gemini 2.5 Pro 升級至 Gemini 3 Pro 後，搜尋測試錯誤率降低 55%，參數測試錯誤率降低 35%。然而在視為可靠真相來源前，AI 仍需要驗證、保護措施和人工監督。值得注意是 NewsGuard 於 2025 年 8 月審查發現，領先 AI 聊天機械人重複虛假新聞聲明比率，從 2024 年 18% 上升至 35%，反映 AI 準確性問題持續存在。

資料來源：Digital Trends

Google 實測 AI 準確率僅 69%　表現最佳型號仍有三成錯誤

準確性測試比完成任務關鍵

四大測試範疇揭示弱點

雖有改善仍需人工監督

分享到 :

最新影片

Follow 我們 :