人工智能

OpenAI o3 模型基準分數惹爭議　第三方測試與官方測試結果相差太大

作者

藍骨
發佈日期

2025-04-21
閱讀時間

3分鐘
字體大小

OpenAI 近來推出了不少新模型，不過最近 o3 模型在官方和第三方基準測試結果之間的差異，就引發了外界對 OpenAI 透明度和模型測試實踐的爭議。

OpenAI 於去年十二月發布 o3 時，宣稱該模型能夠解答 FrontierMath（一組困難的數學問題）中超過 25% 的問題。這一成績遠遠超越競爭對手，排行第二的模型只能正確回答約 2% 的 FrontierMath 問題。OpenAI 研究總監 Mark Chen 曾在直播中表示：「目前市場上所有產品在 FrontierMath 上的表現都低於 2%，而我們在內部看到，採用激進測試計算設定的 o3 能達到超過 25% 的正確率。」

然而，FrontierMath 的開發機構 Epoch AI 上週五公布的獨立基準測試結果顯示，o3 的實際得分約為 10%，遠低於 OpenAI 宣稱的最高分數。這一差距可能源於測試條件的不同，公開版本的 o3 模型比 OpenAI 內部測試的版本計算能力更弱，且針對聊天和產品使用進行了最佳化。

OpenAI 技術人員 Wenda Zhou 上週在直播中承認，目前的 o3 模型「更注重現實世界用例和速度」，這可能導致基準測試結果出現「差異」。他表示：「我們進行了最佳化，使模型更具成本效益，總體上更有用。我們認為這是一個更好的模型⋯⋯當你尋求答案時，不必等待太久，這對這類模型來說是真正重要的。」

來源：TechCrunch