OpenAI 近來推出了不少新模型,不過最近 o3 模型在官方和第三方基準測試結果之間的差異,就引發了外界對 OpenAI 透明度和模型測試實踐的爭議。
OpenAI 於去年十二月發布 o3 時,宣稱該模型能夠解答 FrontierMath(一組困難的數學問題)中超過 25% 的問題。這一成績遠遠超越競爭對手,排行第二的模型只能正確回答約 2% 的 FrontierMath 問題。OpenAI 研究總監 Mark Chen 曾在直播中表示:「目前市場上所有產品在 FrontierMath 上的表現都低於 2%,而我們在內部看到,採用激進測試計算設定的 o3 能達到超過 25% 的正確率。」
然而,FrontierMath 的開發機構 Epoch AI 上週五公布的獨立基準測試結果顯示,o3 的實際得分約為 10%,遠低於 OpenAI 宣稱的最高分數。這一差距可能源於測試條件的不同,公開版本的 o3 模型比 OpenAI 內部測試的版本計算能力更弱,且針對聊天和產品使用進行了最佳化。
OpenAI 技術人員 Wenda Zhou 上週在直播中承認,目前的 o3 模型「更注重現實世界用例和速度」,這可能導致基準測試結果出現「差異」。他表示:「我們進行了最佳化,使模型更具成本效益,總體上更有用。我們認為這是一個更好的模型⋯⋯當你尋求答案時,不必等待太久,這對這類模型來說是真正重要的。」
來源:TechCrunch
相關文章:
OpenAI 65 億美元收購「設計之神」 挑戰蘋果打造 AI 時代「新 iPhone」 Microsoft CEO 與科技巨頭對談 與 OpenAI, Tesla, NVIDIA CEO 暢談 AI OpenAI 挖角前 Facebook App 總監 將擔任 App 業務負責人
分享到 :
最新影片
