OpenAI 新模型數奧獲金牌級表現　專家指測試條件與真人不同難比較

2025-07-20

Published by

藍骨

OpenAI 研究科學家 Alexander Wei 最近宣佈，最新實驗推理模型在 2025 年國際數學奧林匹克（IMO）中獲得「金牌級表現」，成功解決 6 道題目中的 5 道，總分 42 分中獲得 35 分。這項成就被視為 AI 通用推理能力的重大突破，但專家警告評估條件可能與真人參賽存在差異。

國際數學奧林匹克被公認為全球最具聲望的數學競賽，自 1959 年在羅馬尼亞首次舉辦以來，已成為衡量高中生數學成就的最高標準。競賽分為兩天進行，參賽者每天有 4.5 小時解決 3 道困難數學題目，僅能使用紙筆，不允許與其他參賽者或隊長溝通。

OpenAI 的模型在與人類參賽者相同的規則下接受評估：兩個 4.5 小時的考試環節、不使用工具或互聯網、閱讀官方題目陳述並撰寫自然語言證明。3 名前 IMO 獎牌得主獨立評分該模型提交的證明，經一致同意後確定最終分數。

Wei 表示：「我們獲得了一個能夠製作複雜、嚴密論證的模型，達到人類數學家的水平。」他強調這項能力並非透過狹隘的任務特定方法論實現，而是在通用強化學習和測試時計算擴展方面取得了突破性進展。

OpenAI CEO Sam Altman 稱這是「AI 在過去 10 年取得進展的重要標誌」，並透露具有「金牌級能力」的模型在「數月內」不會向公眾開放。他補充說：「當我們首次創立 OpenAI 時，這是一個夢想，但對我們來說並不現實。」

AI 數學能力的進展速度令人矚目。OpenAI 研究科學家 Noam Brown 指出，2024 年時 AI 實驗室還在使用小學數學作為模型評估標準，此後迅速突破高中數學基準、AIME 競賽，現在達到 IMO 金牌水平。

然而，專家對評估方法提出質疑。AI 批評者 Gary Marcus 雖然稱模型表現「真正令人印象深刻」，但質疑模型的訓練方式、「通用智能」範圍、對一般民眾的實用性和每道題目的成本。他同時指出 IMO 組織尚未獨立驗證這些結果。

數學家 Terence Tao 在評估 AI 數學能力時指出，測試條件的變化會大幅影響結果。他以人類競賽為例，說明如果允許學生使用計數機、教科書、互聯網搜尋，或給予數天而非 4.5 小時完成題目，成功率會顯著提升。

獨立評估機構 MathArena 近期測試顯示，包括 GPT-4 在內的主要語言模型在 2025 年 IMO 題目上表現不佳，充滿邏輯錯誤、不完整論證甚至虛構定理。這使得 OpenAI 的宣布顯得格外引人注目，但其真正價值將取決於結果能否獨立重現並應用於實際科學問題。

Published by

藍骨

7 個月前 ago

4.5 分鐘充至 80%！Donut Lab 固態電池第三方測試出爐

24 分鐘前 ago

1 小時前 ago

14 小時前 ago

16 小時前 ago

16 小時前 ago

17 小時前 ago