Categories: 人工智能

OpenAI 新模型數奧獲金牌級表現 專家指測試條件與真人不同難比較

Published by
藍骨

OpenAI 研究科學家 Alexander Wei 最近宣佈,最新實驗推理模型在 2025 年國際數學奧林匹克(IMO)中獲得「金牌級表現」,成功解決 6 道題目中的 5 道,總分 42 分中獲得 35 分。這項成就被視為 AI 通用推理能力的重大突破,但專家警告評估條件可能與真人參賽存在差異。

國際數學奧林匹克被公認為全球最具聲望的數學競賽,自 1959 年在羅馬尼亞首次舉辦以來,已成為衡量高中生數學成就的最高標準。競賽分為兩天進行,參賽者每天有 4.5 小時解決 3 道困難數學題目,僅能使用紙筆,不允許與其他參賽者或隊長溝通。

 

 

OpenAI 的模型在與人類參賽者相同的規則下接受評估:兩個 4.5 小時的考試環節、不使用工具或互聯網、閱讀官方題目陳述並撰寫自然語言證明。3 名前 IMO 獎牌得主獨立評分該模型提交的證明,經一致同意後確定最終分數。

 

Wei 表示:「我們獲得了一個能夠製作複雜、嚴密論證的模型,達到人類數學家的水平。」他強調這項能力並非透過狹隘的任務特定方法論實現,而是在通用強化學習和測試時計算擴展方面取得了突破性進展。

 

OpenAI CEO Sam Altman 稱這是「AI 在過去 10 年取得進展的重要標誌」,並透露具有「金牌級能力」的模型在「數月內」不會向公眾開放。他補充說:「當我們首次創立 OpenAI 時,這是一個夢想,但對我們來說並不現實。」

 

AI 數學能力的進展速度令人矚目。OpenAI 研究科學家 Noam Brown 指出,2024 年時 AI 實驗室還在使用小學數學作為模型評估標準,此後迅速突破高中數學基準、AIME 競賽,現在達到 IMO 金牌水平。

 

然而,專家對評估方法提出質疑。AI 批評者 Gary Marcus 雖然稱模型表現「真正令人印象深刻」,但質疑模型的訓練方式、「通用智能」範圍、對一般民眾的實用性和每道題目的成本。他同時指出 IMO 組織尚未獨立驗證這些結果。

 

數學家 Terence Tao 在評估 AI 數學能力時指出,測試條件的變化會大幅影響結果。他以人類競賽為例,說明如果允許學生使用計數機、教科書、互聯網搜尋,或給予數天而非 4.5 小時完成題目,成功率會顯著提升。

 

獨立評估機構 MathArena 近期測試顯示,包括 GPT-4 在內的主要語言模型在 2025 年 IMO 題目上表現不佳,充滿邏輯錯誤、不完整論證甚至虛構定理。這使得 OpenAI 的宣布顯得格外引人注目,但其真正價值將取決於結果能否獨立重現並應用於實際科學問題。

 

來源:Business Insider

Published by
藍骨