OpenAI 公佈最新 o3 模型　懶人包一文看懂是甚麼

2024-12-21

Published by

天恩

人工智能能否超越人類？OpenAI 用最新推出的 o3 模型給出了答案。這款模型在邏輯推理、數學計算和程式設計等領域展現出驚人的能力，不僅超越了前代技術，更在一些關鍵測試中超越人類平均表現，為人工智能的未來寫下新篇章。

推理能力達新境界

在國際基準測試 ARC-AGI 上，o3 模型以 87.5% 的成績超越了人類平均 85%。這項測試專為考驗邏輯推理能力設計，成功解答意味著 AI 能更加靈活應對未知問題。更令人驚嘆的是，在高難度數學競賽 AIME 中，o3 以 96.7% 的正確率打破多項記錄。對於許多科學家需要花費數天才能解決的問題，o3 可以在幾秒內完成。特別是在 EpochAI Frontier Math 測試中，o3 取得了 25% 的正確率，遠超其他模型不到 2% 的表現。這些問題高度複雜且未公開，進一步證明 o3 不僅能處理現有問題，更為數學研究和未來應用打開新的可能性。

1% 頂尖人類程序員水平

o3 在編程領域同樣令人刮目相看，其性能達到頂尖 1% 的人類程序員水準，尤其在競賽性編程中展現了卓越能力。在 SWE-bench 測試中，o3 憑藉 71.7% 的準確率遠超舊版 o1 的 48.9%。此外，o3 還具備自我檢測和評估的能力，在 GPQ 測試中表現出色，顯示未來實現自我優化的可能性。儘管其自我修正與回饋機制仍在開發，但這樣的能力無疑為未來人工智能的進一步進化奠定了基礎。

o3 mini 更加靈活及節省支出

為滿足不同需求，OpenAI 宣佈將於 2025 年 1 月推出 o3-mini，這是一款更輕量化的模型，雖然規模縮小，但性能依然超越 o1，同時具備更快反應速度和更低運算成本。
o3-mini 的最大亮點是其「靈活推理模式」。用戶可以根據需求選擇「低、中、高」三種推理模式。例如，對簡單問題可以選擇低推理模式，節省時間；對於複雜挑戰則切換至高推理模式，進行更深入的分析。這使得 o3-mini 成為日常應用的不二選擇，無論是教育輔助、數據分析，還是快速生成程式碼，都能輕鬆應對。

更懂得安全看穿用家隱藏意圖

隨著性能提升，o3 也將安全性放在首位。OpenAI 引入了名為「深思對齊」（Deliberative Alignment）的技術，讓模型能更準確地識別輸入的潛在風險。例如，如果用戶試圖輸入有隱藏意圖的指令，模型能透過邏輯推理識別並防止濫用。
此外，OpenAI 還開放了安全測試計劃，邀請外部研究者參與，確保 o3 能在更廣泛的應用中保持穩定和安全。