OpenAI 發布全新推理模型 o3 及 o4-mini,首次實現圖像推理及多工具整合,數學及編程表現顯著提升,引發全球科技界關注。此舉標誌 AI 技術向「代理型 AI」邁進,具備自主決策及跨模態問題解決能力。OpenAI 將以o3 取代o1模型,o4-mini 將會取代 o3-mini。
性能突破:數學與編程新高峰
o3 是 OpenAI 目前最強推理模型,o3 及 o4-mini 在多項基準測試中表現卓越。o3 在 SWE-bench Verified 測試中得分 69.1%,超越 Claude 3.7 Sonnet 的 62.3%。o4-mini 在 AIME 2024 年數學競賽中準確率達 93.4%,於 Codeforces 比賽中得分 2719,躋身全球頂尖工程師之列。
▲o3 在 SWE-bench Verified 測試中得分 69.1%,o4 則為 68.1
相關文章:
OpenAI 挖角前 Facebook App 總監 將擔任 App 業務負責人 OpenAI 保留非營利架構永久控制權 重申民主 AI 理念、不以利益最大化為目標 小米推自家開源 AI 推理模型 Xiaomi MiMo 跑分與 OpenAI 、阿里巴巴模型平起平坐
圖像推理功能:AI 識睇圖表、草圖、PDF
兩款模型首次實現「圖像思維」,能分析模糊手寫筆記、草圖及 PDF,並進行多步推理。o3 在 MMMU 視覺問題解決任務中準確率達 82.9%,遠超 o1 的 77.6%。此外模型可對圖像進行旋轉、縮放等操作,解鎖跨模態問題解決方案。
▲o3 在 MMMU 視覺問題解決任務中準確率達 82.9%
▲首次可分析圖片進行推理
▲能夠自動放大圖片適用部分
整合工具:自動任務執行
o3 及 o4-mini 能自主調用 ChatGPT 工具,包括網頁搜尋、Python 程式執行及 DALL·E 圖像生成,實現一體化工作流程。根據 OpenAI 測試,模型可根據問題性質動態選擇工具,模擬人類專家決策過程。OpenAI 同時推出開源工具 Codex CLI,支援本地程式碼撰寫及除錯。
相關文章:
OpenAI 挖角前 Facebook App 總監 將擔任 App 業務負責人 OpenAI 保留非營利架構永久控制權 重申民主 AI 理念、不以利益最大化為目標 小米推自家開源 AI 推理模型 Xiaomi MiMo 跑分與 OpenAI 、阿里巴巴模型平起平坐
定價與可用性:高性價比選擇
o3 API 價格為每百萬輸入 token 10 美元(約港幣 77.7 元)、輸出 token 40 美元(約港幣 310.8 元);o4-mini 則為 1.10 美元(約港幣 8.55 元)及 4.40 美元(約港幣 34.19 元),成本優勢顯著。ChatGPT Plus(20 美元/月,約港幣 155.4 元)、Pro(200 美元/月,約港幣 1554 元)及 Team 用戶已可使用,企業及教育機構將於一週後開放。
安全與未來發展
OpenAI 強化安全措施,重建訓練數據,針對生物風險及惡意軟件生成等問題提升拒絕率,內部測試顯示 o3 及 o4-mini 在高風險提示檢測中表現優異。根據 OpenAI 資料,現時模型在「人為紅隊測試 (human red‑teaming)」可標記 99% 高風險對話。未來數週 OpenAI 將推出 o3-pro,整合工具功能。
資料來源:OpenAI@YouTube
相關文章:
OpenAI 挖角前 Facebook App 總監 將擔任 App 業務負責人 OpenAI 保留非營利架構永久控制權 重申民主 AI 理念、不以利益最大化為目標 小米推自家開源 AI 推理模型 Xiaomi MiMo 跑分與 OpenAI 、阿里巴巴模型平起平坐
分享到 :
最新影片
