人工智能

OpenAI 震撼發布 o3、o4-mini　具圖像思維、識自己揀工具、編程大幅躍進

作者

Oscar
發佈日期

2025-04-17
閱讀時間

5分鐘
字體大小

OpenAI 發布全新推理模型 o3 及 o4-mini，首次實現圖像推理及多工具整合，數學及編程表現顯著提升，引發全球科技界關注。此舉標誌 AI 技術向「代理型 AI」邁進，具備自主決策及跨模態問題解決能力。OpenAI 將以o3 取代o1模型，o4-mini 將會取代 o3-mini。

性能突破：數學與編程新高峰

o3 是 OpenAI 目前最強推理模型，o3 及 o4-mini 在多項基準測試中表現卓越。o3 在 SWE-bench Verified 測試中得分 69.1%，超越 Claude 3.7 Sonnet 的 62.3%。o4-mini 在 AIME 2024 年數學競賽中準確率達 93.4%，於 Codeforces 比賽中得分 2719，躋身全球頂尖工程師之列。

▲o3 在 SWE-bench Verified 測試中得分 69.1%，o4 則為 68.1

圖像推理功能：AI 識睇圖表、草圖、PDF

兩款模型首次實現「圖像思維」，能分析模糊手寫筆記、草圖及 PDF，並進行多步推理。o3 在 MMMU 視覺問題解決任務中準確率達 82.9%，遠超 o1 的 77.6%。此外模型可對圖像進行旋轉、縮放等操作，解鎖跨模態問題解決方案。

▲o3 在 MMMU 視覺問題解決任務中準確率達 82.9%

▲首次可分析圖片進行推理

▲能夠自動放大圖片適用部分

整合工具：自動任務執行

o3 及 o4-mini 能自主調用 ChatGPT 工具，包括網頁搜尋、Python 程式執行及 DALL·E 圖像生成，實現一體化工作流程。根據 OpenAI 測試，模型可根據問題性質動態選擇工具，模擬人類專家決策過程。OpenAI 同時推出開源工具 Codex CLI，支援本地程式碼撰寫及除錯。

▲能夠自動使用 Python

定價與可用性：高性價比選擇

o3 API 價格為每百萬輸入 token 10 美元（約港幣 77.7 元）、輸出 token 40 美元（約港幣 310.8 元）；o4-mini 則為 1.10 美元（約港幣 8.55 元）及 4.40 美元（約港幣 34.19 元），成本優勢顯著。ChatGPT Plus（20 美元/月，約港幣 155.4 元）、Pro（200 美元/月，約港幣 1554 元）及 Team 用戶已可使用，企業及教育機構將於一週後開放。

安全與未來發展

OpenAI 強化安全措施，重建訓練數據，針對生物風險及惡意軟件生成等問題提升拒絕率，內部測試顯示 o3 及 o4-mini 在高風險提示檢測中表現優異。根據 OpenAI 資料，現時模型在「人為紅隊測試 (human red‑teaming)」可標記 99% 高風險對話。未來數週 OpenAI 將推出 o3-pro，整合工具功能。

資料來源：OpenAI@YouTube

ChatGPT