OpenAI 正式發布新一代旗艦型號 GPT-5.4,定位為旗下最強大且最高效專業用途前沿模型。這款模型將 GPT-5.3-Codex 領先業界的編程能力、改良後的推理與 Agentic 工作流整合至單一模型,並同步推出 Thinking 及 Pro 兩個版本。
GPT-5.4 最核心改變,在於將此前分散不同模型的能力統一起來。新模型融合 GPT-5.3-Codex 編程優勢、改良後推理能力,以及可在桌面、瀏覽器和各類軟件應用程式之間自主操作的 Agentic 功能,令企業用戶毋須自行搭建基礎設施,即可直接使用完整 Agentic 能力。
GPT-5.3-Codex 本身已在 SWE-Bench Pro 及 Terminal-Bench 設立業界最高標準,GPT-5.4 在此基礎上進一步提升,在多數任務表現與 GPT-5.3-Codex 看齊或更優,並且速度更快。
GPT-5.4 是 OpenAI 首款具備原生電腦操控(Computer Use)能力的通用模型,可透過截圖、滑鼠及鍵盤指令跨應用程式執行自動化工作流,支援高達 1,000,000 Token 上下文視窗。在衡量模型操控真實桌面環境能力的 OSWorld-Verified 評測中,GPT-5.4 取得 75.0% 高分,不但遠超 GPT-5.2 的 47.3%,更超越人類基準線 72.4%,代表此模型在僅憑截圖操作電腦方面已優於一般人。
Codex 亦新增實驗性功能「Playwright (Interactive)」,讓模型在構建 Web 及 Electron 應用程式時可即時進行視覺調試。
準確度方面,OpenAI 指出 GPT-5.4 與 GPT-5.2 相比,整體回應出錯率下降 18%,個別聲明出現錯誤機率亦減少 33%。在模擬初級投資銀行分析師工作的試算表建模測試中,GPT-5.4 取得 87.5% 高分,GPT-5.2 則為 68.4%,進步相當顯著。
工具搜尋效率方面,在 250 項任務測試中,新的輕量化工具載入機制令 Token 用量減少 47%,同時維持準確度,對開發者而言直接轉化為更低成本及更快回應速度。
ChatGPT 中的 GPT-5.4 Thinking 版本,在開始處理複雜任務前會先展示計劃,讓用戶在模型生成回應期間隨時中斷並補充指示或調整方向,毋須重新開始。此「Steering」功能本週起率先在 Android 及網頁版推出,iOS 版本稍後跟進。GPT-5.4 Thinking 及 Pro 版本由即日起在 ChatGPT Plus、Team 及 Pro 訂閱計劃,以及 API 和 Codex 逐步開放。
資料來源:Fortune、Tom’s Guide