GPT-5.4 正式推出 OpenAI 整合編程與推理能力於同一模型

2026-03-06

Published by

Lawton

OpenAI 正式發布新一代旗艦型號 GPT-5.4，定位為旗下最強大且最高效專業用途前沿模型。這款模型將 GPT-5.3-Codex 領先業界的編程能力、改良後的推理與 Agentic 工作流整合至單一模型，並同步推出 Thinking 及 Pro 兩個版本。

整合編程與推理突破

GPT-5.4 最核心改變，在於將此前分散不同模型的能力統一起來。新模型融合 GPT-5.3-Codex 編程優勢、改良後推理能力，以及可在桌面、瀏覽器和各類軟件應用程式之間自主操作的 Agentic 功能，令企業用戶毋須自行搭建基礎設施，即可直接使用完整 Agentic 能力。

GPT-5.3-Codex 本身已在 SWE-Bench Pro 及 Terminal-Bench 設立業界最高標準，GPT-5.4 在此基礎上進一步提升，在多數任務表現與 GPT-5.3-Codex 看齊或更優，並且速度更快。

百萬 Token 上下文與原生電腦操控

GPT-5.4 是 OpenAI 首款具備原生電腦操控（Computer Use）能力的通用模型，可透過截圖、滑鼠及鍵盤指令跨應用程式執行自動化工作流，支援高達 1,000,000 Token 上下文視窗。在衡量模型操控真實桌面環境能力的 OSWorld-Verified 評測中，GPT-5.4 取得 75.0% 高分，不但遠超 GPT-5.2 的 47.3%，更超越人類基準線 72.4%，代表此模型在僅憑截圖操作電腦方面已優於一般人。

Codex 亦新增實驗性功能「Playwright (Interactive)」，讓模型在構建 Web 及 Electron 應用程式時可即時進行視覺調試。

更準確且節省 Token

準確度方面，OpenAI 指出 GPT-5.4 與 GPT-5.2 相比，整體回應出錯率下降 18%，個別聲明出現錯誤機率亦減少 33%。在模擬初級投資銀行分析師工作的試算表建模測試中，GPT-5.4 取得 87.5% 高分，GPT-5.2 則為 68.4%，進步相當顯著。

工具搜尋效率方面，在 250 項任務測試中，新的輕量化工具載入機制令 Token 用量減少 47%，同時維持準確度，對開發者而言直接轉化為更低成本及更快回應速度。

GPT-5.4 Thinking 新功能

ChatGPT 中的 GPT-5.4 Thinking 版本，在開始處理複雜任務前會先展示計劃，讓用戶在模型生成回應期間隨時中斷並補充指示或調整方向，毋須重新開始。此「Steering」功能本週起率先在 Android 及網頁版推出，iOS 版本稍後跟進。GPT-5.4 Thinking 及 Pro 版本由即日起在 ChatGPT Plus、Team 及 Pro 訂閱計劃，以及 API 和 Codex 逐步開放。

資料來源：Fortune、Tom’s Guide