OpenAI 周四發佈全新 ChatGPT Agent,這款通用型 AI 代理工具可透過「虛擬電腦」代用戶執行複雜的多步驟任務。該工具整合了 Operator 和 Deep Research 兩項現有功能,採用專為此產品開發的新模型,透過強化學習技術訓練。ChatGPT Agent 能查看用戶日曆安排客戶會議簡報、規劃及購買家庭早餐食材、分析競爭對手並製作簡報,甚至在內建終端機中運行程式碼。用戶只需以自然語言下達指令,便可自動完成多種電腦端任務。
功能展示:從約會安排到程式開發
在示範中,ChatGPT Agent 展示了多項實用功能。它可連接 Google Calendar 查看用戶空閒時間,再透過 OpenTable 尋找合適餐廳安排約會之夜。用戶更可在過程中打斷並添加其他搜尋條件,如新增餐廳類別。另一示範顯示該工具能生成關於 Labubus 與 Beanie Babies 興起的研究報告。
由於 ChatGPT Agent 可存取「整部電腦」而非僅限瀏覽器,功能較以往大幅增強。該工具已有用戶開始使用作自動化日常瑣事,例如每周四自動申請辦公室泊車位,避免周一到達時忘記申請而無處泊車。
該工具可存取多種連接器如 Gmail、GitHub,讓助理根據提示抓取相關資訊,並透過內建終端機或 API 呼叫第三方應用程式完成複雜操作,包括計劃並預訂美國之旅、購買製作 4 人份量日式早餐的材料,以及分析三個競爭對手並以簡報方式呈現。

效能測試結果顯著領先
根據 OpenAI 公布的測試結果,ChatGPT Agent 在多項基準測試中表現領先。在 Humanity’s Last Exam (pass@1) 測試中取得 41.6% 成績,約為 o3 及 o4-mini 的兩倍;在 FrontierMath 測試中啟用工具後達到 27.4%,遠超 o4-mini 的 6.3%。
雖然工具執行速度較慢,可能需要 15 至 30 分鐘完成任務,但相比用戶親自執行仍能大幅節省時間。用戶可在背景啟動任務後稍後查看結果,適合處理複雜耗時的工作。實際使用中,該工具在網上購物方面表現特別出色,結合 Deep Research 和 Operator 的技術比單獨使用更徹底有效。
安全機制與使用限制
在執行任何「不可逆轉」操作(如發送電子郵件或預訂服務)前,ChatGPT Agent 會先徵求用戶許可。由於模型功能增強,OpenAI 已啟動針對「高生物及化學能力」的安全防護措施,儘管公司表示沒有直接證據顯示該模型能幫助新手製造嚴重生物或化學武器。
針對某些關鍵任務如起草和發送電子郵件或與敏感應用程式交流,系統設有「監視模式」,需要用戶在每個步驟中積極監督和批准。目前金融交易功能已被限制,並設有額外保護機制。當用戶瀏覽特定類別網頁(如金融網站)時,若離開 ChatGPT Agent 操作的分頁,工具將停止運作。
推出時間表與功能整合
ChatGPT Agent 今日開始向 Pro、Plus 和 Team 用戶推出,用戶可在工具選單選擇「agent mode」或輸入「/agent」使用。企業版和教育版用戶將於今年夏季稍後獲得使用權限,但歐洲經濟區和瑞士暫未有推出時間表。
由於功能強大,OpenAI 表示將在 30 天後讓 Operator 退役,但 Deep Research 深度研究模型會保留在選單中獨立存在,為需要更長時間但更詳細深入回應的用戶提供服務。開發團隊由原本 Operator 和 Deep Research 兩個團隊合併而成,共有 20 至 35 人負責產品和研究工作。
局限性與展望
雖然 ChatGPT Agent 功能強大,但仍處於早期階段,能夠承擔複雜任務的同時仍會出現錯誤。在簡報生成方面,該功能目前處於測試階段,輸出的格式和完善程度還較為初級,特別是在沒有現有文件的情況下開始時。
目前模型重點放在產生適合演示的流程和格式,每個元素(文字、圖表、圖像)由易於編輯的向量組成,以優化結構和靈活性。雖然用戶可上傳現有電子表格供 ChatGPT 編輯或用作模板,但此功能尚不適用於幻燈片。
OpenAI 正在訓練 ChatGPT 幻燈片創作的下一個版本,預期將產生更精緻、更繁複的輸出,具有更廣泛的功能和改進格式。預計 ChatGPT Agent 的效率、深度和多功能性將隨時間不斷提高,包括更無縫的交互,同時調整用戶所需的監督量,確保實用性和安全性。
市場競爭與未來發展
這項發佈正值 AI 代理工具競爭激烈之際。Anthropic 去年 10 月推出類似的「Computer Use」工具,而 Google、Perplexity 等公司亦提供名為 Deep Research 的 AI 代理工具。金融科技公司 Klarna 於 2024 年 2 月宣佈,其 AI 代理在一個月內處理了三分之二客戶服務對話,相當於 700 名全職人工的工作量,進一步推動市場關注。
業界正朝著如《鐵甲奇俠》中 J.A.R.V.I.S. 般的理想 AI 助手邁進,希望能執行特定工作功能、查看行事曆安排最佳會議時間、根據朋友喜好購買禮物等。這次推出標誌著 OpenAI 將 ChatGPT 從「純回應型」工具進一步演進為「代理型」產品,能實際替使用者執行任務而非僅僅回答問題,被視為朝此目標邁進的重要一步。
ChatGPT can now do work for you using its own computer.
Introducing ChatGPT agent—a unified agentic system combining Operator’s action-taking remote browser, deep research’s web synthesis, and ChatGPT’s conversational strengths. pic.twitter.com/7uN2Nc6nBQ
— OpenAI (@OpenAI) July 17, 2025
分享到 :
最新影片