Google 於 10 月 7 日發布 Gemini 2.5 Computer Use 模型,這款基於 Gemini 2.5 Pro 視覺理解和推理能力開發的專門模型,讓 AI 代理能夠像人類一樣操控用戶介面。
該模型在多個網頁和流動裝置控制基準測試中,表現超越 Anthropic Claude Sonnet 4.5 及 OpenAI 競爭產品,同時保持更低延遲。開發者現可透過 Google AI Studio 和 Vertex AI 的 Gemini API 使用這些功能。
雖然 AI 模型可透過結構化 API 與軟件互動,但許多數碼任務仍需直接與圖形用戶介面互動,例如填寫和提交表格。要完成這些任務,代理必須像人類一樣瀏覽網頁和應用程式,透過點擊、輸入和捲動操作。原生填寫表格、操作下拉選單和過濾器等互動元素,以及在登入後操作的能力,是建立強大通用代理的關鍵一步。
運作原理與支援動作
該模型的核心功能透過 Gemini API 中的新 computer_use 工具公開,並應在循環中運行。工具輸入包括用戶請求、環境截圖和近期操作歷史。輸入還可指定是否從完整支援的 UI 動作列表中排除某些功能,或指定要包含的額外個人化功能。

Gemini 2.5 Computer Use 模型會分析這些輸入並產生回應,通常是代表 UI 動作的函數呼叫,例如點擊或輸入。此回應也可能包含需要終端用戶確認的請求,某些動作如進行購買前需要此確認。客戶端程式碼隨後執行收到的動作。
動作執行後,GUI 的新截圖和當前網址會作為函數回應傳回 Computer Use 模型,重新啟動循環。這個迭代過程會持續進行,直到任務完成、發生錯誤或因安全回應或用戶決定而終止互動。Gemini 2.5 Computer Use 模型主要針對網頁瀏覽器最佳化,但對流動裝置 UI 控制任務也展現強大潛力,目前尚未針對桌面作業系統層級控制進行最佳化。
基準測試表現領先
Gemini 2.5 Computer Use 模型在多個網頁和流動裝置控制基準測試中展現強勁表現。下表包括自我報告數據、Browserbase 進行的評估和 Google 自行運行的評估結果。該模型在瀏覽器控制方面提供領先品質,同時保持最低延遲,這是根據 Online-Mind2Web 的 Browserbase 測試平台性能測量得出。

在實際應用場景中,該模型能完成複雜任務,例如從寵物護理登記網站獲取加州居住寵物所有詳細資料,並將牠們作為訪客新增到 CRM 系統,然後與專家預約 10 月 10 日上午 8 時後的追蹤探訪。另一個示範展示模型能夠組織藝術俱樂部的混亂便利貼看板,將任務拖曳到正確分類。
安全機制與開發者控制
Google 表示,建立能惠及所有人代理的唯一方法是從一開始就負責任。控制電腦的 AI 代理帶來獨特風險,包括用戶的故意濫用、意外模型行為,以及網絡環境中的提示注入和詐騙。因此謹慎實施安全防護措施至關重要。
Google 已在模型中直接訓練安全功能,以解決這三個關鍵風險。Google 也為開發者提供安全控制,讓開發者能夠阻止模型自動完成潛在高風險或有害動作。這些動作包括損害系統完整性、危及安全性、繞過驗證碼或控制醫療裝置。控制措施包括:每步安全服務,即模型外的推理時安全服務,在執行前評估模型提出的每個動作;以及系統指令,開發者可進一步指定代理在採取特定類型的高風險動作前拒絕或要求用戶確認。
早期測試者應用案例
Google 團隊已將該模型部署到生產環境,用於 UI 測試等用例,這可以顯著加快軟件開發速度。此模型的版本也一直為 Project Mariner、Firebase Testing Agent 和 AI Mode in Search 中的一些代理功能提供支援。Project Mariner 是 Google DeepMind 開發的研究原型,能代表用戶操作網站和執行任務。
早期使用計畫用戶也在測試該模型,為個人助理、工作流程自動化和 UI 測試提供支援,並取得強勁成果。AI 助理 Poke.com 表示,Gemini 2.5 Computer Use 遠超競爭對手,速度通常快 50%,表現優於他們考慮的次佳解決方案。
自動化 AI 代理 Autotab 表示,Gemini 2.5 Computer Use 在複雜情況下可靠解析上下文的表現優於其他模型,在最困難評估中性能提升達 18%。Google 支付平台團隊將 Computer Use 模型實施為應急機制,用於解決導致 25% 測試失敗的脆弱端到端 UI 測試,現在成功修復超過 60% 的執行問題(過去需要多天才能修復)。
來源:Google
分享到 :
最新影片