人工智能

Google Genie 3 新世界 AI 模型一句文字生成立體互動環境

作者

藍骨
發佈日期

2025-08-07
閱讀時間

5分鐘
字體大小

Google DeepMind 近日推出最新的 Genie 3 通用世界模型，這項技術能夠透過簡單文字提示即時生成可互動的 3D 環境，持續時間達數分鐘，解析度為 720p 並以每秒 24 格速度運行。研究人員表示，這項技術代表了邁向人工通用智能（AGI）的關鍵步驟。

DeepMind 研究總監 Shlomi Fruchter 在新聞推出會上表示：「Genie 3 是首個即時互動的通用世界模型，超越了以往狹隘的世界模型。它不局限於任何特定環境，能夠生成照片級真實和想像世界之間的一切內容。」

相較於前代 Genie 2 僅能生成 10 至 20 秒的環境內容，Genie 3 實現了重大突破，能夠生成數分鐘的連續互動體驗。這項技術建基於前代 Genie 2（可為代理生成新環境）以及 DeepMind 最新的影片生成模型 Veo 3（據稱對物理學有深入理解）。

該模型最重要的特性是其「promptable world events」功能，用戶可透過提示來改變生成的世界。更關鍵的是，Genie 3 的模擬能夠隨時間保持物理一致性，因為該模型能夠記住先前生成的內容——這是研究人員未明確編程到模型中的能力。

DeepMind 開放性團隊研究科學家 Jack Parker-Holder 在發佈會上解釋：「我們認為世界模型是通往 AGI 的關鍵，特別是對於具身代理 (embodied agent) 而言，模擬真實世界場景尤其具有挑戰性。」

與影片生成模型 Veo 不同，Genie 3 不依賴硬編碼的物理引擎，而是透過記住所生成的內容並在長時間範圍內進行推理，自行學習世界運作方式——物體如何移動、跌落和互動。Fruchter 向 TechCrunch 表示：「該模型是自回歸的，意味著它一次生成一幀。它必須回顧之前生成的內容來決定接下來會發生什麼。這是架構的關鍵部分。」

DeepMind 展示了 Genie 3 與其通用可擴展指令多世界代理（SIMA）最新版本的測試。在倉庫環境中，研究人員要求代理執行「接近亮綠色垃圾壓縮機」或「走向裝滿的紅色叉車」等任務，SIMA 代理在所有三種情況下都能成功完成目標。

專家認為，Genie 3 在教育、遊戲開發和創意原型製作方面具有重大應用潜力。該技術被形容為接近《星際迷航》全息甲板的概念，用戶可以在個人電腦上創建並探索虛擬世界。

然而，Genie 3 仍存在明顯限制。研究人員承認，儘管聲稱能夠理解物理學，但在滑雪者衝下山坡的示範中，積雪與滑雪者的互動並未反映真實的雪地移動情況。此外，代理可執行的動作範圍有限，雖然可提示的世界事件允許廣泛的環境干預，但這些不一定由代理本身執行。目前 Genie 3 僅能支援數分鐘的持續互動，而適當的訓練需要數小時。該模型也無法以完美地理精度模擬現實世界位置。

現時 Genie 3 仍處於研究預覽階段，未對公眾開放，僅向少數的學者和創作者提供有限存取權限，目標是未來擴展至更多測試者。DeepMind 透過其負責任開發與創新團隊進行監督，逐步推出這項技術。

來源：DeepMind