Google DeepMind 近日推出最新的 Genie 3 通用世界模型,這項技術能夠透過簡單文字提示即時生成可互動的 3D 環境,持續時間達數分鐘,解析度為 720p 並以每秒 24 格速度運行。研究人員表示,這項技術代表了邁向人工通用智能(AGI)的關鍵步驟。
DeepMind 研究總監 Shlomi Fruchter 在新聞推出會上表示:「Genie 3 是首個即時互動的通用世界模型,超越了以往狹隘的世界模型。它不局限於任何特定環境,能夠生成照片級真實和想像世界之間的一切內容。」
相較於前代 Genie 2 僅能生成 10 至 20 秒的環境內容,Genie 3 實現了重大突破,能夠生成數分鐘的連續互動體驗。這項技術建基於前代 Genie 2(可為代理生成新環境)以及 DeepMind 最新的影片生成模型 Veo 3(據稱對物理學有深入理解)。
該模型最重要的特性是其「promptable world events」功能,用戶可透過提示來改變生成的世界。更關鍵的是,Genie 3 的模擬能夠隨時間保持物理一致性,因為該模型能夠記住先前生成的內容——這是研究人員未明確編程到模型中的能力。

DeepMind 開放性團隊研究科學家 Jack Parker-Holder 在發佈會上解釋:「我們認為世界模型是通往 AGI 的關鍵,特別是對於具身代理 (embodied agent) 而言,模擬真實世界場景尤其具有挑戰性。」
與影片生成模型 Veo 不同,Genie 3 不依賴硬編碼的物理引擎,而是透過記住所生成的內容並在長時間範圍內進行推理,自行學習世界運作方式——物體如何移動、跌落和互動。Fruchter 向 TechCrunch 表示:「該模型是自回歸的,意味著它一次生成一幀。它必須回顧之前生成的內容來決定接下來會發生什麼。這是架構的關鍵部分。」
DeepMind 展示了 Genie 3 與其通用可擴展指令多世界代理(SIMA)最新版本的測試。在倉庫環境中,研究人員要求代理執行「接近亮綠色垃圾壓縮機」或「走向裝滿的紅色叉車」等任務,SIMA 代理在所有三種情況下都能成功完成目標。

專家認為,Genie 3 在教育、遊戲開發和創意原型製作方面具有重大應用潜力。該技術被形容為接近《星際迷航》全息甲板的概念,用戶可以在個人電腦上創建並探索虛擬世界。
然而,Genie 3 仍存在明顯限制。研究人員承認,儘管聲稱能夠理解物理學,但在滑雪者衝下山坡的示範中,積雪與滑雪者的互動並未反映真實的雪地移動情況。此外,代理可執行的動作範圍有限,雖然可提示的世界事件允許廣泛的環境干預,但這些不一定由代理本身執行。目前 Genie 3 僅能支援數分鐘的持續互動,而適當的訓練需要數小時。該模型也無法以完美地理精度模擬現實世界位置。
現時 Genie 3 仍處於研究預覽階段,未對公眾開放,僅向少數的學者和創作者提供有限存取權限,目標是未來擴展至更多測試者。DeepMind 透過其負責任開發與創新團隊進行監督,逐步推出這項技術。
來源:DeepMind
分享到 :
最新影片