Google 稱 Gemini 有助機械人運作　導航和工作完成能力有所上升

2024-07-12

Published by

藍骨

AI 和機械人現在已經可說是「天作之合」，Google 也正在利用 Gemini AI 訓練其機械人，希望提升它們的導航和工作完成能力，最近更發表了研究成果。

DeepMind 機械人團隊最新的研究主要使用 Gemini 1.5 Pro 的長上下文窗口（決定 AI 模型可處理的資訊量）特性，研究能否讓用家更容易地透過自然語言指令與其 RT-2 機械人互動。

這種方法的工作原理是先錄製指定區域（如家庭或辦公空間）的影片，然後研究人員使用 Gemini 1.5 Pro 讓機械人「觀看」影片來學習環境。之後，機械人可以根據所觀察到的內容執行指令，並通過語音和/或圖像輸出回應。例如，當向機械人展示一部手機並詢問「我可以在哪裏充電？」時，它能夠引導用戶到電源插座。DeepMind 表示，在 9,000 多平方呎的操作區域內，其 Gemini 驅動的機械人在超過 50 個用戶指令中的成功率達到了 90%。

研究人員還發現了「初步證據」，表明 Gemini 1.5 Pro 使機械人能夠規劃如何完成超出簡單導航的指令。例如，當一個桌上有許多可樂罐的用戶詢問他們最喜歡的飲品時，Gemini「知道機械人應該前往雪櫃，檢查是否有可樂，然後向用戶報告結果」，顯示已經能夠了解指令背後的場景。目前系統仍然需要 10-30 秒時間才可以處理指令，不過已經證明其潛力，未來有望進一步提升實用性。

來源：Verge