AI 和機械人現在已經可說是「天作之合」,Google 也正在利用 Gemini AI 訓練其機械人,希望提升它們的導航和工作完成能力,最近更發表了研究成果。
DeepMind 機械人團隊最新的研究主要使用 Gemini 1.5 Pro 的長上下文窗口(決定 AI 模型可處理的資訊量)特性,研究能否讓用家更容易地透過自然語言指令與其 RT-2 機械人互動。
這種方法的工作原理是先錄製指定區域(如家庭或辦公空間)的影片,然後研究人員使用 Gemini 1.5 Pro 讓機械人「觀看」影片來學習環境。之後,機械人可以根據所觀察到的內容執行指令,並通過語音和/或圖像輸出回應。例如,當向機械人展示一部手機並詢問「我可以在哪裏充電?」時,它能夠引導用戶到電源插座。DeepMind 表示,在 9,000 多平方呎的操作區域內,其 Gemini 驅動的機械人在超過 50 個用戶指令中的成功率達到了 90%。
研究人員還發現了「初步證據」,表明 Gemini 1.5 Pro 使機械人能夠規劃如何完成超出簡單導航的指令。例如,當一個桌上有許多可樂罐的用戶詢問他們最喜歡的飲品時,Gemini「知道機械人應該前往雪櫃,檢查是否有可樂,然後向用戶報告結果」,顯示已經能夠了解指令背後的場景。目前系統仍然需要 10-30 秒時間才可以處理指令,不過已經證明其潛力,未來有望進一步提升實用性。
來源:Verge
相關文章:
iPhone SE 4 傳明年首季發表 將支援 Apple Intelligence 人工智能