Google DeepMind 近期發布 Gemini Robotics 1.5 與 Gemini Robotics-ER 1.5 兩款 AI 模型,讓機械人不再只是「執行單一步驟指令」工具,而是可以在實際行動前先「思考」如何完成更複雜、涉及多步驟真實世界任務。Google DeepMind 機械人部門主管 Carolina Parada 表示,這標誌機械人已經發展到對物理任務具備「真正理解和問題解決」能力,因此被視為通用型機械人邁向實用化與智慧化重要里程碑。
雙模型協作突破訓練限制
Gemini Robotics 1.5 系列模型實現多項技術突破,能處理多步驟任務,例如依照顏色將衣物分類,或是協助打包行李。這些突破背後,仰賴兩個模型分工合作:Gemini Robotics-ER 1.5 作為具身推理模型,負責高階規劃與邏輯決策;Gemini Robotics 1.5 則是「視覺–語言–動作」模型,可以同時結合影像輸入、語言指令與動作輸出,負責將規劃轉化為實際操作指令。
更重要是,這些模型還能直接使用 Google 搜尋,以獲取完成任務所需額外資料,例如機械人可以先查詢三藩市垃圾回收規範,再依據規定進行垃圾分類。另一項名為「動作轉移」技術更進一步突破訓練限制,這項技術允許 AI 把針對特定機械人設計技能,轉移到其他不同型態機械人上,且不必重新進行繁瑣客製化訓練。

實際應用展現智能化表現
Gemini Robotics 1.5 系列模型技術突破,最終目標是讓機械人能在日常生活中執行更多元任務。在家庭場域內,機械人可以依照顏色將衣物分類;在示範打包行李過程中,當 Google DeepMind 研究人員要求機械人放入帽子時,機械人不僅完成指令,還透過 Google 搜尋目的地天氣,並主動幫研究人員多放入一把雨傘。
系統展現跨平台學習能力,分配給 ALOHA2 機械人技能,可以無縫轉移到雙臂 Franka 機械人和 Apptronik 人形機械人 Apollo 上。Google DeepMind 機械人首席軟件工程師 Kanishka Rao 指出:「這讓我們能夠用一個模型支援各種不同機械人,包括人形機械人,同時一個機械人學到技能現在可以轉移到另一個機械人上」。
產業反應與學術觀點
面對機械人技術新突破,科技產業也期待這些進展能推動醫療、製造等產業轉型,讓機械人扮演更重要角色。牛津大學應用人工智能教授 Ingmar Posner 認為,機械人能夠從網路數據中學習,這可能意味著機械人即將迎來「ChatGPT 時刻」。
然而,曼徹斯特機械人與人工智能中心聯合主任 Angelo Cangelosi 則提醒,這些行為不應被過度解讀為真正思考,因為機械人進行「推理」其實只是發現像素、影像、詞彙與標記之間規律。
技術挑戰與安全考量
儘管技術已取得顯著突破,通用型機械人要從實驗室走向普及仍挑戰重重。「製造通用機械人主要挑戰之一是,人類直覺事情對機械人來說實際上相當困難」Google DeepMind 機械人首席軟件工程師 Kanishka Rao 說。DeepMind 也承認,機械人需要在靈巧度、可靠性與安全性方面進一步提升,才能在與人類共處環境中安全運作。
隨著具身 AI 潛力逐步釋放,安全性與人機互動規範也亟需建立,因此 DeepMind 正開發新安全與校準方法,確保這些機械人能以負責任方式運行,考量行動風險,並遵循 Gemini 安全政策。目前 Gemini Robotics-ER 1.5 已向開發者開放,但實際控制機械人 Gemini Robotics 1.5 模型仍僅限於特定合作夥伴使用。
來源:TechOrange
分享到 :
最新影片