谷歌DeepMind發布Gemini Robotics-ER 1.6,Spot機器人已能自動讀儀表盤

robot
摘要生成中

ME News 消息,4 月 14 日(UTC+8),據 1M AI News 監測,谷歌 DeepMind 發布 Gemini Robotics-ER 1.6,定位為機器人的高層推理模型,相比前代 ER 1.5 和 Gemini 3.0 Flash 在空間推理和多視角理解上有顯著提升。模型已通過 Gemini API 和 Google AI Studio 向開發者開放。 核心升級包括三項能力: 1. 指向(pointing)精度提升:可用於精確物體檢測、計數、空間關係推理(如「指出所有能放進藍色杯子的物體」)和運動軌跡規劃,且能正確拒絕指向畫面中不存在的物體 2. 多視角成功檢測:機器人現在能綜合多個攝像頭畫面判斷任務是否完成,即使在遮擋或動態環境下也能保持準確 3. 新增儀表讀取能力:可解讀圓形壓力表、垂直液位指示器和數字顯示屏等多種工業儀表,通過 agentic vision(視覺推理 + 代碼執行)實現逐步推理,先放大細節區域,再通過指向和代碼計算比例與間隔,最後結合世界知識得出讀數 儀表讀取能力源於 DeepMind 與 Boston Dynamics 的合作。Boston Dynamics 同日宣布,已將 Gemini 和 Gemini Robotics-ER 1.6 集成到其 Orbit AIVI-Learning 產品中,於 4 月 8 日對所有 AIVI-Learning 客戶上線。集成後新增了儀表盤(gauges)支持,四足機器人 Spot 現在可以在工業設施中自主巡檢並讀取壓力表等儀表數據。Boston Dynamics 稱,借助 Gemini 的推理能力,AIVI-Learning 在既有的視覺巡檢、托盤計數、積液檢測等任務上的基線性能和準確率也有所提升。 DeepMind 稱 ER 1.6 是其「最安全的機器人模型」。在對抗性空間推理任務中,安全指令遵從度大幅優於 ER 1.5。在基於真實受傷報告的安全風險識別測試中,ER 系列模型較 Gemini 3.0 Flash 在文本場景上高 6%,視頻場景上高 10%。 (來源:BlockBeats)

查看原文
此頁面可能包含第三方內容,僅供參考(非陳述或保證),不應被視為 Gate 認可其觀點表述,也不得被視為財務或專業建議。詳見聲明
  • 打賞
  • 回覆
  • 轉發
  • 分享
回覆
請輸入回覆內容
請輸入回覆內容
暫無回覆