谷歌的 DeepMind 發布了 Gemini Robotics-ER 1.6，高層推理能力顯著增強，提升了指向精度、多視角檢測及儀表讀取能力。該模型已通過 Gemini API 向開發者開放，並與 Boston Dynamics 的 Orbit AIVI-Learning 集成，能在工業場景中自主巡檢，提升了安全性和任務準確度。

ME News

2026-05-03 02:15:18

摘要生成中

ME News 消息，4 月 14 日（UTC+8），據 1M AI News 監測，谷歌 DeepMind 發布 Gemini Robotics-ER 1.6，定位為機器人的高層推理模型，相比前代 ER 1.5 和 Gemini 3.0 Flash 在空間推理和多視角理解上有顯著提升。模型已通過 Gemini API 和 Google AI Studio 向開發者開放。核心升級包括三項能力： 1. 指向（pointing）精度提升：可用於精確物體檢測、計數、空間關係推理（如「指出所有能放進藍色杯子的物體」）和運動軌跡規劃，且能正確拒絕指向畫面中不存在的物體 2. 多視角成功檢測：機器人現在能綜合多個攝像頭畫面判斷任務是否完成，即使在遮擋或動態環境下也能保持準確 3. 新增儀表讀取能力：可解讀圓形壓力表、垂直液位指示器和數字顯示屏等多種工業儀表，通過 agentic vision（視覺推理 + 代碼執行）實現逐步推理，先放大細節區域，再通過指向和代碼計算比例與間隔，最後結合世界知識得出讀數儀表讀取能力源於 DeepMind 與 Boston Dynamics 的合作。Boston Dynamics 同日宣布，已將 Gemini 和 Gemini Robotics-ER 1.6 集成到其 Orbit AIVI-Learning 產品中，於 4 月 8 日對所有 AIVI-Learning 客戶上線。集成後新增了儀表盤（gauges）支持，四足機器人 Spot 現在可以在工業設施中自主巡檢並讀取壓力表等儀表數據。Boston Dynamics 稱，借助 Gemini 的推理能力，AIVI-Learning 在既有的視覺巡檢、托盤計數、積液檢測等任務上的基線性能和準確率也有所提升。 DeepMind 稱 ER 1.6 是其「最安全的機器人模型」。在對抗性空間推理任務中，安全指令遵從度大幅優於 ER 1.5。在基於真實受傷報告的安全風險識別測試中，ER 系列模型較 Gemini 3.0 Flash 在文本場景上高 6%，視頻場景上高 10%。（來源：BlockBeats）

查看原文

此頁面可能包含第三方內容，僅供參考（非陳述或保證），不應被視為 Gate 認可其觀點表述，也不得被視為財務或專業建議。詳見聲明。

打賞
按讚
回覆
轉發
分享

回覆

請輸入回覆內容

暫無回覆

谷歌DeepMind發布Gemini Robotics-ER 1.6，Spot機器人已能自動讀儀表盤

熱門話題

WCTC交易王PK

美國尋求戰略比特幣儲備

比特幣ETF期權限額提高4倍#

#聯準會利率不變但內部分歧加劇#

DeFi4月安全事件損失超6億美元

置頂