谷歌近日推出了一款革命性的机器人具身推理模型——Gemini Robotics-ER 1.5,标志着机器人技术领域的重要突破。这款模型作为首个向全体开发者开放的Gemini机器人系列,旨在为机器人提供高级推理能力,使其能够更智能地与物理世界互动。
Gemini Robotics-ER 1.5是一款视觉-语言模型(VLM),通过将Gemini的智能体功能引入机器人技术,赋予机器人理解复杂指令、推理物理环境并执行任务的能力。与传统模型不同,它专为增强机器人的感知能力和现实世界互动能力而设计,能够解读视觉数据、执行空间推理,并根据自然语言命令规划行动。
在操作层面,该模型可与现有机器人控制器和行为无缝配合,通过按顺序调用机器人API,编排复杂行为以完成长时程任务。例如,用户可以用自然语言下达“将物品分类到厨余、可回收和普通垃圾桶”的指令,机器人需自主查找本地垃圾分类规则、识别物品并完成投放。这种多步骤、上下文相关的任务处理能力,使其在学术和内部基准测试中达到行业顶尖水平。
模型的核心优势之一是其快速而精确的空间推理能力。基于Gemini Flash模型的低延迟特性,它能够生成语义精确的2D坐标点,支持“指出所有可拿起物体”等指令。在测试中,当被要求标记厨房场景图片中的物品(如洗洁精、水龙头)时,模型能准确提供归一化坐标,并拒绝标记不存在的物品,避免“幻觉”错误。
时间推理能力是另一大亮点。通过分析视频帧,模型可理解物体与行为之间的因果关系。例如,在机械臂整理书写工具的视频中,模型能按时间戳精确描述每一步操作,甚至可根据要求对特定时间段进行逐秒分解,输出包含开始时间、结束时间和描述的JSON格式数据。
对于长周期任务,Gemini Robotics-ER 1.5展现了强大的协调能力。在制作咖啡的示例中,模型不仅能标记咖啡机下方放杯子的位置、顶部放胶囊的仓位,还能生成关闭咖啡机盖子的8点轨迹,并指示清洗杯子的水槽位置。这种“空间锚定”计划将文本指令与物理动作紧密结合,使机器人能高效完成复杂任务。
开发者可通过灵活调整“思考预算”来平衡模型的延迟与准确性。对于物体检测等简单任务,小预算即可实现高性能;而对于多步组装等复杂任务,增加预算可显著提升结果质量。这一特性使模型能同时满足快速响应和精确推理的需求。
安全性方面,模型改进了语义安全过滤器,能识别并拒绝违反物理约束的计划(如超出机器人载荷能力的操作),为开发者提供更可靠的构建环境。
目前,Gemini Robotics-ER 1.5预览版已开放体验。开发者可通过Google AI Studio实验模型,阅读开发者文档获取快速入门指南和API参考,或通过Colab笔记本查看实际应用案例。完整技术报告也已发布,为技术社区提供深入分析。
这款模型被视为机器人的“高级大脑”,能够理解复杂指令、推理长周期任务并协调行为。无论是调用硬件API、专用抓取模型,还是运动控制模型,它都能将用户请求分解为可执行的计划,推动机器人技术向更智能、更自主的方向发展。