谷歌DeepMind再次刷新机器人技术边界,正式推出全球首个具备模拟推理能力的具身模型——Gemini Robotics 1.5系列。这款新一代通用机器人基座模型不仅整合了视觉、语言与动作(VLA)的多模态能力,更通过具身推理(Embodied Reasoning)机制实现了“先思考、后行动”的突破性功能。
该系列由两大核心模型构成:Gemini Robotics 1.5(GR 1.5)作为多模态执行层,负责将语言与视觉输入转化为具体动作;Gemini Robotics-ER 1.5(GR-ER 1.5)则强化推理能力,承担任务规划、工具调用与进度监控。其中,GR-ER 1.5成为全球首个具备模拟推理能力的具身模型,其“ER”后缀即代表“具身推理”。
与传统机器人模型不同,GR 1.5系列通过显性推理机制显著提升了任务完成能力。例如,在分拣深浅色衣物或根据天气自动打包行李的任务中,机器人不仅能分解复杂流程,还能在执行过程中自我检测并修正错误。更令人瞩目的是,该模型能根据不同地区的垃圾分类标准(如北京与上海的差异),主动搜索网络信息以辅助完成任务。
跨平台迁移能力是该系列的另一大亮点。通过Motion Transfer技术,GR 1.5系列实现了“零样本”技能迁移:在ALOHA双臂机器人上训练的操作可直接应用于Franka工业机器人,甚至能无缝迁移至Apollo人形机器人。这种通用性打破了硬件形态的限制,使单一模型能驱动低成本机器人、工业级设备及人形机器人等多种硬件。
研究团队指出,GR 1.5系列的核心创新在于同时实现了三大突破:显性推理、跨平台迁移与物理世界理解。在传统模型中,动作往往是指令的直接映射,而GR 1.5在行动前会生成思考轨迹,将复杂任务拆解为小步骤并逐一执行。这种机制不仅提升了多步任务的稳定性,还通过可视化思考过程增强了可解释性。
Motion Transfer技术的引入是关键。该技术将不同机器人的运动轨迹映射至统一动作语义空间,使机械臂与人形机器人等硬件能共享技能。例如,模型在ALOHA上学会的抓取动作,可直接迁移至Franka执行,无需针对新平台重新训练。研究显示,该技术通过提炼物理世界的通用规律(如物体抓取方式、平衡维持策略),显著提升了任务泛化能力。
安全性与鲁棒性同样得到重视。在ASIMOV-2.0安全基准测试中,GR 1.5展现出更高的风险识别与干预能力,能主动理解动作背后的物理风险并触发保护机制。配合自动红队测试的持续优化,模型在抵御对抗攻击、避免幻觉响应等方面表现更强。例如,当机器人抓取水瓶失败时,会立即切换方案使用另一只手完成任务。
学术基准测试进一步验证了该系列的优越性。GR-ER 1.5在空间推理、复杂指点、进度检测等任务上全面超越GPT-5和Gemini 2.5 Flash,刷新了业界表现上限。在230项任务的评测中,GR 1.5在指令泛化、动作泛化、视觉泛化及任务泛化四个维度均优于前代模型。结合GR-ER 1.5的系统在长时序任务上完成进度分数接近80%,几乎是单一VLA模型的两倍。
数据与训练策略是支撑该系列成功的基石。研究团队采集了ALOHA、Franka、Apollo等平台上成千上万种操作数据,同时引入互联网文本、图像与视频信息,确保模型兼具现实动作经验与广泛语义知识。训练过程中,约九成迭代在MuJoCo仿真环境中完成,使模型能快速试错、迭代后再迁移至真实硬件,显著提升了研发效率与现实稳定性。
目前,开发者已可通过Google AI Studio中的Gemini API使用GR-ER 1.5,但GR 1.5仅向少数谷歌DeepMind合作伙伴开放。这一系列模型的推出,标志着机器人技术从执行单一指令向真正理解并解决物理任务迈出了关键一步。