谷歌DeepMind近日推出Gemini Robotics 1.5系列机器人模型,通过思维链机制与模型协作架构,显著提升机器人在物理世界中的自主决策能力。该系列包含Gemini Robotics 1.5与Gemini Robotics-ER 1.5两款模型,分别承担执行层与规划层功能,形成"小脑-大脑"协同体系。
作为执行层核心,Gemini Robotics 1.5是当前最先进的视觉-语言-动作(VLA)模型。其独特之处在于具身思考能力:在执行动作前会生成自然语言形式的"思考轨迹",将复杂任务拆解为可执行的子步骤。例如处理"收拾桌面"指令时,模型会先规划"识别物品-抓取杯子-移动至水槽"等具体动作。这种分层处理机制使机器人具备动态调整能力,当杯子意外掉落时,能立即生成"重新抓取"的修正指令。
规划层模型Gemini Robotics-ER 1.5则专注于具身推理,其原生支持数字工具调用与多步骤计划生成。该模型在15项学术基准测试中创下最佳纪录,空间推理能力超越GPT-5等主流模型。具体而言,它能通过多视角视觉信息实时判断任务进度,例如准确识别"指向桌子左下角蓝色杯子"的指令,并持续评估动作与目标的匹配度。
技术实现层面,两个模型均基于Gemini多模态架构构建,共享图像、文本及机器人传感器数据组成的训练集。数据采集自ALOHA、双臂Franka和Apollo人形机器人等异构平台,涵盖抓取操控、双臂协作等数千个多样化任务。为增强泛化能力,训练数据还融入互联网公开图文视频,并通过Gemini模型生成详细描述,帮助捕捉图像中的语义细节。
动作迁移机制(MT)是该系列的关键突破。传统模型需要针对每个机器人平台单独训练,而MT通过统一建模动作与物理特性,实现跨本体零样本迁移。例如在ALOHA机器人上学会"开抽屉"的技能,可直接应用于Apollo人形机器人,无需额外训练数据。这种能力源于MT对不同平台数据的共性提取,有效打破机器人实体间的技术壁垒。
在安全控制方面,谷歌开发了多层防护体系。顶层设置安全判断机制,底层部署碰撞避免等子系统,并发布升级版ASIMOV安全基准测试。该数据集新增边缘场景覆盖与视频模式评估,Gemini Robotics-ER 1.5在其中展现出先进的语义安全理解能力,能更好遵守物理约束条件。
开发者可通过Gemini API调用Gemini Robotics-ER 1.5模型,而执行层模型目前向特定合作伙伴开放。技术报告与模型资源已同步发布,详细披露训练方法与性能指标。值得注意的是,训练过程采用TPU v4/v5p/v6e硬件与JAX框架,通过并行计算实现高效扩展。
这种跨本体技术路径正成为行业新趋势。宇树科技近期开源的UnifoLM-WMA-0模型虽采用不同架构,同样具备多平台适配能力。随着Gemini Robotics 1.5系列展示出类似人类的场景适应力,机器人模型的通用化发展已形成技术共识。