谷歌DeepMind团队再次刷新机器人智能领域的高度,正式推出专为具身智能设计的Gemini Robotics 1.5系列模型。这一创新成果标志着机器人从“执行指令”向“主动思考”的跨越式发展,为通用机器人的实际应用开辟了新路径。
系列模型包含两大核心组件:Gemini Robotics 1.5与Gemini Robotics-ER 1.5。前者作为视觉-语言-动作模型,能够将环境感知与任务指令转化为精准的机械运动;后者则定位为具备物理世界推理能力的视觉-语言模型,擅长制定多步骤计划并调用数字工具。二者通过协同工作,构建出完整的智能体决策框架。
在谷歌实验室的演示视频中,搭载新模型的机器人展现了令人惊叹的场景适应能力。面对旧金山垃圾分类标准,名为Aloha的机器人通过查阅规则并分析物品特征,准确将废弃物分配至堆肥、回收和垃圾三类容器。另一场景中,Apollo机器人接到打包行李指令后,不仅完成针织帽的收纳,还主动查询伦敦天气数据,将雨伞加入行李清单,展现出环境理解与自主决策的融合能力。
Gemini Robotics-ER 1.5的突破性在于其具身推理优化能力。该模型支持自然语言交互,可实时评估任务进度与成功率,并能调用谷歌搜索等外部工具获取信息。在技术实现层面,其通过物体检测、状态估计、轨迹预测等模块,构建起对物理世界的立体认知。例如在动态场景中,模型能准确识别物体位置变化,并调整后续操作策略。
作为执行层的Gemini Robotics 1.5则专注于动作转化。该模型通过视觉理解与语言解析,将高层规划拆解为具体机械指令。特别值得关注的是其反思机制——机器人能通过自然语言解释决策过程,这种透明性设计为调试与优化提供了全新维度。在复杂任务中,模型甚至能生成内部推理序列,实现多步骤语义理解。
跨具身学习能力是该系列的另一大亮点。传统机器人模型需要针对不同机械形态单独训练,而Gemini Robotics 1.5通过统一架构实现了技能迁移。实验显示,在衣柜场景中积累经验的Aloha机器人,其开门、取衣等动作可无缝转移至从未接触过该环境的Apollo机器人。这种“跨物种”学习能力,为物流、零售等领域的机器人协同提供了技术基础。
在长达3分40秒的复杂任务演示中,机器人展现了链式规划与动态调整能力。面对水果分类任务,系统需同步处理颜色识别、空间定位与动作排序;在洗衣分类场景中,机器人能根据衣物堆叠状态调整抓取策略,甚至对突发干扰作出即时反应。这些表现证明,新一代模型已具备处理开放式任务的能力。
技术实现层面,两个模型均基于Gemini核心架构,通过针对性数据集微调形成专业能力。当ER 1.5制定出自然语言步骤后,1.5模型即执行具体动作,形成“规划-执行-反馈”的完整闭环。这种设计显著提升了机器人在长周期任务中的表现稳定性,使其能更好适应多样化现实场景。