DeepMind近日推出了专为机器人与具身智能设计的Gemini Robotics 1.5系列模型,为实体世界中的智能体赋予了更接近人类的思考与行动能力。这一系列包含Gemini Robotics 1.5与Gemini Robotics-ER 1.5两款模型,分别聚焦于动作执行与环境推理,共同构建出支持复杂任务完成的智能框架。
作为视觉-语言-动作模型的代表,Gemini Robotics 1.5能够将视觉信息与语言指令转化为精准的机械动作。例如,在垃圾分类任务中,机器人Aloha通过分析物品特征并参考旧金山分类标准,自主将物品分配至堆肥、回收或垃圾容器。而在另一场景中,Apollo机器人不仅完成了打包针织帽的任务,还主动查询伦敦天气并添加雨伞,展现了多步骤规划与环境适应能力。
Gemini Robotics-ER 1.5则侧重于物理世界的逻辑推理与工具调用。该模型支持自然语言交互,可评估任务进度并调用谷歌搜索等外部资源。在实际应用中,它通过生成自然语言指令指导Gemini Robotics 1.5执行动作,同时利用空间理解能力优化任务路径。例如,在复杂环境中,ER 1.5能分解任务步骤并动态调整策略,确保高效完成目标。
两款模型均基于Gemini核心架构开发,通过针对性数据集微调实现功能分化。协同工作时,它们显著提升了机器人对长周期任务的处理能力。例如,在分类水果任务中,机器人需感知颜色、分析空间关系并逐步操作;在洗衣分类场景中,Apollo通过链式规划调整抓取姿势,甚至对临时干扰作出即时反应。
跨具身学习能力是该系列的另一突破。传统模型需针对不同机器人形态重新训练,而Gemini Robotics 1.5支持动作迁移。实验中,Apollo通过迁移Aloha在衣柜场景的经验,成功完成开门、取衣等陌生动作。这种能力使得物流、零售等领域的机器人可共享学习成果,加速通用技术落地。
在技术实现上,Gemini Robotics-ER 1.5首次将具身推理优化引入思维模型。其支持物体检测、轨迹预测、任务进度评估等功能,在学术与内部测试中均达到领先水平。例如,在分割掩码任务中,模型可精准识别物体边界;在任务成功检测中,能实时反馈操作结果并调整策略。
这一系列模型的推出,标志着机器人从“指令执行”向“自主决策”的跨越。通过结合环境感知、逻辑推理与动作执行,智能体得以在复杂场景中完成多步骤任务。随着跨具身学习技术的成熟,未来不同形态的机器人或将实现知识共享,推动通用机器人技术的规模化应用。