谷歌近期在机器人技术领域迈出了重要一步,推出了Gemini Robotics On-Device模型,这是其“视觉语言动作”(VLA)模型的升级版。据谷歌官方介绍,这款模型代表了他们目前最顶尖的VLA技术,特别之处在于它经过优化后能够在机器人设备上实现本地运行。
DeepMind的高级总监及机器人项目主管透露,Gemini Robotics On-Device的一大优势在于其独立性,无需依赖数据网络即可运作。这对于对延迟敏感的应用场景尤为关键,确保了即便在网络不稳定或完全无网络连接的环境中,机器人也能保持稳定的工作状态。
谷歌强调,Gemini Robotics On-Device是在今年3月发布的Gemini Robotics基础上进行升级而来,专为双臂机器人设计。其目标是提升机器人在处理复杂任务时的灵活性和适应能力。在一次演示活动中,谷歌展示了装备该本地模型的机器人,它们能够轻松完成如拉开拉链和折叠衣物等精细动作。
虽然该模型最初是为ALOHA机器人开发的,但谷歌随后对其进行了调整,使其能够兼容双臂Franka FR3机器人和Apollo人形机器人,进一步拓宽了应用范围。
谷歌DeepMind还同步发布了Gemini Robotics SDK,为开发者提供了在MuJoCo高级物理模拟器上利用这些模型的机会。通过向机器人展示50至100个任务演示,开发者可以训练机器人完成特定任务。与单纯的大语言模型相比,这些机器人AI面临的挑战更为复杂,因为它们不仅存在于物理世界中,还会与环境产生互动。
DeepMind的机器人技术负责人表示,Gemini不仅能生成文本、写诗、总结文章甚至编写代码,现在还能生成机器人动作。这意味着,通过大数据训练,谷歌的机器人模型已经具备了应对各种物理世界问题的能力,并在快速迭代中不断进步。
安全性是这类机器人AI必须面对的另一大挑战。相较于对话型AI,机器人AI的安全问题更为紧迫,因为“终结者”般的恐怖场景并非完全不可能成为现实。为了保障Gemini Robotics的安全,谷歌采取了多层限制措施。具体而言,机器人的控制由底层VLA模型负责,而该模型之上还有一个上级VLA模型,通过推理方案来判断指令的安全性。这种“AI管理AI”的机制,为机器人的安全运行提供了有力保障。
随着谷歌在机器人AI领域的突破,这一新赛道上的竞争也日益激烈。包括Nvidia在内的多家公司都在秘密研发自己的机器人项目,国内同样有众多企业在这一领域默默耕耘。一场全新的AI大战,正悄然拉开序幕。