谷歌在机器人技术领域迈出了重要一步,近日推出了Gemini Robotics On-Device模型,这一升级版是在今年三月首次亮相的“视觉语言动作”(VLA)模型基础上优化而来。据谷歌官方介绍,该模型是其目前最为强大的VLA模型,专为在机器人设备上实现本地运行而设计。
谷歌DeepMind的高级总监及机器人项目负责人表示,Gemini Robotics On-Device模型的一大亮点在于其独立于数据网络运行的能力。这意味着,在延迟敏感的应用场景中,该模型能够发挥巨大作用,特别是在那些可能遭遇间歇性断网或无网络连接的环境中,它依然能够保持稳定的运行表现。
专为双臂机器人打造的Gemini Robotics On-Device模型,旨在提升机器人在处理复杂任务时的灵活性和适应能力。在一次演示活动中,谷歌团队展示了搭载这一本地模型的机器人,它们能够轻松完成拉开拉链、折叠衣物等基本动作,展现了模型在实际应用中的潜力。
值得注意的是,虽然Gemini Robotics On-Device模型最初是为ALOHA机器人训练的,但谷歌随后对其进行了调整,使其能够适用于双臂Franka FR3机器人和Apollo人形机器人。这一调整大大拓宽了模型的应用范围,为更多类型的机器人提供了强大的技术支持。
为了促进Gemini Robotics技术的进一步发展和应用,谷歌DeepMind还发布了Gemini Robotics SDK。开发人员可以在MuJoCo高级物理模拟器上利用这些模型,通过向机器人展示50到100个任务演示来训练它们完成任务。这一举措无疑将加速机器人技术的创新和应用进程。
与传统的“大语言模型”相比,机器人AI面临着更为复杂的问题和挑战。机器人不仅存在于物理世界中,还会对其环境产生影响。谷歌DeepMind机器人技术负责人强调,Gemini不仅能够生成文本、写诗、总结文章、编写代码,现在还能生成机器人动作。这意味着谷歌的机器人模型已经能够通过大数据训练来掌握各种动作,并在快速迭代中应对物理世界的各种挑战。
在安全性方面,谷歌也采取了严格的措施来保障Gemini Robotics的安全。他们采用了多层限制的方法,通过底层VLA模型和上层VLA推理模型相结合的方式来判断指令的安全性。这种“AI管理AI”的方式为机器人技术的安全性提供了有力的保障。
随着谷歌在机器人技术领域的持续深耕,越来越多的公司也开始关注并投入这一领域。Nvidia等知名企业正在秘密研发自己的机器人项目,而国内也有不少企业在默默耕耘这一赛道。可以预见,未来机器人AI领域将迎来更加激烈的竞争和更加广阔的发展前景。