谷歌在机器人技术领域的探索再次迈出重要一步,近日宣布推出Gemini Robotics On-Device模型,这一升级版模型标志着谷歌在“视觉语言动作”(VLA)技术上的又一突破。
据谷歌官方介绍,Gemini Robotics On-Device是迄今为止他们最强大的VLA模型,经过深度优化,实现了在机器人设备上的本地运行。这一特性使得该模型能够在不依赖外部数据网络的情况下稳定运行,对于延迟敏感的应用场景尤为关键,特别是在网络不稳定或无网络连接的环境中。
谷歌DeepMind的高级总监兼机器人主管表示,Gemini Robotics On-Device专为双臂机器人设计,旨在提升机器人在复杂任务中的灵巧性和适应性。这一模型是在今年3月推出的Gemini Robotics基础上升级而来,通过大数据训练,机器人能够执行更加精细的动作。
在一次演示中,谷歌团队展示了搭载这一本地模型的机器人,它们能够轻松完成拉开拉链、折叠衣物等基本任务,展现了模型在实际应用中的潜力。
谷歌还发布了Gemini Robotics SDK,为开发人员提供了在MuJoCo高级物理模拟器上使用这些模型的平台。开发人员可以通过向机器人展示50到100个任务演示来训练它们,进一步提升机器人的任务执行能力。
值得注意的是,与单纯的大语言模型相比,机器人AI面临着更多的挑战。机器人不仅存在于物理世界中,还会改变其环境,因此安全问题尤为重要。谷歌为保障Gemini Robotics的安全,采用了多层限制的策略。控制机器人的底层VLA模型之上,还有一个上级VLA模型,通过推理模型来判断指令的安全性,实现了“AI管理AI”的安全机制。
随着谷歌在机器人技术领域的不断深耕,越来越多的公司也开始关注这一新赛道。包括Nvidia在内的众多企业都在秘密研发自己的机器人项目,预示着未来机器人AI领域的竞争将更加激烈。在国内,同样有众多企业在这一领域默默耕耘,期待他们在未来的AI大战中崭露头角。