ITBear旗下自媒体矩阵:

谷歌新推离线AI机器人系统,实现自主操作如系鞋带无需云端支持

   时间:2025-06-25 23:28:32 来源:至顶头条编辑:快讯团队 IP:北京 发表评论无障碍通道

在人工智能领域,聊天机器人如Gemini和ChatGPT常被视作数字世界的交互先锋,然而,生成式AI正悄然在实体机器人技术中扮演核心角色。近期,谷歌DeepMind宣布推出全新设备端VLA(视觉语言动作)模型,专为机器人控制设计,这一版本实现了完全的本地自主运行,无需云端支持。

据谷歌DeepMind机器人部门主管Carolina Parada介绍,这款AI机器人技术能显著提升机器人在复杂环境中的可靠性,是谷歌首个面向开发者调优的机器人模型版本。Parada强调,机器人不仅存在于物理世界,还需与环境互动,这对AI提出了独特挑战。传统强化学习方法在训练机器人动作时效率低下,而生成式AI则展现出更强的泛化能力。

这款VLA模型利用了Gemini的多模态理解能力,使其不仅能执行文本生成、诗歌创作、文章总结等任务,还能编写代码、生成图像,更重要的是,它能生成机器人的动作指令。Parada解释说:“Gemini的多功能性让它成为了一个全能的助手。”

与此前依赖云端辅助的Gemini Robotics版本相比,新设备端模型在性能上仅略有逊色,但在实际应用中已足够强大。许多任务无需调整即可直接使用。开发者在与这些机器人互动时发现,它们在理解新情境方面展现出了惊人的能力。为了鼓励开发者进一步探索,谷歌提供了完整的SDK,使研究者仅需50至100次演示就能让VLA适应新任务。

在AI机器人技术中,“演示”意味着通过远程操作机器人完成任务,以此调优模型。虽然合成数据在训练过程中占有重要地位,但真实数据对于最复杂、最精细的行为仍是不可或缺的。Parada指出:“对于最精细的动作,我们仍然需要真实数据。”不过,仿真技术也在这一过程中发挥了重要作用。

尽管设备端VLA模型在处理简单动作,如系鞋带或折叠衣物时表现出色,但对于更复杂的多步骤任务,如制作三明治,它可能需要更强大的模型来支持。然而,对于云连接不稳定或隐私敏感的环境,如医疗设施,这款设备端模型尤为适用。

安全性始终是AI系统,尤其是实体机器人的一大关注点。为确保Gemini Robotics的行为安全,谷歌采用了多层次的安全机制。Parada解释说,系统首先通过Gemini Robotics连接到能够推理安全行为的模型,然后与生成动作选项的VLA对话,最终由低级控制器执行动作,这些控制器通常包含安全关键组件,如力量限制和速度控制。

虽然新的设备端模型本身不包含完整的安全机制,但谷歌建议开发者遵循Gemini团队的做法,将系统连接到包含安全层的Gemini Live API,并实施低级控制器进行关键安全检查。有兴趣测试Gemini Robotics设备端版本的开发者,可以申请加入谷歌的可信测试计划。

在过去三年里,机器人技术取得了显著进展,而此次发布的Gemini Robotics仅是基于Gemini 2.0的版本。Parada透露,Gemini Robotics团队通常落后于Gemini开发一个版本,而Gemini 2.5在聊天机器人功能方面已有大幅提升,未来机器人技术或许也将迎来类似飞跃。

举报 0 收藏 0 打赏 0评论 0
 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  RSS订阅  |  开放转载  |  滚动资讯  |  争议稿件处理  |  English Version