ITBear旗下自媒体矩阵:

谷歌新推设备端AI机器人,无需云端支持即可自主完成复杂任务

   时间:2025-06-26 00:23:16 来源:至顶头条编辑:快讯团队 IP:北京 发表评论无障碍通道

在人工智能与机器人技术交汇的前沿,一场革命正在悄然发生。尽管我们常常将Gemini、ChatGPT等智能聊天工具亲切地称为“机器人”,但它们与真正的物理机器人之间的差距正随着技术的进步而缩小。近日,谷歌DeepMind宣布推出了一款全新的设备端VLA(视觉语言动作)模型,这一创新为机器人的自主运行能力带来了质的飞跃。

与以往依赖云端支持的版本不同,这款新模型使得机器人能够在没有网络连接的情况下独立运行。谷歌DeepMind机器人部门的负责人Carolina Parada表示,这种转变将极大地提升机器人在复杂环境中的可靠性和实用性。作为谷歌机器人模型的首个独立版本,它为开发者提供了广阔的空间,可以根据特定需求对机器人进行定制化优化。

机器人技术的挑战在于,机器人不仅要在物理世界中运作,还要能够改变其环境。无论是简单的移动积木,还是复杂的系鞋带任务,机器人都可能面临各种不可预测的情况。传统的强化学习方法虽然有效,但进展缓慢。而生成式AI的引入,为机器人动作的泛化提供了新的可能。

Parada解释说,这款新模型利用了Gemini的多模态世界理解能力,使其能够完成全新的任务。从生成文本、写诗、总结文章,到编写代码、生成图像,再到控制机器人的动作,Gemini展现了前所未有的多才多艺。这种能力的融合,为机器人技术的发展开辟了新的道路。

值得注意的是,这款设备端VLA模型在准确性上仅略低于之前的混合版本(即云端与本地模型结合的系统)。然而,它的本地处理能力使得机器人在执行任务时能够迅速响应,无需等待云端的指令。这对于需要即时反应的机器人任务来说至关重要。据Parada介绍,许多任务都可以直接使用这款新模型来完成。

为了鼓励开发者探索这款新模型的潜力,谷歌DeepMind发布了完整的SDK。通过SDK,开发者可以为Gemini驱动的机器人设计新任务,并在新环境中进行测试。这种开放式的合作方式,有望揭示出更多模型标准调优无法处理的复杂动作。据透露,使用SDK的研究人员仅需50到100次演示就能让VLA适应新任务。

在AI机器人技术中,“演示”是一种独特的学习方法。它通常涉及远程操作机器人,通过手动控制机械设备完成任务来调优模型。虽然合成数据在训练过程中扮演着重要角色,但真实数据仍然是不可或缺的。Parada强调:“对于最复杂、最精细的行为,我们需要真实数据来训练模型。”然而,她也承认仿真技术在许多方面都能发挥重要作用。

尽管这款设备端VLA模型在处理简单动作方面表现出色,如系鞋带或折叠衬衫等任务,但对于更复杂的多步推理任务,它可能还需要更强大的支持。例如,制作三明治这样的任务可能需要更高级的模型来精确控制每一步的动作。

不过,团队认为这款设备端模型在云连接不稳定或不存在的环境中具有巨大优势。它在保护隐私方面也更为有利,特别是在医疗等敏感领域。通过本地处理机器人的视觉数据,可以减少数据泄露的风险。

在安全性方面,Gemini Robotics采用了多层保护机制。Parada解释说:“通过完整的Gemini Robotics系统,你可以连接到一个能够推理安全行为的模型。然后,这个模型会与VLA进行对话,VLA再调用低级控制器来执行动作。低级控制器通常包含安全关键组件,如力量限制和速度控制等。”虽然新的设备端模型本身只是一个VLA,但谷歌建议开发者采用类似的安全机制来确保机器人的安全运行。

对于有兴趣测试这款新模型的开发者来说,他们可以申请加入谷歌的可信测试程序。Parada表示,过去三年中机器人技术取得了许多突破,而这只是冰山一角。随着Gemini的不断升级和完善,我们有理由相信未来的机器人将更加智能、更加安全、更加可靠。

举报 0 收藏 0 打赏 0评论 0
 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  RSS订阅  |  开放转载  |  滚动资讯  |  争议稿件处理  |  English Version