ITBear旗下自媒体矩阵:

DeepMind推出Gemini Robotics On-Device:本地运行,让机器人更智能

   时间:2025-07-20 14:24:17 来源:InfoQ编辑:快讯团队 IP:北京 发表评论无障碍通道
 

DeepMind,谷歌旗下的AI研究巨头,近期推出了一款名为Gemini Robotics On-Device的创新模型,该模型融合了视觉、语言和行动(VLA)功能,专为在机器人硬件上本地运行而设计。这一突破性的进展意味着机器人能够在无网络或需要低延迟响应的场景中,高效执行复杂指令。

作为Gemini Robotics家族系列的最新成员,Gemini Robotics On-Device首次实现了模型的微调功能,仅需50次演示即可针对特定任务进行优化。这一特性大大提升了模型的灵活性和实用性,使其能够迅速适应各种应用场景。DeepMind在双臂Aloha机器人上对该模型进行了初步训练,并在其他机器人平台上进行了测试,结果显示其在新硬件上的表现同样出色。

Gemini Robotics On-Device模型能够遵循自然语言指令,并通过视觉感知环境中的对象,进行智能推理和执行操作。DeepMind表示,这一本地解决方案将有效解决机器人领域面临的延迟和连接性挑战,推动机器人技术的进一步创新。他们还推出了Gemini Robotics SDK,为开发者提供了根据特定需求调整模型的工具,进一步加速了机器人应用的开发进程。

今年早些时候,DeepMind首次公开了Gemini Robotics家族系列。该系列基于谷歌的Gemini 2.0大型语言模型(LLMs),并增加了用于物理行动的输出模态。为了评估机器人技术的安全性和视觉推理能力,DeepMind还发布了ASIMOV基准测试和具身推理问答(ERQA)评估数据集。这些基准测试为机器人技术的研究和应用提供了重要的参考标准。

在实验中,DeepMind展示了Gemini Robotics模型快速适应新任务的能力。针对包括准备食物和玩牌在内的7种不同任务,他们对模型进行了最多100次的演示微调。结果显示,使用Gemini Robotics模型的机器人成功完成任务的比例超过60%,超过了当前最佳的本地VLA模型。Gemini Robotics模型的离线版本表现更为出色,成功率接近80%。

在Hacker News的讨论中,一位用户对Gemini Robotics On-Device模型的前景表示乐观。他认为,VLAs有望成为机器人技术的“ChatGPT时刻”,通过微调多模态LLMs,可以输出特定指令序列来控制机器人。这位用户还指出,虽然目前大多数关注点在机器人手臂的物体操纵上,但这种方法同样适用于其他任务,如智能割草机等。

目前,Gemini Robotics On-Device模型尚未广泛可用,但感兴趣的开发者可以通过注册等待名单获取访问权限。同时,Gemini Robotics-ER模型的互动演示已在网站上上线,供用户体验。Gemini Robotics SDK也已开源至GitHub平台,供开发者下载和使用。

DeepMind的这一创新不仅为机器人技术带来了革命性的突破,也为开发者提供了强大的工具,推动机器人应用在更多领域实现智能化和自动化。随着技术的不断进步和应用的不断拓展,我们有理由相信,未来的机器人将更加智能、灵活和高效。

举报 0 收藏 0 打赏 0评论 0
 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  开放转载  |  滚动资讯  |  争议稿件处理  |  English Version