ITBear旗下自媒体矩阵:

谷歌发布最强VLA模型:为机器人打造离线智能与定制化“操作系统”

   时间:2025-06-26 17:26:10 来源:财联社编辑:快讯团队 IP:北京 发表评论无障碍通道

谷歌近期宣布了一项创新技术突破,推出了一款名为Gemini Robotics On-Device的视觉-语言-动作(VLA)模型,专为双臂机器人设计。这款模型被标榜为谷歌迄今为止最强大的机器人基础模型,其核心优势在于对计算资源的极致优化。

Gemini Robotics On-Device不仅具备卓越的通用灵巧操作能力,还能实现任务泛化,这意味着它能够迅速适应并执行各种新任务。通过微调,该模型能够针对特定应用场景提升性能,从而支持快速实验和高效任务执行。

尤为引人注目的是,Gemini Robotics On-Device能够完全在机器人设备上离线运行。这一特性使其特别适用于对延迟敏感的应用场景,即便在网络连接不稳定或完全中断的情况下,也能保持稳定运行。谷歌强调,这一创新使得机器人在断网环境下依然能够“观察、理解并执行指令”。

在多个测试场景中,Gemini Robotics On-Device展现了强大的视觉识别、语义理解和行为执行能力。它能够理解自然语言指令,并成功完成如拉开拉链、折叠衣物等高难度灵巧任务。这些能力不仅展示了模型的泛化性能,也预示着其在实际应用中的巨大潜力。

除了离线运行外,Gemini Robotics On-Device的另一大亮点是其高度的可微调性。这一特性不禁让人联想到安卓系统的开放性,安卓系统通过高度开放的架构,让开发者和厂商能够定制系统以满足用户需求。而Gemini Robotics On-Device则是通过可微调性,让机器人能够更好地适应和执行各种任务。

作为谷歌首个对外开放的VLA模型,Gemini Robotics On-Device允许开发者进行适配,以提升在具体应用场景中的性能。据谷歌介绍,仅需50-100个示范样本,该模型就能显示出良好的泛化能力。这一特性使得Gemini Robotics On-Device在实际应用中具有极高的灵活性和适应性。

为了验证模型的性能,谷歌在七个不同难度级别的灵巧操作任务中进行了测试,包括拉上便当盒拉链、抽卡和倒沙拉酱等操作。测试结果显示,Gemini Robotics On-Device在各种任务中都表现出了出色的性能。

谷歌还将Gemini Robotics On-Device模型适配到了Franka FR3双臂机器人和Apollo人形机器人等不同的机器人实体上。在双臂Franka机器人上,该模型能够执行通用指令,包括处理未见过的物体和场景、完成灵巧任务以及执行高精确度的工业传送带组装任务。而在Apollo人形机器人上,谷歌对模型进行了适应性调整,以适配其独特的实体形态。

这些成功的应用案例不仅展示了Gemini Robotics On-Device模型的强大功能,也预示着其在未来机器人技术领域的广阔应用前景。

举报 0 收藏 0 打赏 0评论 0
 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  RSS订阅  |  开放转载  |  滚动资讯  |  争议稿件处理  |  English Version