ITBear旗下自媒体矩阵:

谷歌DeepMind推出本地VLA模型,机器人具身智能迈入新时代

   时间:2025-06-26 03:19:05 来源:蓝鲸新闻编辑:快讯团队 IP:北京 发表评论无障碍通道

在科技界的一次重大突破中,Google DeepMind宣布了Gemini Robotics On-Device的诞生,这是一款可完全在机器人本地部署的视觉-语言-动作(VLA)模型。这一创新标志着具身智能(Embodied AI)的发展迈入了新的阶段,即从云端依赖转向本地自主运行,为产业应用开启了全新的可能性。

长久以来,具身智能的两大主要障碍分别是:对云计算资源的深度依赖,限制了机器人在无网络或网络不稳定环境下的作业能力;以及模型体积庞大,难以在机器人有限的计算资源上高效运作。Gemini Robotics On-Device的推出,成功解决了这些问题。该模型能够在算力受限的机器人设备上本地运行,展现出卓越的通用性和任务泛化能力,且无需依赖数据网络,对延迟敏感的应用具有显著优势。

在Google DeepMind的演示视频中,Gemini Robotics On-Device在无网络连接的状态下完成了多项复杂任务,如将魔方放入包装袋、拉开包包拉链等,涵盖了感知、语义理解、空间推理和高精度执行等多个环节。这些演示不仅展示了模型的高水平通用能力和稳定性,还突显了其在各种复杂任务中的灵活性和效率。

值得注意的是,Gemini Robotics On-Device仅需50至100次演示即可学习新技能,极大地扩展了模型的应用范围和部署灵活性。相比之下,目前大部分机器人需要成千上万次的训练才能完成一个任务。该模型还具有跨机器人形态的泛化能力,能够应用于双臂机器人、人形机器人等不同形态,进一步扩展了其应用潜力。

为了促进Gemini Robotics On-Device的广泛应用,Google首次开放了VLA模型的微调功能。这意味着工程师或机器人公司可以基于自有数据对模型进行定制训练,优化其在特定任务、场景或硬件平台上的表现。同时,Google还推出了Gemini Robotics SDK,为开发者提供了模型评估和快速调整的便利工具。这些举措表明,Google正致力于打造一个开放、通用且易于开发的机器人平台,类似于安卓系统在智能手机行业所扮演的角色。

具身智能领域的专家指出,Gemini Robotics On-Device的发布标志着机器人终于能够走进真实环境。以往受限于带宽和算力,许多机器人AI只能停留在示范阶段。而现在,通用模型可以真正运行在硬件终端上,即使在没有网络连接的情况下也能执行复杂操作。这一进展对于推动具身智能在家庭、医疗、教育等敏感场景的应用具有重要意义,解决了数据隐私、实时反应和安全稳定性等核心挑战。

随着AI算力和模型架构的持续演进,边缘智能正逐渐从传统的物联网(IoT)走向以具身智能为代表的更高级阶段。本地VLA模型将成为下一个竞争的焦点。然而,在实际落地过程中,仍面临诸多挑战。机器人硬件的多样性和复杂性意味着即使是强大的通用模型,也需要针对每种具体硬件进行细致的适配和调优。数据收集和标注的成本在海量、多样化的实际应用场景中可能异常高昂,特别是在需要专业操作知识和设备的工业或特定服务场景。

最后,机器人需要在极其复杂、动态且不可预测的真实世界环境中保持鲁棒性。光照变化、物体遮挡、非结构化杂乱环境以及人机交互中的细微差异,都将对模型的实时感知和决策能力提出严峻考验。确保机器人在各种实际场景中都能保持高水平的稳定性和安全性,是未来具身智能发展必须克服的关键难题。

举报 0 收藏 0 打赏 0评论 0
 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  RSS订阅  |  开放转载  |  滚动资讯  |  争议稿件处理  |  English Version