在具身智能技术的浪潮中,VLA(视觉-语言-动作)模型正迅速崛起,成为行业内的热门焦点。近期,谷歌推出了一款名为Gemini Robotics On-Device的VLA模型,该模型专为机器人设计,能够在无网络环境下本地运行,展现了强大的视觉识别、语义理解和行为执行能力。
据悉,Gemini Robotics On-Device模型在多种测试场景中均表现出色,不仅能够理解自然语言指令,还能完成如拉开拉链、折叠衣物等高难度任务。这一突破意味着机器人不再依赖于云端算力,而是能够在本地实现智能决策和执行,为机器人产业的广泛应用开辟了新道路。
VLA模型作为具身智能领域的关键新范式,正在引领机器人技术的新一轮变革。它不仅让机器人能够将语言意图、视觉感知与物理动作紧密结合,还实现了从感知到行动的连续决策流。今年以来,除了谷歌,微软、Figure AI等海外巨头也纷纷推出了自己的VLA模型,显示出这一领域的竞争激烈程度。
在国内,银河通用、智元机器人、自变量机器人等机器人公司也在VLA领域积极布局。银河通用推出的TrackVLA和GroceryVLA模型,分别在导航和零售场景中展现了出色的端到端能力。在智源大会的演示中,搭载了GroceryVLA的机器人Galbot能够准确理解人类指令,在模拟商超场景中为顾客挑选并送达食物,全程无需人工遥控。
智元机器人则发布了通用具身基座模型智元启元大模型(GO-1),该模型采用ViLLA架构,能够通过人类视频学习实现小样本快速泛化。智元机器人还与香港大学联合推出了UniVLA系统,该系统具备跨机器人本体、场景与任务的泛化能力,实现从语言描述和视频示范到动手操作的通用控制。
自变量机器人研发的WALL-A模型,则是世界上最大规模的端到端统一具身大模型。该模型突破了传统分层架构的限制,支持从原始传感器信号到机器人动作的纵向和横向任务统一,展现出卓越的跨任务泛化能力。自变量机器人在不到一年半的时间内完成了多轮融资,累计融资金额超过10亿元,其坚持的“大小脑统一的端到端大模型”路线备受投资机构青睐。
随着VLA模型的不断发展,机器人技术正逐步迈向更加智能化、自主化的阶段。未来,无论是在无网络的工厂环境,还是在灾区废墟等复杂场景中,机器人都将能够凭借本地运行的VLA模型,实现精准作业和自主救援,为人类带来更多便利和安全。