2025年末,中国智能驾驶产业迎来重要里程碑——首批L3级自动驾驶车型正式获得市场准入。与此同时,具身智能机器人领域在过去一年中也取得了突破性进展,从初期连抓取苹果都困难重重,到如今叠衣服成为行业入门任务,甚至掌握了穿鞋带这类曾被视为高难度的精细操作技能。
在这场技术变革中,一项名为VLA(视觉语言动作大模型)的技术正成为连接自动驾驶与具身智能的关键纽带。与传统端到端模型直接将视觉信号映射为动作的"条件反射"式决策不同,VLA通过引入语言理解与推理能力,使机器具备了"观察-理解-执行"的完整认知链条。这种技术范式转变,正在重新定义物理世界中的人工智能发展路径。
VLA技术的兴起也引发了行业争议。在2025年世界机器人大会上,宇树科技创始人王兴兴公开质疑该技术路线,认为其可靠性尚未达到工业应用标准。这场争论背后,折射出软件与硬件、泛化性与可靠性、学术探索与商业落地之间的深层矛盾。为深入探讨这一前沿技术,记者专访了小米汽车智能驾驶VLA技术负责人陈龙和上海交通大学计算机学院助理教授穆尧。
据陈龙介绍,VLA技术的核心在于利用大语言模型的泛化能力,结合互联网预训练获得的通识知识,通过语言模态的推理机制解决现实世界中的复杂决策问题。在自动驾驶场景中,当车辆遇到未见过的新奇场景时,系统需要调动知识储备进行推理判断,而非简单依赖历史数据。穆尧则强调,具身智能机器人通过VLA技术获得了三大突破:语言交互能力、开放场景泛化性,以及动作执行能力。虽然精细操作能力已有显著提升,但距离工业级可靠性标准仍有差距。
传统机器人系统通常针对特定场景开发,采用规划加力控或强化学习的方法实现单一任务。当具身智能要求机器人适应多任务、开放场景时,VLA技术提供了重要解决方案。以家庭场景为例,机器人需要理解"帮我泡杯咖啡"这类非标准化指令,将其拆解为取杯、注水、搅拌等子任务序列。这种能力在工业场景同样重要,柔性生产线需要机器人适应不同零件的随机到达。
端到端自动驾驶通过单一模型直接处理传感器输入到驾驶信号的转换,虽然解决了传统模块化系统的规则设计难题,但存在决策黑箱化和长尾场景泛化不足的问题。VLA技术通过引入语言解释机制,不仅提高了决策透明度,还能利用互联网预训练知识增强推理能力。例如在施工场景中,系统可以理解不同标识牌的含义,即使遇到非标准化指示也能做出合理决策。
长尾问题和泛化能力是智能系统面临的共同挑战。穆尧指出,机器人领域的长尾场景包括操作失误恢复、动态障碍物避让等复杂情况。陈龙则以自动驾驶为例,说明不同地区的交通标识差异可能造成系统困惑。VLA技术通过结合视觉感知与语言推理,能够更好地处理这些非结构化信号。在路径规划方面,系统可以利用语言模态实现长时记忆,避免重复进入死胡同。
针对"VLA是否仅在视觉与动作间增加语言层"的疑问,陈龙明确表示这是范式转变。传统视觉动作模型缺乏思考能力,而VLA通过认知驱动机制,利用大模型的知识储备解决复杂问题。穆尧补充说,机器人VLA系统需要处理更复杂的任务拆解,将抽象指令转化为具体动作原语。当前主流模型参数量在3B至8B之间,尚未达到真正"大脑"级别,但已展现出重要潜力。
在系统架构方面,行业普遍采用端云协同方案。13B以上参数的大型模型通常部署在云端,负责复杂推理任务;端侧或边端设备运行较小模型,处理实时控制需求。这种分层架构既保证了决策质量,又满足了系统响应要求。小米近期开源的跨模态基础模型,通过融合自动驾驶和机器人数据,验证了空间感知能力的可迁移性。
数据获取是制约技术发展的关键因素。自动驾驶领域具有天然优势,每辆上路汽车都能持续回传训练数据,形成数据飞轮效应。相比之下,具身智能机器人缺乏成熟产品,数据采集规模有限。学术界正在探索仿真合成数据、便携式采集设备等解决方案。穆尧提出的"人-数字人-机器人"三位一体管线,通过人类行为数据转化,显著提升了数据利用效率。
安全性是智能系统商业化必须跨越的门槛。穆尧认为,强化学习是提升安全性的重要工具,既能实现意识层面的安全对齐,也能优化动作执行精度。陈龙则强调自动驾驶的特殊性,指出系统需要多重安全冗余。在实际运行中,VLA模型会与传统感知规控网络并行工作,通过安全检查机制确保决策可靠性。
实时性要求对系统设计构成重大挑战。自动驾驶需要至少10Hz的决策频率,这对VLA模型的推理效率提出严苛要求。行业正在探索双系统架构,将深度思考与快速响应分离。穆尧指出,机器人领域更关注动作执行延迟,通过异步推理和并行计算等技术手段,3B参数模型已能实现15Hz的响应频率。工程优化和模型轻量化是提升系统流畅度的关键方向。
针对系统遗忘问题,研究者提出了多种解决方案。训练阶段通过扩大预训练数据规模,可以缓解灾难性遗忘现象。推理阶段则采用上下文窗口压缩技术,只保留关键历史信息。穆尧介绍,机器人系统通过记忆令牌嵌入或显式总结机制,实现了有效的工作记忆管理。这些技术使系统能够专注于当前任务,无需处理无关历史信息。










