在科技日新月异的今天,人工智能(AI)正以前所未有的速度重塑各行各业,而汽车行业无疑是这场变革中的前沿阵地。2022年,ChatGPT的横空出世不仅掀起了全球科技浪潮,更为AI技术的未来发展指明了方向。三年后,这股AI革命浪潮已深刻影响了汽车行业,其中,一项名为VLA(Vision-Language-Action)的技术成为了智能汽车领域的新宠。
VLA,即视觉-语言-行为三位一体的大模型架构,被视为当下“端到端”方案的进阶版。它将空间智能、语言智能和行为智能完美融合于一个模型之中,赋予了汽车更高的场景推理能力与泛化能力。简而言之,VLA技术的加持让汽车不再仅仅是驾驶工具,而是成为了一个能与用户沟通、理解用户意图的智能体。通过语言模型和逻辑推理的结合,它成为了一个听得懂、看得见、找得到的“司机Agent”。
在这场静悄悄但深刻的范式转移中,自动驾驶技术正经历着从规则驱动向学习驱动的转变,从分布式感知-决策-控制向端到端一体化架构的演进,再到今天VLA的多模态融合统一建模。技术不再是简单的模块叠加,而是要求AI真正“行动起来”,成为像人类司机一样理解环境、做出判断并立即执行的整体智能体。
在这场技术变革中,理想汽车无疑走在了中国车企的前列。在2025理想AI Talk第二季活动上,理想汽车董事长兼CEO李想聚焦VLA司机大模型,不仅展示了“司机Agent”的实力,更通过他对AI与人性的深度思考,描绘出了智能汽车发展的新蓝图。李想认为,AI不应仅仅是“汽车智能化”,而应真正实现“人工智能的汽车化”。
理想汽车的AI之路并非一蹴而就。从NOA到VLA,理想汽车经历了充足的技术积累与三段跳式的进化。从规则算法到无图NOA,再到端到端+VLM,最终迈向VLA司机大模型,每一步都至关重要,且每一阶段都是不可跨越的。无图NOA阶段实现了对先验信息依赖的突破,让车辆能够在没有高精度地图的情况下依然保持良好的驾驶表现;而端到端+VLM功能则标志着从规则驱动向数据驱动的根本转变。
在理想最新公布的demo视频中,“司机Agent”展示了其强大的智能辅助驾驶能力。无论是通过高速收费站时的“走人工”指令,还是日常驾驶中的“前方掉头”和“靠边停车”指令,系统都能迅速响应并执行。这一技术的实现,离不开VLA三位一体架构的强大支撑。
VLA技术的成功,不仅在于其将空间智能、语言智能和行为智能完美融合,更在于其对中国本土AI市场崛起的贡献。正如DeepSeek在大模型领域的发展路径所示,从基础算法研究到数据收集清洗、模型架构优化再到最终产品落地,每一步都不可或缺。理想汽车的VLA技术同样经历了这样的过程,才最终实现了从“辅助”到“智能体”的跃迁。
李想在活动上强调,如果规则算法都做不好,根本无法进行端到端的研究;如果端到端没有达到极致水平,VLA的训练也无从谈起。这一观点再次证明了技术进步的连贯性和必要性。VLA技术的突破,不仅拉高了智能辅助驾驶系统的上限,更在汽车座舱和车辆驾驶层面进行了完美结合。
在李想看来,智能辅助驾驶的发展可以分为三个阶段:昆虫动物智能、哺乳动物智能和人类智能。VLA技术正处于人类智能阶段,它利用3D视觉和2D组合构建更真实的物理世界,拥有自己的脑系统、理解物理世界的能力以及语言和思维链系统。这一技术的实现,标志着智能汽车正朝着“移动智能空间”的方向进化。
从人工智能行业的角度来看,VLA技术是“机器人模型”的一种,是Physical AI的原型。在ChatGPT等数字智能代表主导的软件智能浪潮之后,AI的下一个风口无疑是物理智能。汽车作为最复杂的物理空间智能终端,成为了理想汽车的主要切入口。一旦VLA模式在车上跑通,空间智能+语言智能+行为智能三者的融合,将为其他领域的机器人模型打下范式基础。
理想汽车的选择并非偶然。OpenAI、DeepSeek等大模型公司虽强,但他们并未真正涉足汽车领域的空间智能与行为建模,更没有语料、数据和场景去覆盖家庭用户与真实路况的多样性。正因如此,理想汽车选择了自己下场,打造自己的基座模型,一步步打磨空间智能和行为智能部分,尝试建立闭环能力的雏形。
随着VLA技术的不断发展,智能汽车正逐步从“移动交通工具”进化为“移动智能空间”,成为AI与人的共生载体。这场变革不仅是理想汽车的突破,更是AI进化的必然结果。未来的智能汽车,将在VLA的驱动下,开启一个全新的智能出行时代。