在汽车行业的新一轮技术浪潮中,理想汽车正以一种前所未有的姿态,引领着智能驾驶领域的变革。去年年末,理想汽车的创始人李想高调宣布公司将全力投入AI领域,彼时,他的AI战略似乎还笼罩在一层神秘的面纱之下,包括Mind GPT的对话能力、L3级自动驾驶的路线图,以及“硅基家人”这一宏大的愿景。然而,具体的技术路径,仍旧是犹抱琵琶半遮面。
130天后,李想再次站到了公众面前,这一次,他用了近半的时间详细阐述了VLA(Vision-Language-Action Model,视觉-语言-行为模型)的技术细节,理想的AI战略也由此逐渐清晰。
VLA并非一个新概念,早在2023年7月,谷歌DeepMind便推出了全球首个用于控制机器人的VLA模型。如今,这一模型概念正迅速扩展到智能驾驶领域。今年3月,在英伟达的GTC大会上,理想汽车首次发布了自家的VLA架构。
对于VLA的能力,李想坦言,目前尚无法确定它是否是最高效的方式,是否会有更高效的架构出现。但至少在当前阶段,VLA是最强的架构,它的能力接近甚至超越人类。
李想对VLA的执着,是理想汽车在行业剧变中寻求生存与突破的必然选择。尽管2024年理想汽车以50万辆的交付量成为新势力销冠,但净利润同比下滑31.9%也暴露出了发展隐忧。特别是在价格策略上,虽然李想曾公开质疑“降价提升销量”的路径,但面对激烈的市场竞争,理想汽车一方面在去年4月采取了降价策略,另一方面又推出了定价在25万元以下的理想L6,试图以价格优势抢占市场。
这种“以价换量”的策略虽然拉动了销量增长,但单车利润却显著低于高端L系列,整体盈利水平被稀释。数据显示,单车毛利率从21.5%下滑至19.8%,直接影响了净利润的表现。首款纯电车型MEGA的失利,更是暴露了理想汽车在纯电技术上的短板,以及增程用户向纯电迁移的转化困境。
更为严峻的是,竞争对手正以更激进的技术路径蚕食理想汽车的核心市场。华为问界M8/M9增程版、零跑C系列等车型的推出,使得增程式市场从“蓝海”迅速转变为“红海”。理想L系列所依赖的“冰箱彩电大沙发”差异化配置逐渐被效仿,产品溢价能力下降。
在这样的背景下,李想选择布局VLA这条“无人区”技术路线,试图通过技术破局,重构竞争维度。他解释说,VLA是一个司机大模型,像人类的司机一样工作。有了VLA的赋能,汽车不再只是一个驾驶工具,而是一个能与用户沟通、理解用户意图的智能体。
在VLA的技术演进框架中,AI智能被划分为昆虫动物智能、哺乳动物智能和人类智能三个阶段。从2021年起,理想汽车开始自研依赖规则算法和高精地图的辅助驾驶,类似于“昆虫动物智能”。而从2023年起,理想汽车开始研究端到端+VLM(Vision Language Model,视觉语言模型)辅助驾驶,并于2024年正式推送,这一阶段接近于“哺乳动物智能”。
在端到端的基础上,VLA将开启“人类智能”的阶段。它不仅能通过3D和2D视觉的组合完整地看到物理世界,还能进一步理解物理世界,具有自己的语言和思维链系统,有推理能力,可以像人类一样执行复杂动作。
然而,随着AI能力的跃升,行业也迎来了关于“安全性”的拷问。智能驾驶技术的安全性被质疑,整个行业被推至舆论的风口浪尖。理想汽车选择双线突破:在技术端,投入大量资源强化训练,并组建超过100人的超级对齐团队;在系统端,搭建安全对齐的监控系统,确保安全对齐的动作有效,并能发现未覆盖到的动作。
李想认为,判断一个司机Agent是否是好司机,关键在于其专业能力、职业能力和构建信任的能力。而此次AI Talk的深刻隐喻,是理想汽车身份的重构。当李想宣布“我们不是汽车公司,而是人工智能企业”时,理想汽车的目标已不仅仅是销量竞争,而是争夺智能汽车时代的定义权。