在计算机视觉领域,一场技术革新风暴正悄然掀起。近期落幕的国际计算机视觉大会(ICCV)上,特斯拉首次向外界深度揭秘其FSD(完全自动驾驶)系统的核心架构,这一举动引发行业广泛关注,也预示着自动驾驶技术迈向全新发展阶段。
特斯拉自动驾驶副总裁阿肖克·埃鲁斯瓦米在大会上介绍,FSD系统依托一个大型神经网络,将摄像头视频、地图、车速乃至音频等多模态信息一股脑输入其中,网络直接输出方向盘操作和油门控制指令。这意味着,过去感知、预测、决策、控制等独立环节,如今在一个网络内融合,通过反向传播实现整体优化。这种架构与当下热议的“世界模型”概念高度契合。
所谓“世界模型”,可理解为AI构建的“虚拟小宇宙”。它能将外界信息压缩成内部版本,并在此空间内模拟未来场景。例如,它能预测踩油门后前车的反应——是继续前行还是紧急刹车。这种能力如同人类大脑的“预演”,是实现智能决策的关键。特斯拉的“神经世界模拟器”正是此类模型的典型代表,它不仅能生成未来画面,还能根据不同操作预测多种结果。
这一技术的优势在于,它不仅能提供“未来可能堵车”的笼统判断,更能细化到“变道是否更快或更危险”的具体分析。通过在虚拟环境中反复测试新策略,甚至模拟极端场景,系统迭代速度大幅提升。例如,系统可在虚拟世界中尝试不同变道时机,评估风险与收益,从而优化实际驾驶决策。
围绕自动驾驶技术路线,行业已形成两大阵营。以特斯拉、蔚来、华为为代表的企业主张“世界模型”路线,认为AI需真正理解物理世界,通过内部模拟实现精准决策;而理想、小米等企业则倾向“VLA(视觉-语言-行动)模型”,借助大语言模型的推理能力,将视觉信息转化为文字描述,再通过语言逻辑制定策略。
两条路线各有优势。世界模型更贴近物理现实,擅长处理复杂动态环境,是高级别自动驾驶的核心技术;VLA模型则凭借语言模型的常识推理能力,在应对长尾场景(如罕见交通状况)时更具潜力。例如,面对道路施工标志模糊的情况,VLA模型可通过语言逻辑推断施工类型,而世界模型则可能更依赖对物理环境的直接感知。
中国企业在世界模型领域已展现强劲实力。蔚来推出的NWM世界模型,可在100毫秒内生成200多个应对预案,并筛选最优方案;华为的WEWA架构则强调从传感器信号到控制指令的直接映射,跳过语言转换环节,追求极致安全;商汤的“开悟”模型则聚焦仿真领域,通过AI生成海量高逼真训练数据,降低车企研发成本。
这场技术竞赛背后,是自动驾驶从辅助功能向完全自主的跨越。无论是特斯拉的“闭环神经宇宙”,还是中国企业的多样化探索,均指向同一目标:让汽车成为具备感知、思考与决策能力的移动智能体。世界模型作为关键技术,正成为企业争夺L4级无人驾驶制高点的核心筹码。












