在探讨大模型于科学发现领域的助力时,其“幻觉”特性似乎并不构成缺陷,反而成为了一种优势。然而,在自动驾驶这一对安全性要求极高、边界条件明确的场景中,幻觉问题却成为了一道必须跨越的障碍。
自动驾驶的容错率与当前大模型的错误率之间存在着显著的差距。华为在《云计算2030》报告中指出,L3级自动驾驶的容错率为0.1-1%,而L4级自动驾驶的容错率更是低至0.0001-0.001%。与此相比,即便GPT4这样的先进大模型,其错误率仍高达10%,与L4级自动驾驶的容错率相差了五个数量级。
尽管大模型的准确率在不断提升,但距离满足高级别自动驾驶的需求仍有较大差距。以理想汽车的视觉语言模型DriveVLM为例,尽管它基于阿里巴巴的Qwen-VL或meta的LLaMA2-3B进行改造,并新增了驾驶场景数据、进行了RAG检索增强、AI对齐、强化学习、优化提示词等工作,但其准确率的提升仍然有限。在直播测试中,DriveVLM甚至出现了公然逆行的错误,暴露了其输出错误率依然较高的现实。
自动驾驶系统需要在正确的时间和空间下做出正确的决策,实时规划出安全、舒适、高效的行驶路径。然而,目前理想汽车的视觉语言模型运行频率仅为3.3赫兹,无法满足复杂车流环境下的实时性要求,只能起到辅助提醒的作用。
有人提出,通过升级硬件来提升模型运行频率的解决方案。然而,这并非简单的硬件升级问题。更高等级的自动驾驶对模型的参数量有着更高的要求。理想汽车目前用于L3级自动驾驶的视觉语言模型参数量仅为22亿,这样的参数规模无法实现L4级自动驾驶。
本土智驾企业纷纷开启在车端自动驾驶大模型上的实践,并非因为他们自身技术多么强悍,而是得益于头部AI企业训练出并开源的具备图像理解能力的多模态大模型。然而,这些大模型虽然具备图文识别和场景理解能力,但并不具备真正的空间理解能力。建立空间理解能力的关键在于能够同时输入多个摄像头的图像输入,进行3D视角下的综合判断。而当前的视觉语言模型只能进行后融合,无法建立精准的空间理解能力。
尽管生成式AI的爆发让业界对自动驾驶能力的进展速度一度变得非常乐观,但从当前的技术现状来看,通过生成式AI大模型提升自动驾驶能力仍然是一条充满挑战的道路。无论是模型的准确率、运行频率还是空间理解能力,都需要进一步的突破和创新。