当自动驾驶汽车中的AI系统告诉你"前方有行人,需要减速"时,你是否会完全信任这个电子司机的判断?由上海AI实验室、新加坡国立大学和加州大学尔湾分校等机构组成的国际研究团队,通过一项突破性研究揭示了当前视觉语言模型在自动驾驶场景中的真实能力。这项研究成果于2025年1月发表在计算机视觉顶级会议上,相关测试平台和详细数据已在drive-bench.github.io网站公开。
研究团队创建的DriveBench测试平台堪称AI司机的"综合驾照考场"。这个平台包含19200个驾驶场景图像和20498组问答样本,覆盖了从基础物体识别到复杂决策推理的各个层面。测试环境设计极具挑战性,包括17种不同条件:从明亮阳光到雨雪天气,从摄像头遮挡到图像传输错误,甚至完全移除视觉信息的极端情况。这种设计理念源于对现实驾驶场景的深刻理解——真正的司机必须在各种条件下都能安全驾驶。
测试结果令人震惊。在完全没有视觉输入的情况下,大多数AI系统仍能给出看似合理的驾驶建议,其评分与正常条件下的表现相差无几。这种现象暴露了AI系统的根本问题:它们可能并未真正理解路况,而是依靠训练数据中的统计规律和常识进行"猜测"。研究团队发现,训练数据中存在严重的不平衡现象,例如在行为预测任务中,约78.6%的场景标注为"直行前进",这导致AI系统学会了"投机取巧"的策略——无论实际情况如何,都倾向于回答"直行前进"。
在感知任务测试中,AI系统表现出明显的偏向性。当被要求识别物体运动状态时,系统经常错误地判断车辆正在"直行前进",即使实际情况是转弯。这种现象类似于一个从未真正观察过交通的人,只是听说过"车辆大多直行"就机械地套用这个答案。更严重的是,在预测和规划任务中,AI系统虽然能给出详细专业的解释,但往往缺乏对具体视觉细节的准确把握。例如,系统可能说"根据前方车辆位置应保持安全距离",但实际上并未准确识别车辆的真实状态。
研究团队进行的对比实验揭示了更深层次的问题。当AI系统面对视觉干扰时,其表现并非逐渐恶化,而是在某个临界点突然"崩溃"。在轻度干扰下,系统保持高度自信;但一旦干扰超过阈值,回答就变得明显不合理。这种"悬崖式"的性能下降模式在安全关键应用中极其危险,因为它没有提供渐进的警告信号。相比之下,人类司机在视线受阻时会主动承认看不清楚,或要求减速慢行。
专业化自动驾驶模型的表现同样引发关注。虽然DriveLM和Dolphins等专门训练的模型在语言评分上表现优异,能够生成符合驾驶场景的专业表达,但当面对不同数据集或视觉干扰时,其表现会显著下降。这种现象表明,这些模型的"专业性"可能更多体现在对特定数据格式的记忆上,而非对驾驶本质的理解。例如,Dolphins模型在BDD数据集上训练后,面对nuScenes数据集的测试题时表现明显变差,就像只在某个城市开过车的司机到了新城市就不适应。
人机对比实验提供了重要参照。具有驾驶经验的人类在理想条件下的判断准确率达93.3%,但在视觉条件恶化时会表现出合理的下降趋势:昏暗光线下降至约53%,雪天条件下降至33%左右。这种性能变化体现了人类认知的合理性——真正的司机会在视线不好时变得更加谨慎。相比之下,AI系统在相同条件下的表现异常"稳定",几乎不受视觉干扰影响,这反而暴露了其缺乏真实视觉理解的问题。
典型失败案例分析进一步揭示了AI系统的短板。在夜间驾驶场景中,即使没有提供图像,AI系统也能给出看似专业的建议,如"打开车灯、保持安全距离"。这表明其建议基于对"夜间驾驶"的一般性知识,而非具体场景分析。更严重的是,在摄像头完全黑屏的极端条件下,系统仍能给出"保持当前速度并注意周围环境"的建议,完全没有意识到需要人工干预或紧急停车的安全要求。
基于这些发现,研究团队提出了系统性改进建议。在数据质量方面,强调构建更平衡真实的训练集,确保每个样本都能仅凭视觉信息得出正确答案。模型训练应引入不确定性表达机制,使AI系统能像诚实司机一样,在不确定时主动承认并采取保守策略。评估方法需开发基于对比测试的框架,通过不同视觉条件下的表现差异判断真实视觉理解能力。技术架构上建议开发具有视觉质量评估能力的系统,能实时监测输入图像质量并调整回答策略。