自动驾驶技术发展至今,虽已取得显著进步,但仍面临诸多挑战。其中,如何让AI系统在复杂多变的真实环境中具备足够的适应能力,成为行业关注的焦点。清华大学智能产业研究院的科研团队联合多所院校,针对这一问题展开深入研究,提出了一种创新性的解决方案,相关研究成果发表于arXiv预印本平台。
当前,多数自动驾驶AI系统主要依赖模仿学习,就像学生仅通过背诵标准答案来学习数学,虽能掌握基础技能,但缺乏解题思路。当遇到训练数据中未出现的新情况,尤其是罕见且危险的长尾场景,如突然出现的行人或异常交通状况时,这些系统往往表现不佳,难以做出合理决策。
为突破这一瓶颈,研究团队开发了名为CoIRL - AD的新框架,即“协作竞争式模仿强化学习”。该框架为AI系统赋予了模仿与探索两种能力,在其内部设置了两个独立的“驾驶员”。一个“驾驶员”专门模仿专家驾驶,确保基础驾驶技能的可靠;另一个“驾驶员”则负责在安全范围内探索不同驾驶策略,从成功与失败中积累经验。
这两个“驾驶员”既合作又竞争。在合作方面,它们共同为AI系统的驾驶决策提供支持;在竞争方面,当两者表现相近时和平共处,若一方明显更优,较弱的一方会主动学习强者的经验。这种动态的学习机制,使AI系统能够不断优化自身策略。
为进一步提升探索驾驶员的能力,研究团队引入了一个虚拟的“想象世界”。这个高度逼真的驾驶模拟器,让探索驾驶员无需实际道路行驶,就能预测不同行驶策略的后果,从而在真实世界数据基础上,通过想象扩展经验范围。
在驾驶规划方式上,研究团队也有新发现。传统方法多为“从近到远”,即先确定眼前行驶路线,再考虑远处目标。而他们发现“从远到近”的反向规划更符合人类驾驶思维,先明确目的地,再规划具体转弯和变道动作,使驾驶决策更合理。
在nuScenes和Navsim两个权威自动驾驶数据集上的测试表明,CoIRL - AD系统优势明显。与传统纯模仿学习方法相比,其碰撞率降低了18%,在处理罕见和困难场景时表现更出色,跨城市部署时的适应能力也更强。研究团队还专门构建了包含易预测错误情况和易引发碰撞危险场景的测试环境,CoIRL - AD系统在这些困难场景中均展现出更强的应对能力。
该研究的技术创新不仅体现在双重学习架构,还包含诸多精巧细节。例如,为使探索驾驶员产生的行驶轨迹更平滑合理,研究团队采用“步骤感知”探索机制,每次探索仅一个行驶步骤随机,其余采用最优策略,既保证探索多样性,又维持轨迹连贯性。
在训练过程中,研究团队观察到有趣现象。训练初期,模仿驾驶员因有专家示范可学习,表现更好;随着训练深入,探索驾驶员通过试错积累丰富经验,逐渐展现出优势,这体现了学习过程的自然规律。
研究团队还通过消融实验验证了框架各组件的必要性。他们发现,简单将模仿学习和强化学习损失函数相加,会因梯度冲突导致训练不稳定,只有通过双策略架构和竞争机制,才能实现两种学习方式有效结合。
值得一提的是,CoIRL - AD系统在推理阶段不会增加额外计算开销。两个“驾驶员”在训练完成后整合为统一驾驶策略,实际部署时运行效率与传统方法相当。
研究团队在论文中也客观讨论了当前方法的局限。由于使用的奖励函数相对简单,仅考虑模仿奖励和碰撞奖励,系统在某些复杂场景表现仍有提升空间。基于世界模型的仿真虽能提供额外训练数据,但与真实世界仍存在差距。
尽管存在这些局限,CoIRL - AD框架已展现出巨大潜力。它不仅在技术层面实现创新突破,更为自动驾驶AI系统学习方式提供了新方向,这种结合模仿与探索的学习范式,有望成为未来自动驾驶技术发展的重要趋势。










