ITBear旗下自媒体矩阵:

自动驾驶新突破:理想AI司机融合主动感知与强化学习

   时间:2025-07-30 23:51:40 来源:ITBEAR编辑:快讯团队 IP:北京 发表评论无障碍通道
 

在自动驾驶领域,一项突破性的进展正引发广泛关注。上海期智研究院携手理想汽车、同济大学和清华大学,共同研发出名为DriveAgent-R1的自动驾驶智能体,这一创新成果有望重塑自动驾驶的底层逻辑。

DriveAgent-R1的核心优势在于其主动感知机制和混合思维框架。这一组合打破了传统视觉语言模型(VLM)在决策短视和被动感知方面的局限,显著提升了自动驾驶在复杂环境下的可靠性。

混合思维框架的引入,使得DriveAgent-R1能够根据输入的多模态数据灵活选择思考模式。在面对信息充足的简单场景时,它采用高效的纯文本推理;而在信息不足的情况下,则调用外部视觉工具来辅助推理。这种“智能插混系统”的设计,让DriveAgent-R1能够根据不同场景需求灵活切换,实现了长时程、高层级的决策能力。

主动感知机制则是DriveAgent-R1的另一大亮点。与以往被动接受场景数据的自动驾驶系统不同,DriveAgent-R1能够主动探查环境,感知不确定因素。这种底层逻辑上的改变,使得它在遇到模糊指示牌等不确定信息时,能够主动多看或“凑近看”,从而做出更加鲁棒和有据可依的决策。

为了实现这一创新,研究团队采用了Qwen2.5-VL-3B作为DriveAgent-R1的底座,并配备了8张H20 GPU。通过视觉编码器和语言解码器的协同工作,它能够处理来自6路环视摄像头的视觉信息以及车速、导航等文本指令,最终输出一个长达8秒的驾驶意图决策。

在训练过程中,DriveAgent-R1采用了三阶段渐进式训练策略,其中强化学习起到了核心作用。第一阶段通过双模式监督微调构建了高质量的冷启动数据集;第二阶段通过强制对比模式强化学习强化了模型在不同思考模式下的独立思考能力;第三阶段则通过自适应模式选择强化学习让模型能够根据上下文自主选择最优的思维模式。

在测试阶段,DriveAgent-R1会根据输入的多模态数据判断当前视觉信息是否充足,并从两种思考模式中做出选择。在简单场景下,它依赖纯文本推理;而在复杂或不确定场景下,则会调用外部视觉工具来获取更多信息。

这些外部视觉工具包括高分辨率视图获取、关键区域检查、深度估计和3D物体检测等。它们为DriveAgent-R1提供了强大的视觉支持,使其能够在复杂环境中做出更加精准的决策。例如,在晚上没有路灯的小路上行驶时,DriveAgent-R1能够识别出前方的路口、交通标识和路上的碎石,从而做出减速并向右打方向以避开碎石的决策。

尽管DriveAgent-R1已经取得了显著的成果,但研究团队指出仍有一些方面需要优化。例如,目前外部工具的种类还相对较少,未来可以集成更多功能以应对更多复杂场景。生成的轨迹目前也是离散的元动作序列,未来可以考虑直接生成低层连续轨迹以提高驾驶的平滑性和安全性。

然而,不可否认的是,DriveAgent-R1的推出为自动驾驶领域带来了新的思考方向和技术路径。它通过实验验证了主动获取视觉信息是VLM的有前景方向之一,并强调了强化学习在释放智能体潜力方面的重要性。随着强化学习在智能辅助驾驶行业中的广泛应用,L2和L4级别的自动驾驶正在加速迈向同一条河流,渐进式升维路线正在加速演化。

举报 0 收藏 0 打赏 0评论 0
 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  开放转载  |  滚动资讯  |  争议稿件处理  |  English Version