ITBear旗下自媒体矩阵:

小米发布开源Xiaomi OneVL模型,实现多技术统一刷新自动驾驶性能上限

   时间:2026-05-14 05:07:38 来源:互联网编辑:快讯 IP:北京 发表评论无障碍通道
 

小米技术团队今日宣布,正式推出并开源全新语言视觉推理框架——Xiaomi OneVL。该框架创新性地将视觉语言动作(VLA)、世界模型与潜空间推理三大技术路径整合于一体,在保持高效推理能力的同时,显著提升了多模态任务的执行速度与精度,为自动驾驶领域的技术融合提供了突破性解决方案。

传统自动驾驶技术中,VLA与世界模型常被视为两条独立的发展路线:前者侧重实时场景理解与动作决策,后者专注于未来场景的动态预测。Xiaomi OneVL通过潜空间推理机制,首次将二者统一至同一架构中,实现了从感知到规划的全链路优化。据测试数据显示,该框架在精度指标上超越了显式思维链(CoT)方案,推理速度则与仅输出答案的潜空间CoT方法持平,在效率与准确性之间取得平衡。

在ROADWork、Impromptu、Alpamayo-R1三项国际权威基准测试中,Xiaomi OneVL均达到当前最优水平(SOTA),并在NAVSIM模拟环境中展现出卓越性能。这一成果标志着潜空间推理方法在复杂场景下的应用能力实现质的飞跃,为自动驾驶系统的规模化落地提供了技术支撑。

该框架的另一核心优势在于其可解释性设计。通过语言与视觉双模态输出,系统不仅能以文字形式解释决策依据,还能生成预测画面直观展示未来场景演变。例如,在面对复杂路况时,模型可同步输出"前方路口需减速避让行人"的文字说明,并生成行人轨迹预测的动态画面,为技术验证与安全监管提供双重保障。

技术实现层面,Xiaomi OneVL采用分层架构设计,底层通过潜空间编码器统一处理多模态输入,中层构建动态世界模型进行场景演化预测,上层则通过语言动作解码器生成可执行决策。这种模块化设计既保证了各组件的独立性,又通过端到端训练实现了全局优化,为后续技术迭代预留了扩展空间。

 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  争议稿件处理  |  English Version