小米技术团队近日宣布,正式推出名为Xiaomi OneVL的一步式潜空间语言视觉推理框架,并同步开源该模型的权重、训练及推理代码。这一举措旨在吸引全球开发者与研究人员共同参与,推动自动驾驶领域大模型技术的创新发展。
作为小米今年3月发布XLA认知大模型架构后的又一技术突破,Xiaomi OneVL通过潜空间推理技术,首次将视觉语言动作(VLA)、世界模型与潜空间推理三大核心方向整合至统一框架中。该设计显著提升了模型在复杂场景下的推理效率,为自动驾驶系统的决策能力提供了新的技术路径。
据小米董事长雷军介绍,Xiaomi OneVL在推理、规划等关键基准测试中,已全面超越现有潜在推理方法的性能表现。其开源策略不仅降低了技术门槛,更通过开放协作模式加速了行业生态建设。开发者可基于公开代码进行二次开发,探索自动驾驶大模型在多模态感知、动态环境建模等领域的潜在应用。





