ITBear旗下自媒体矩阵:

理想汽车发布MindVLA-o1:3D ViT突破,自动驾驶迈向物理AI新起点

   时间:2026-03-19 13:51:35 来源:互联网编辑:快讯 IP:北京 发表评论无障碍通道
 

在NVIDIA GTC 2026大会上,理想汽车基座模型负责人詹锟正式发布了下一代自动驾驶基础模型MindVLA-o1。这款模型的核心突破在于实现了原生3D视觉编码器(3D ViT),标志着自动驾驶技术向物理世界理解迈出关键一步。理想汽车CEO李想随后通过长文详细阐释了技术逻辑,指出自动驾驶的瓶颈并非数据或算力不足,而是缺乏对三维空间的本质认知。

传统自动驾驶系统依赖BEV(鸟瞰图)或OCC(占用网络)技术,前者将三维世界压缩为二维平面导致高度信息丢失,后者虽保留空间维度却缺乏语义理解。理想汽车研发的3D ViT技术突破了这一局限,通过多视角高分辨率视觉输入,在编码阶段直接完成对空间几何结构与语义信息的统一解析。这种设计使模型能够同时感知物体的位置、形态及功能属性,例如准确识别交通标志牌的立体轮廓及其指示内容。

技术团队从人类认知发展规律中获取灵感:儿童在6岁前通过基础动作训练建立的三维空间感知能力,正是自动驾驶系统所缺失的"预训练"阶段。现有端到端系统相当于让AI直接观看十万小时行车记录仪后上路,而3D ViT则通过构建真实三维认知框架,使模型具备类似人类的场景理解能力。实验数据显示,该技术可将空间感知范围稳定扩展至500米以上,较传统方案提升3倍以上。

硬件层面的突破为技术落地提供支撑。理想自研的马赫芯片单颗算力达前代3倍,有效解决了3D视觉处理对车端算力的严苛要求。这种软硬协同设计使激光雷达的角色发生转变:从感知核心降级为辅助标定工具,其提供的高精度几何数据仅用于修正视觉模型的局部误差。系统整体性能不再受制于传感器物理参数,而是取决于模型对三维世界的表征能力。

MindVLA-o1的创新不止于自动驾驶领域。通过将空间理解、决策推理与执行控制统一在单一模型架构中,该系统展现出多模态思考能力——既能预测未来3-5秒的场景演变,又能根据推理结果生成最优驾驶策略。这种通用物理智能架构已初步验证可迁移至机器人控制场景,为理想汽车构建智能生态体系奠定基础。技术团队强调,自动驾驶只是物理AI的起点,未来该技术将推动更多实体设备获得环境交互能力。

 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  争议稿件处理  |  English Version