自动驾驶仿真领域迎来重大突破——赵昊团队研发的DGGT框架,在性能上较现有最优方案(SOTA)提升达50%,为动态交通场景下的自动驾驶训练开辟了新路径。这一成果不仅解决了传统仿真技术的核心痛点,更通过端到端场景重建能力,重新定义了自动驾驶系统的“数据工厂”运作模式。
传统自动驾驶仿真技术长期受制于三大瓶颈:场景优化依赖人工逐个调试,如同为每个路口单独设计交通规则;相机标定需精确输入参数,稍有偏差便导致数据失真;短帧窗口限制难以捕捉车辆完整运动轨迹,导致时序信息断裂。DGGT框架通过技术创新,系统性破解了这些难题。其核心优势在于采用多头联合预测结构,无需提前标定相机参数,而是将位姿预测作为模型输出,同时支持任意长度图像序列的实时处理,实现了从“场景适配模型”到“模型适配场景”的根本性转变。
在Waymo开放数据集测试中,DGGT展现出显著优势:重建精度达到27.41PSNR,单帧推理时间仅需0.39秒(3视角20帧配置),较同类方案速度提升数倍且画面保真度更高。更令人瞩目的是其跨数据集泛化能力——在Waymo训练的模型直接应用于nuScenes和Argoverse2数据集时,关键指标LPIPS分别下降61.4%和52.4%,证明模型具备强大的环境适应力。这种“举一反三”的能力,源于其独特的4D场景同步重建技术:通过ViT编码器融合DINO先验知识,模型可同时输出相机位姿、深度信息、动态实例及场景表示,将图像直接映射为可编辑的4D空间。
技术突破带来的产业价值正在显现。DGGT框架将数据生成成本降低60%以上——传统方案需要高精度标定设备与固定路线采集,而新框架仅需普通摄像头即可完成场景重建。其0.4秒完成4D重建的速度,使数据生成周期缩短80%,特别在边缘案例构建方面表现突出:研究人员可直接在Gaussian层面插入横穿马路的行人或突然变道的车辆,快速生成极端场景数据。这种能力对提升自动驾驶安全性至关重要,据统计,覆盖90%以上边缘案例的系统,实车测试事故率可下降73%。
该成果的研发团队来自清华大学智能产业研究院,负责人赵昊教授长期深耕三维场景理解领域,其团队此前已在动态交通仿真方面取得多项突破。据悉,DGGT框架将于2025年12月12-13日在深圳举行的GAIR大会上亮相,赵昊教授将作为世界模型分论坛主席,分享该技术在构建虚拟测试环境中的应用进展。这场聚焦AI产业落地的盛会,或将见证自动驾驶仿真技术从实验室走向量产线的关键一步。










