一场聚焦视频生成模型实用性的国际技术竞赛正在全球范围内掀起热潮。由高德地图视觉技术中心联合清华大学、流形空间及多所国际顶尖高校发起的CVPR 2026 WorldArena Challenge,首次将"物理真实性"作为核心评测标准,推动世界模型从"视觉逼真"向"功能可用"的关键转型。这场挑战赛依托新发布的WorldArena Benchmark评测体系,通过16项量化指标和3大真实应用任务,全面检验模型在机器人操作等具身任务中的实用价值。
传统视频生成模型虽能产出以假乱真的画面,但在机器人操作场景中常出现夹爪穿透物体、物品无故消失等物理违规现象。针对这一行业痛点,赛事组委会创新性设立双赛道评测机制:赛道一重点考察视频生成的物理合理性,从视觉质量、动作连贯性、3D空间准确性等六大维度进行综合评分;赛道二则首次将评测延伸至具身任务执行层面,要求模型具备数据合成、策略评估和行动规划三大核心能力。这种"从看到做"的评测范式,标志着世界模型评估体系的重大突破。
为降低参赛门槛,主办方高德地图完全开源了其领先的世界模型ABot-PhysWorld。该模型通过四维泛化数据训练体系,构建了覆盖50余种任务类型、1000多种物体类别的30万条高质量数据集,有效解决了模型场景适配性问题。其独创的DPO偏好对齐机制,利用视觉语言模型构造的1万条偏好数据对,使模型物理违规率降低67%。在Dense Action Map技术的支持下,模型可实现毫米级动作控制,在PAI-Bench基准测试中以0.8491的综合得分刷新行业纪录,同时保持极具竞争力的视觉质量。
赛事技术委员会特别强调,ABot-PhysWorld作为开源基线模型将不参与最终评奖,参赛团队可在此基础上进行任意创新。该模型已完整开放模型权重、训练代码及数据处理流程,其创新的"视觉-物理"双通道架构为行业提供了全新研究范式。值得注意的是,高德近期连续发布多款具身智能模型,结合ABot-World系列的持续布局,显示出其在物理世界建模领域的深厚积累。
本次挑战赛设置总计1.4万美元的奖金池,各赛道独立评选一、二、三等奖,优秀团队将获得CVPR Workshop专题报告机会。赛事采用动态排行榜机制,参赛者可通过官网实时提交结果,最终截止日期为2026年5月25日。参赛流程高度简化,开发者仅需准备初始帧和动作指令,即可生成符合要求的121帧视频作品。目前已有来自23个国家的140余支团队报名参赛,包括普林斯顿大学、新加坡国立大学等顶尖机构。
赛事官网同步开放了丰富的技术资源,包括详细的数据集说明、基线模型使用指南及评测工具包。为促进技术交流,组委会建立了微信和Discord双平台交流社区,并提供专项技术支持邮箱。这场聚焦物理世界建模的技术盛会,不仅为全球研究者提供了公平竞技的舞台,更可能催生出真正理解物理规律的下一代视频生成模型。










