生数科技与清华大学联合研发的统一世界模型Motus近日正式开源,这一成果在具身智能领域引发广泛关注。该模型以视频大模型为基础架构,在多项核心任务中展现出显著优势,较国际主流VLA模型Pi0.5成功率提升约40%,为具身智能的规模化扩展提供了可行路径。
研究团队指出,视频数据天然包含物理世界的时空结构、因果关系与动态变化,是连接感知与行动的关键多模态载体。Motus突破传统具身智能系统"感知-推理-行动"的模块化设计,通过统一框架整合了VLA、世界模型、视频生成模型等五类基础范式,构建了从感知到执行的端到端建模路径。这种一体化设计使其区别于侧重仿真渲染的同类模型,可直接应用于物理机器人执行。
针对具身智能领域长期存在的真机数据稀缺问题,Motus创新性地统一了跨本体机器人数据、仿真数据、人类操作视频等多元数据源的动作空间。通过大规模预训练,模型学习到通用运动先验知识,在跨任务和跨平台场景中展现出强大的泛化能力。实验数据显示,在50个任务的数据规模扩展测试中,Motus平均成功率较Pi0.5提升35.1个百分点,数据效率达到对比模型的13.55倍。
在任务复杂度测试中,Motus的优势更为突出。随着任务数量增加,其成功率持续上升,而对比模型出现明显下降,最终成功率差距达37个百分点。在RoboTwin 2.0仿真环境的50个任务评测中,模型取得约88%的平均成功率,部分高难度操作任务的成功率显著优于现有基线模型。真实机器人平台部署测试进一步验证了其跨本体迁移能力。
该成果的开源包含完整代码、研究论文和模型权重,已在GitHub、Hugging Face等平台公开。生数科技表示,Motus的发布旨在为具身智能领域提供统一的基础模型方案,推动行业从模块化系统向统一智能体架构演进。值得注意的是,这项研究早于行业同类成果约两个月完成论文发布与开源,其技术路线选择与实施效率均体现出领先性。
此前,合作团队已于2025年7月提出Vidar具身视频模型,围绕"视频模型作为统一表征底座"的技术方向展开探索。Motus的研发延续了这一技术脉络,通过整合视频生成、逆动力学建模等能力,形成了更完整的具身智能解决方案。这种技术演进路径为解决机器人学习中的数据瓶颈问题提供了新思路。












