AIPress.com.cn报道
2月6日消息,生数科技联合清华大学正式开源统一世界模型 Motus。该模型基于视频大模型构建,在多项核心具身智能任务中,相较国际主流 VLA 模型 Pi0.5,实现了约 40% 的成功率提升。研究团队表示,这一结果验证了具身基础模型在统一架构下进行规模化扩展(Scale Up)的可行路径。
据介绍,Motus 于 2025 年 12 月完成论文发布并同步实现完整开源,时间上早于行业内相关成果约两个月。此前,生数科技与清华大学已于 2025 年 7 月提出 Vidar 具身视频模型,围绕“以视频模型作为具身智能统一表征底座”的技术方向展开探索。
研究团队认为,视频天然承载真实世界中的物理时空结构、因果关系与动态变化,是连接感知与行动的重要多模态表征形式。基于这一判断,Motus 试图突破传统具身智能系统中“感知—推理—行动”模块割裂的问题,构建统一的通用世界模型框架。
在模型设计上,Motus 首次在同一框架中统一了 VLA、世界模型、视频生成模型、逆动力学模型以及视频–动作联合生成模型等五类具身基础范式,形成贯通感知、推理与执行的端到端建模路径。与部分侧重仿真渲染的世界模型路线不同,Motus 被定位为可直接用于物理执行的一体化模型。
在数据层面,Motus 针对具身智能长期面临的真机数据稀缺问题,统一了跨本体机器人数据、任务无关数据、仿真数据、人类操作视频以及互联网视频的动作空间,并通过大规模预训练学习通用运动先验,以提升模型的跨任务与跨平台泛化能力。
在评测结果方面,Motus 在多个维度展现出明显优势。在数据规模扩展实验中,Motus 在 50 个任务上的平均成功率相比 Pi0.5 提升 35.1 个百分点,并在相同性能水平下实现 约 13.55 倍的数据效率。在任务数量扩展实验中,随着任务复杂度提升,Motus 的整体成功率保持上升趋势,而对比模型出现明显下降,最终成功率差距约为 37 个百分点。
在 RoboTwin 2.0 仿真环境中,Motus 在覆盖 50 个任务的评测中取得约 88% 的平均成功率。在部分高难度操作任务中,其成功率显著高于现有基线模型。研究团队还在多种真实机器人平台上完成部署测试,结果显示 Motus 在跨任务与跨本体场景中具备较强迁移能力。
生数科技表示,Motus 的开源旨在为具身智能领域提供统一、可扩展的基础模型方案,推动具身智能从模块化系统向统一智能体架构演进。该模型的代码、论文与权重已在 GitHub、Hugging Face 等平台公开。











