蚂蚁灵波科技在具身智能领域再推创新成果——具身世界模型LingBot-VA正式开源。该模型首次构建自回归视频-动作世界建模框架,通过将大规模视频生成能力与机器人控制技术深度整合,实现了"预测世界状态"与"生成动作序列"的同步输出。这一突破使机器人具备"推演即行动"的类人决策能力,在复杂任务执行中展现出显著优势。
真机实测数据显示,LingBot-VA在三大类六项高难度任务中表现卓越。面对制作早餐、拆解快递等长时序任务,插入试管、拾取螺丝等高精度操作,以及叠衣物、整理裤装等柔性物体操控场景,模型仅需30-50条演示数据即可完成适配。与行业标杆Pi0.5相比,其任务成功率平均提升20%,在复杂物理交互场景中展现出更强的环境适应能力。
在仿真环境测试中,该模型持续刷新行业纪录。双臂协同操作基准RoboTwin 2.0测试显示,LingBot-VA将任务成功率首次推高至90%以上;长时序终身学习基准LIBERO测试中,更取得98.5%的平均成功率。这些数据验证了模型在复杂动态环境中的稳定性和可靠性。
技术架构方面,LingBot-VA采用创新的Mixture-of-Transformers(MoT)设计,通过跨模态融合机制实现视频理解与动作控制的有机统一。其闭环推演系统可实时整合环境反馈,确保生成内容始终符合物理规律。针对机器人端侧部署的计算瓶颈,研发团队设计了异步推理管线,将动作预测与执行指令并行处理,配合记忆缓存机制和噪声增强策略,在保证控制精度的同时将响应延迟降低至行业领先水平。
此次开源是蚂蚁灵波技术生态建设的重要里程碑。继此前发布模拟环境LingBot-World、智能基座LingBot-VLA和空间感知模块LingBot-Depth后,LingBot-VA的加入完整构建了"世界模型赋能具身操作"的技术路径。所有核心代码、模型权重及训练框架已通过InclusionAI社区向全球开发者开放,为真实产业场景中的AGI应用提供基础设施支持。










