蚂蚁灵波科技今日宣布,其自主研发的具身世界模型LingBot-VA正式开源,为机器人领域带来突破性进展。该模型首次将自回归视频-动作世界建模框架应用于具身智能,通过深度融合大规模视频生成与机器人控制技术,实现了“边推演、边行动”的类人决策能力。在真机测试中,LingBot-VA仅需30至50条演示数据,即可完成制作早餐、叠衣物、拆快递等六大类高难度任务的适配,任务成功率较行业标杆模型Pi0.5平均提升20%。
技术架构方面,LingBot-VA采用创新的Mixture-of-Transformers(MoT)设计,通过跨模态融合机制统一处理视频信息与动作指令。其闭环推演系统能够实时整合环境反馈,确保生成的画面与动作始终符合物理规律。针对机器人端侧部署的计算瓶颈,研发团队设计了异步推理管线,将动作预测与电机执行并行处理,同时引入记忆缓存与噪声增强策略,在减少生成步骤的同时提升指令精度,使模型兼具大模型的认知能力与实时的控制响应速度。
在仿真环境测试中,LingBot-VA展现出显著优势:在双臂协同操作基准RoboTwin2.0上,模型以超过90%的成功率刷新行业纪录;在长时序终身学习基准LIBERO测试中,更取得98.5%的平均成功率。这些数据表明,该模型在复杂动态环境中的适应能力已达到行业领先水平。蚂蚁灵波透露,此次开源包含完整的模型权重与推理代码,开发者可基于现有框架进行二次开发。
作为蚂蚁集团InclusionAI社区的重要成果,LingBot-VA与近期开源的LingBot-World模拟环境、LingBot-VLA智能基座及LingBot-Depth空间感知模型形成技术闭环。这种“世界模型+具身操作”的研发路径,为机器人从实验室走向真实产业场景提供了完整解决方案。通过开源社区的协作机制,蚂蚁集团旨在推动具身智能技术在工业制造、物流仓储、家庭服务等领域的应用落地,加速构建开放共享的AGI技术生态。










