蚂蚁灵波科技近日宣布开源其最新研发的具身世界模型LingBot-VA,这一成果标志着具身智能领域在"世界模型赋能操作"方向上取得重要突破。该模型创新性地将大规模视频生成能力与机器人控制技术深度融合,通过自回归视频-动作世界建模框架,使机器人能够同步推演环境变化并生成对应动作序列,实现"边思考边行动"的类人决策模式。
技术架构方面,LingBot-VA采用Mixture-of-Transformers(MoT)设计,通过跨模态融合机制打通视频理解与动作控制的神经通路。其独创的闭环推演系统在每个决策周期都会整合真实环境反馈,确保生成的画面与动作始终符合物理规律。这种设计使模型在处理叠衣物、插入试管等精细操作时,成功率较行业基准模型Pi0.5提升达20%。
在双臂协同操作基准测试RoboTwin2.0中,LingBot-VA以超过90%的完成率刷新纪录,而在长时序任务基准LIBERO上更取得98.5%的平均成功率。这些数据验证了模型在制作早餐、拆解快递等复杂场景中的卓越适应能力,尤其值得注意的是,其仅需30-50条真机演示数据即可完成新任务适配,展现出极强的泛化性能。
针对机器人端侧部署的计算瓶颈,研发团队设计了异步推理管线,将动作预测与电机执行解耦并行处理。配合记忆缓存机制与噪声历史增强策略,模型在保持大模型理解深度的同时,将响应延迟控制在工业级应用标准内。这种优化使得机械臂在执行螺丝拾取等高速任务时,既能保证动作精度又具备实时交互能力。
此次开源是蚂蚁灵波技术生态建设的重要里程碑。继此前发布模拟环境LingBot-World、智能基座LingBot-VLA和空间感知模块LingBot-Depth后,LingBot-VA的加入完整了从环境建模到操作执行的闭环链条。所有核心组件均通过InclusionAI社区开源开放,为行业提供了覆盖感知、决策、执行全流程的具身智能开发套件。
目前,LingBot-VA的模型权重与推理代码已向全球开发者开放下载。这套总代码量超过50万行的系统,不仅包含预训练模型和微调工具,还配套了详细的硬件适配指南,支持从仿真环境到真实机械臂的无缝迁移,为具身智能技术的产业化落地铺平道路。











