蚂蚁集团旗下灵波科技近日宣布开源一款名为LingBot-World的世界模型,标志着其在具身智能领域的技术布局再进一步。这款模型在视频生成质量、动态交互能力及长时序一致性方面达到行业领先水平,被业界视为可与谷歌Genie 3媲美的开源解决方案。
针对视频生成领域长期存在的"长时漂移"难题,LingBot-World通过创新的多阶段训练架构实现突破。该模型支持近10分钟的连续稳定生成,在压力测试中即使镜头移开60秒后返回,场景中的目标物体仍能保持结构完整。这一特性为机器人训练、自动驾驶仿真等需要长序列操作的任务提供了可靠的数据支撑。
在交互性能方面,模型展现出显著优势。其端到端响应延迟控制在1秒以内,支持约16帧/秒的实时生成吞吐量。用户可通过键盘鼠标即时操控角色移动与相机视角,画面反馈流畅自然。更值得关注的是,系统允许通过文本指令触发环境变化,如调整天气、切换画面风格或生成特定事件,同时维持场景几何关系的相对稳定。
该模型的核心突破在于零样本泛化能力。开发者仅需提供单张城市街景照片或游戏截图,即可直接生成可交互的视频流,无需针对特定场景进行额外训练。这种特性极大降低了数据采集成本,为具身智能的规模化应用开辟了新路径。
为解决高质量交互数据稀缺问题,研发团队采用混合采集策略:一方面从海量网络视频中筛选多样化场景,另一方面结合游戏引擎合成技术,直接从渲染层提取无UI干扰的画面数据。这种双轨制数据采集方式,配合精确对齐的操作指令记录,使模型能够准确理解"动作如何改变环境"的因果关系。
在具身智能落地过程中,真实世界的长程任务训练数据获取始终是瓶颈。LingBot-World通过数字世界模拟物理环境,为智能体提供了低成本、高保真的试错空间。其支持的场景多样化生成功能,包括光照变化、物体位置调整等,可有效提升算法在真实场景中的适应能力。
目前,该模型的权重参数与推理代码已全面开放下载。开发者社区可自由获取这套工具,用于机器人训练、游戏开发、自动驾驶仿真等多个领域。这项开源举措预计将加速具身智能技术的普及,推动行业进入新的发展阶段。









