蚂蚁灵波科技近日宣布,其自主研发的世界模型LingBot-World正式开源,并同步发布技术报告。这一专为交互式场景设计的开源框架,通过高保真模拟环境与实时交互能力,为具身智能领域提供了新的技术路径。其核心模块LingBot-World-Base能够生成逻辑连贯的虚拟场景,在视频质量、动态表现及长时序一致性等关键指标上达到行业领先水平,部分性能已接近谷歌Genie 3的水准。
针对视频生成领域长期存在的“长时漂移”难题,LingBot-World通过多阶段训练架构与并行化加速技术,实现了近10分钟的稳定输出。在极端测试中,即使镜头移开60秒后返回,场景中的车辆、建筑等物体仍能保持结构完整,动态环境下的物体形态一致性表现尤为突出。该模型支持16帧/秒的实时生成吞吐量,端到端交互延迟控制在1秒以内,用户可通过键盘、鼠标或文本指令即时操控虚拟角色与场景元素,例如调整天气、切换画面风格或触发特定事件,所有操作均能在维持场景几何关系稳定的前提下完成。
为解决交互数据稀缺问题,研发团队采用混合采集策略:一方面从海量网络视频中筛选多样化场景,另一方面通过游戏引擎与虚幻引擎(UE)合成管线,直接提取无界面干扰的纯净画面数据,并同步记录操作指令与相机参数。这种数据构建方式使模型具备强大的零样本泛化能力——仅需输入单张城市街景照片或游戏截图,即可生成对应的可交互视频流,无需针对特定场景重新训练,显著降低了部署成本。
在具身智能应用层面,LingBot-World通过数字世界模拟物理规律,为智能体提供了低成本、高保真的训练环境。其支持光照变化、物体位置调整等场景多样化生成功能,可有效提升算法在真实环境中的适应能力。例如,模型能模拟机器人穿越复杂城市街景的过程,通过动态调整场景参数训练其路径规划与障碍物规避能力。这种“想象物理世界”的能力,为解决真实场景中长程任务训练数据稀缺的问题提供了创新方案。
此次开源的LingBot-World框架包含完整代码库与预训练模型,开发者可通过Hugging Face、魔搭社区及GitHub获取资源。技术报告详细披露了模型架构设计与实验数据,为社区研究者提供了可复现的技术基准。随着该模型的广泛应用,世界模型有望成为连接生成式AI与实体交互的关键纽带,推动具身智能从封闭场景训练向开放环境适应的范式转变。







