蚂蚁灵波科技近日正式开源发布世界模型LingBot-World,该模型在视频生成质量、动态表现、长时稳定性及交互能力等核心指标上达到国际领先水平,可与Google Genie 3相媲美。作为专为具身智能、自动驾驶及游戏开发设计的底层框架,其核心目标是为复杂场景训练提供高保真、可实时操控的"数字演练场",支持从物理仿真到策略验证的全流程应用。
针对长视频生成中普遍存在的"长时漂移"难题,研发团队通过创新的多阶段训练架构与并行化加速技术,成功实现近10分钟的连续稳定输出。这一突破有效解决了物体变形、场景崩坏等传统问题,为机器人路径规划、自动驾驶决策等需要长序列训练的任务提供了可靠支撑。实验数据显示,模型在持续生成过程中可保持场景几何关系与物体运动逻辑的高度一致性。
在交互性能方面,LingBot-World展现出显著优势。其支持每秒16帧的实时生成速率,端到端交互延迟控制在1秒以内,用户可通过键盘鼠标即时操控角色移动与相机视角,画面响应与指令输入同步率达98%以上。更突破性的是,模型允许通过自然语言指令触发环境变化,如调整天气系统、切换画面风格或生成特定事件,同时自动维持场景的空间连贯性。
该模型另一重大创新在于其Zero-shot泛化能力。研发团队构建了跨模态映射机制,使模型能够直接解析真实照片或游戏截图,无需针对特定场景进行数据采集或微调训练即可生成可交互视频流。这项技术大幅降低了模型在不同领域的部署成本,经测试,在城市街景、工业厂房等20类场景中均实现开箱即用。
为破解高质量交互数据短缺的行业困境,研究团队设计了混合数据采集策略。一方面从海量网络视频中筛选多样化场景素材,另一方面结合游戏引擎与虚幻合成管线,直接从渲染层提取无UI干扰的纯净画面数据。通过同步记录操作指令与相机位姿信息,构建出包含百万级精准对齐样本的训练集,为模型理解"动作-环境"因果关系提供了关键支撑。
目前,LingBot-World已完整开源模型权重与推理代码,开发社区可自由获取用于非商业研究。这项技术突破不仅为AI训练提供了新型基础设施,其低延迟、高保真的特性更在机器人仿真、数字孪生等领域展现出广阔应用前景,或将推动相关产业进入实时交互新时代。











