蚂蚁灵波科技近日推出了一款名为LingBot-World的开源世界模型框架,为交互式环境模拟提供了全新解决方案。该模型通过构建高保真、可控且逻辑一致的虚拟空间,为机器人训练和具身智能研究开辟了"数字试验场",其核心性能指标已接近国际领先水平。
在技术架构上,LingBot-World创新性地采用可扩展数据引擎,通过分析海量游戏环境中的物理规律与因果关系,实现了生成世界与用户的实时互动。测试数据显示,该模型在视频质量、动态表现、长时稳定性等维度均达到行业顶尖水准,特别是在持续生成能力方面取得突破性进展——可实现近10分钟的连续稳定输出,有效解决了传统模型中常见的物体变形、场景崩坏等问题。
交互性能是该模型的另一大亮点。通过优化训练流程与并行计算技术,LingBot-World将端到端响应延迟压缩至1秒以内,支持每秒16帧的流畅画面生成。用户可通过键盘鼠标实时操控虚拟角色与摄像机视角,指令执行与画面反馈实现同步。更值得关注的是,模型允许通过文本指令触发环境变化,如调整天气系统、切换画面风格或生成特定事件,所有改动均能在保持场景几何结构稳定的前提下完成。
针对具身智能训练中的数据瓶颈问题,研发团队设计了混合采集策略:一方面从网络视频中提取多样化场景素材,另一方面利用游戏引擎与虚幻合成管线生成无干扰纯净画面。这种双轨制数据获取方式使模型具备强大的零样本泛化能力——仅需输入单张城市街景照片或游戏截图,即可自动生成可交互视频流,无需针对特定场景进行额外训练,显著降低了实际应用中的部署成本。
在复杂任务训练方面,LingBot-World展现出独特优势。其长时序一致性特征与因果推理能力,使模型能够在数字空间中模拟物理世界的运行规律,为智能体提供低成本、高保真的试错环境。通过调整光照条件、物体摆放位置等参数,系统还能生成多样化训练场景,有效提升算法在真实环境中的适应能力。这些特性恰好解决了具身智能规模化落地的核心挑战——真实世界中复杂长程任务训练数据的稀缺性问题。
随着LingBot-World的发布,蚂蚁在具身智能领域的布局愈发清晰。继此前推出两款"灵波"系列大模型后,此次技术突破标志着其通用人工智能战略从数字认知向物理感知层面的关键延伸。该模型构建的"基础模型-通用应用-实体交互"技术栈,正在为连接生成式AI与具身智能开辟新的路径。











