ITBear旗下自媒体矩阵:

蚂蚁灵波连发四大成果,世界模型赋能具身智能路线渐明晰

   时间:2026-01-31 12:04:30 来源:互联网编辑:快讯 IP:北京 发表评论无障碍通道
 

临近春节,科技领域迎来一波技术成果集中发布潮。蚂蚁旗下灵波科技近日连续推出多项具身智能领域的新成果,引发行业广泛关注。从高精度空间感知到具身大模型,再到两款定位不同的世界模型,灵波科技的技术布局展现出独特的战略思路。

1月27日,灵波科技率先开源高精度空间感知模型LingBot-Depth,为机器人提供更精准的物理世界感知能力。次日,具身大模型LingBot-VLA的发布进一步夯实了技术基础。当行业认为这已是技术宣发的重点时,灵波科技又接连推出两款世界模型,形成完整的技术矩阵。

新发布的LingBot-World被定位为开源版Genie3,致力于构建高保真、可控制且逻辑一致的模拟环境。该模型通过整合真实世界视频、游戏视频和合成渲染数据,建立分层数据引擎,解决高质量交互数据稀缺的难题。采用混合专家(MoE)架构和实时推理系统,模型在保持高保真纹理生成能力的同时,将延迟控制在1秒以内,计算成本显著降低。技术报告显示,LingBot-World在视频质量、动态程度和长时序一致性等关键指标上达到行业领先水平。

另一款世界模型LingBot-VA则聚焦视频与动作的对应关系,采用自回归框架实现"视频-动作"的闭环交互。通过混合Transformer(MoT)架构,模型将高维视频信号与低维动作信号映射到统一潜空间,实现精确的动作预测与执行。针对机器人控制中的长时漂移问题,该模型在复杂任务中取得超过98%的成功率,在LIBERO和RoboTwin等基准测试中分别以98.5%和92%+的成绩领先现有方案。

技术实现层面,LingBot-VA通过多项创新优化系统效率。针对视频与动作的稀疏性差异,模型采用动态稀疏处理策略;通过独立的Transformer模块实现模态对齐,并引入噪声增强机制提升训练效果。异步推理流水线的设计使动作预测与电机执行并行处理,确保模型在真实机器人上的实时响应能力。实测数据显示,该模型仅需30-50条演示数据即可完成新场景适配,显著降低数据依赖。

这两款世界模型与前期发布的LingBot-Depth和LingBot-VLA形成技术协同。Depth模型提供基础空间感知能力,VLA模型实现精准物理操作,World模型构建虚拟训练场,VA模型则探索交互新范式。四款产品共同构成从感知到决策、从仿真到实操的完整技术链条,为具身智能发展提供多维度支持。

开源战略是灵波科技技术布局的重要特征。LingBot-World和LingBot-VA均采用开源模式,降低具身开发者技术门槛的同时,为二次开发提供基础框架。这种开放策略与行业需求深度契合,既解决实际开发中的数据获取和计算成本问题,又通过生态共建推动技术迭代。技术报告披露的多个应用场景显示,开源模型已具备事件生成、三维建模和智能体训练等多样化潜力。

在技术路线选择上,灵波科技展现出平衡理想与现实的独特思路。不同于单纯追求智能上限或完全仿真物理世界的极端路径,其技术方案更注重解决行业实际痛点。通过模块化架构设计和多源数据融合,模型在保持技术先进性的同时,兼顾计算效率和工程可行性。这种务实的技术审美,为具身智能从实验室走向实际应用提供了可验证的路径。

 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  争议稿件处理  |  English Version