ITBear旗下自媒体矩阵:

蚂蚁灵波再发力!LingBot-VA让机器人“脑补”未来,通用机器人迎新突破

   时间:2026-01-31 03:39:06 来源:快讯编辑:快讯 IP:北京 发表评论无障碍通道
 

机器人领域迎来重大突破——蚂蚁灵波团队近日开源了全球首个面向通用机器人控制的因果视频-动作世界模型LingBot-VA,这项技术让机器人首次具备"脑补未来"的能力。传统机器人依赖"观察-反应"模式,如同条件反射般执行动作,而LingBot-VA通过自回归视频预测技术,在执行动作前会先在脑海中推演未来数秒的画面,这种"想象力决策"机制为机器人控制开辟了全新路径。

该模型的核心创新在于解耦了传统VLA(视觉-语言-动作)架构中的表征缠绕问题。研究团队采用"先想象世界,再反推动作"的两步策略:首先通过视频世界模型预测未来视觉状态,再利用逆向动力学模型推导所需动作。这种设计使机器人能够完成三类高难度任务:在长时序任务中(如准备早餐),机器人可精准记忆操作步骤;高精度任务中(如擦拭试管),动作精度达到毫米级;面对可变形物体(如折叠衣物),能通过视频推演预判物体形变。真机测试显示,机器人完成拧螺丝任务时,动作流畅度与人类操作几乎无异。

技术实现层面,团队在三个维度取得突破。架构设计上,视频Token与动作Token构成自回归交错序列,配合因果注意力机制确保模型只能使用历史信息。通过KV-cache技术赋予模型长期记忆能力,使其能清晰追溯三步前的操作状态。在模型分工方面,Mixture-of-Transformers架构将视觉推演与动作控制分离:视频流负责复杂视觉分析,动作流专注精准运动控制,两者通过共享注意力机制实现信息互通。工程优化环节,部分去噪技术允许模型从含噪中间状态提取关键信息,异步推理机制使动作计算与执行并行进行,FDM接地技术则通过真实数据持续校正模型想象,防止出现脱离现实的幻觉。

在RoboTwin 2.0双臂协作基准测试中,LingBot-VA展现出显著优势:简单场景成功率达92.93%,复杂场景成功率91.55%,分别超出第二名4.2%和4.6%。随着任务难度增加,其领先幅度扩大至9%以上。在LIBERO基准测试中,该模型更以98.5%的平均成功率刷新纪录。实验数据显示,LingBot-VA具有三大核心能力:长期记忆能力使其在计数任务中精准记录操作次数;少样本适应能力仅需50条演示数据即可掌握新任务;泛化能力允许模型识别并操作不同颜色、形状或摆放位置的同类物体。

此次开源是蚂蚁灵波四天技术发布计划的收官之作。此前三天,团队已陆续开源LingBot-Depth(增强视觉感知)、LingBot-VLA(打通语言视觉动作接口)、LingBot-World(构建可预测世界模型)三个项目。四者构成完整技术链条:从清晰感知到理解世界,从构建想象到指导行动,推动通用机器人进入视频推理时代。这种技术范式已引发行业连锁反应,谷歌Project Genie项目、宇树科技UnifoLM-VLA-0等相继开源,海外媒体评价称:"蚂蚁集团通过完整开源工具包,在全球机器人领域主导权争夺中迈出战略性一步。"

 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  争议稿件处理  |  English Version