滚动资讯

当前位置：首页 > 资讯 > 人工智能 > 正文内容

复旦、上交大等高校联合研发A2World，为机器人装上“预演未来”的智慧大脑

时间：2026-07-04 06:06:00 来源：互联网编辑：快讯 IP：北京 发表评论无障碍通道

机器人能否像人类一样，在动手前先在脑海中预演动作的后果？复旦大学联合上海交通大学、麦吉尔大学等机构的研究团队给出了肯定答案。他们提出的A2World框架，通过构建动作条件化的世界模型，让机器人真正理解物理规律与动作之间的因果关系。这项研究已发布在预印本平台arXiv，编号为arXiv:2606.29501，为机器人通用智能的发展开辟了新路径。

传统机器人控制方法主要分为两类：一类是直接从视觉输入生成动作指令，如同厨师看到食材即刻操作；另一类是先模拟世界变化再决策，类似棋手推演棋局。前者响应快但缺乏物理理解，换个场景就失效；后者虽更通用，却常因数据单一或训练目标狭窄而难以迁移。研究团队指出，现有方法要么依赖通用视频模型而忽视真实动作数据，要么局限于特定机器人或任务，无法形成可复用的物理知识库。

A2World的核心突破在于将动作视为理解物理世界的天然监督信号。无论机器人形态如何、任务场景怎样变化，“向前推物体”背后的物理规律始终一致。通过在210万条真实机器人操作轨迹上训练，模型逐渐内化了这些规律，形成了可迁移的“动作-世界”知识。这些数据覆盖20多种机器人形态，包括单臂、双臂、轮式和双足平台，任务从简单抓取到精密插接、柔性物体操作等应有尽有，摄像头视角也包含固定和第一人称等多种类型。

为统一处理多样数据，研究团队将所有机器人动作编码为“双臂格式”，单臂机器人缺失的手臂用零补位。训练时采用“数据集一致性批次”策略，确保每个批次的数据来自同一数据集，避免视角混乱。这种设计让模型能在统一语言体系下理解所有机器人行为，为后续训练奠定了基础。

A2World的基础架构基于扩散变换器（DiT），并做了三项关键改进。一是动作条件化注入，将动作序列编码为特征向量并叠加到时间步嵌入上，使模型每层都能感知当前动作；二是多视角联合生成，将不同摄像头画面在时间维度拼接，通过跨视角注意力模块确保物理一致性；三是摒弃伪动作标签，直接使用真实标注数据训练，避免了误差叠加。这些设计让模型能准确预测动作引发的视觉变化。

预训练后的A2World可衍生出两个下游版本：A2World-sim和A2World-policy。A2World-sim作为虚拟试验台，通过滚动预测实现长时间模拟。它采用“基于姿态引导的历史采样”方法，根据机器人运动路径弧长均匀选取历史帧，既保留关键信息又控制计算量。训练时引入的“自我强迫”技术，让模型能处理自身生成的略有瑕疵的帧，保持长时间预测的稳定性。

A2World-policy则直接用于控制机器人完成任务。其架构为“Y字形”联合预测结构，视觉分支和动作分支共享自注意力机制，彼此交流信息。训练时，两个分支的噪声扰动独立施加但按固定比例缩放，确保学习侧重不同又保持同步。推理时，系统根据初始图像和语言指令，同时生成未来视频和动作序列，用户可调整引导强度平衡视觉逼真度和动作准确性。

实验验证了A2World的强大能力。在基础生成能力测试中，模型能根据不同动作序列生成合理场景，包括从未见过的脚本化指令和完全新数据集上的任务。A2World-sim在滚动预测质量评测中全面超越基线方法，尤其在动作保真度指标上表现突出。真实机器人测试显示，其虚拟成功率与真实成功率高度相关，可作为可靠的策略筛选工具。A2World-policy在LIBERO基准测试中平均成功率达98.6%，在分布外迁移任务和真实机器人操作任务中也表现优异，尤其在复杂长任务上优势明显。

消融实验进一步证明了设计选择的有效性。姿态引导历史采样在多项指标上优于简单堆砌最近帧；动作条件预训练在迁移任务中表现优于文本条件预训练；视频生成与动作生成的联合训练显著提升了策略性能。这些结果支持了研究团队的核心主张：用真实动作监督世界理解，比文字描述或间接猜测更有效。

尽管A2World在桌面操作任务上取得了显著进展，但其预训练数据仍局限于此类场景。对于更复杂的全身运动、室外环境或人机协作任务，迁移效果有待验证。视频生成的计算开销也限制了实时闭环控制的应用。研究团队已在GitHub开放项目主页（LogosRoboticsGroup/A2World），并提供了完整技术细节，供感兴趣者进一步探索。

更多>同类资讯

港科大等高校联合研究：AI视频理解“时序推理”短板暴露无遗

07-04

AI生成图像视频：真懂物理规律，还是仅会“照猫画虎”？

07-04

AI大模型"记忆压缩"新突破：无需预设阈值，动态适配各类任务需求

07-04

浙大、西湖大学联手突破：AI探索世界新方案 "隐式漫步"解锁场景记忆新方式

07-04

上海AI实验室350亿参数模型：另辟蹊径，挑战万亿参数大模型霸主地位

07-04

生数科技发布Vidu S1，实时交互视频生成模型开启数字人新篇章

07-04

戛纳舞台上的中国力量：可灵AI助力两部作品，开启商业创意新篇章

07-04

生数科技Vidu S1问世：以实时交互能力，开启视频生成全新篇章

07-04

AniShort上线三月营收破300万，八点八数字耿广星：工作流赋能AI短剧工业化突围

07-04

聚焦2026产融交流会：机器人商业化突破口在哪？产学研共探新路径

07-04

从雨果预言到AI时代：技术变革下人文精神如何应对新挑战？

07-04

紫光同创首发国产自主产权亿门级FPGA及加速卡填补国内高端芯片空白

IT之家 7 月 3 日消息，新紫光集团旗下紫光同创在 2026 慕尼黑上海电子展上发布 Titan-3 系列亿门级高端FPGA，是国内第一款自主产权亿门级高端 FPGA 产品。 IT之家注：FPGA（现场…

07-04

优必选U1系列机器人订单破万，外观引热议：高度仿生下的期待与争议

与通用人形机器人不同，这些公司更注重为机器人打造接近人类的面孔、皮肤、声音与体温，并训练其情绪交互能力，将其定义为“伙伴”甚至一种“新型关系”。这恰恰揭示了仿生机器人的复杂性：人明知它是一台机器，但面对高度…

07-04

桂海潮：从边陲学子到太空逐梦者，用科研与科普点亮航天新未来

回到地面后，他回到讲台和实验室，组建“太空智能操作技术创新中心”，带领50余名师生开展空间机器人和太空交通研究。他指导6名本科生提出多星协同清除“太空垃圾”方案，获得中国国际大学生创新大赛银奖——这6名学生…

07-04

谐波减速器产业链全解析：A股11家核心企业盈利能力大比拼（附名单）

07-04

点击查看更多 +

全站最新

浙江男子苦等10个月“熔岩橙”小米YU7 MAX未交付，配色已下架，门店方案遭拒

上汽名爵总经理直播回应抄袭质疑反遭弹幕围攻哽咽离场引热议

新款福特探险者7月6日上市！2.3T配10AT，车长超5米，配置再升级！

2027款福特探险者：标配10AT与四驱，长白山试驾展现美式旗舰实力

吉利银河战舰700内饰官图曝光：AI硬核SUV配悬浮屏与物理按键

领克20三季度上市在即标配800V高压平台与6C补能倍率成亮点

热门内容

本栏最新

iCAR V27大版本OTA升级：HSD V2.0赋能，智驾座舱全面进化

零跑B10新动作来袭！官宣新车色，配置亮点与价格信息一览

一汽丰田2027款格瑞维亚上市携手复星旅文打造家庭出行新体验

优必选“机器人伴侣”引热议：高售价订单火爆，是噱头还是新趋势？

2027款丰田格瑞维亚上市，配置升级二排体验提升，焕新权益价23.68万起

本网站LOGO小熊标志受版权保护，版权登记号：鲁作登字-2015-F-025467，未经ITBEAR比尔科技官方许可，严禁使用。
声明：本网站是公益性科普网站，为网友提供科技类资讯内容，无障碍技术由太阳湾捐增，为阅读障碍用户提供内容听读服务。如本站内容侵犯了您的权利，请通知我们及时删除。
中国（山东）自由贸易试验区鲁ICP备11015305号-1 联系入口
Copyright © 比尔科技 2007-2024 ITBEAR.COM.CN All rights reserved.