ITBear旗下自媒体矩阵:

英伟达联合清华等高校突破多智能体建模难题 Gamma-World让“多人世界”仿真更高效真实

   时间:2026-05-30 18:01:25 来源:互联网编辑:快讯 IP:北京 发表评论无障碍通道
 

在人工智能领域,多智能体场景下的世界建模长期面临技术瓶颈。传统视频世界模型主要针对单智能体设计,通过输入动作序列预测单一视角的未来画面。然而当场景扩展至多个智能体共享同一演化环境时,模型需要同步处理多个耦合视角的投影,这要求系统在架构层面实现根本性突破。

现有技术方案存在两大核心缺陷:身份编码机制破坏了智能体间的对称性,全连接注意力机制导致计算复杂度随智能体数量呈平方级增长。这些架构缺陷无法通过增加数据规模或模型参数来弥补,成为制约多智能体世界模型发展的关键因素。

由跨国研究团队提出的Gamma-World模型,通过重构底层组件解决了上述难题。该模型在旋转位置编码(RoPE)框架中引入第四维度——玩家轴,采用正单纯形几何结构实现智能体身份编码。这种设计将所有玩家均匀分布在正多边形的顶点上,确保任意两个智能体在表示空间中的几何关系完全等价,从根本上保障了模型的置换对称性。

在跨智能体通信机制方面,研究团队创新性地提出稀疏枢纽注意力结构。通过引入可学习的枢纽令牌(hub token),构建起"智能体-枢纽-智能体"的两级信息传递路径。这种轮辐式拓扑结构将计算复杂度从O(n²)降至O(n),使模型在处理8人场景时的计算量较全连接方案减少约16倍。实验表明,该设计不仅显著降低算力消耗,更通过显式编码世界状态瓶颈,提升了模型对共享环境变化的建模能力。

为平衡生成质量与推理效率,模型采用三阶段训练策略:首先训练具备完整序列访问权限的双向教师模型,随后训练仅能观察历史帧的因果学生模型,最终通过条件自强迫蒸馏将多步采样压缩为4步。这种渐进式训练方法使模型在保持24帧/秒实时推理速度的同时,将视频生成质量评估指标FVD平均降低40%以上。

在多人Minecraft环境测试中,模型展现出卓越的泛化能力。仅使用双人数据训练的模型,可直接生成四路同步视角画面,且各视角间保持严格的空间一致性。当智能体移出彼此视野时,模型仍能准确追踪共享世界状态,证明其并非简单拼接独立视频流,而是真正理解了环境演化规律。

该框架的通用性在真实机器人场景中得到验证。研究团队将模型应用于双臂机器人协同任务,生成的未来帧精准保持了机械臂的空间布局与运动协同性。这种从虚拟方块世界到真实物理系统的无缝迁移,展示了多智能体世界模型作为新一代数据生产基础设施的潜力。

论文指出,现有模型在处理超过8个智能体时仍面临挑战,未来工作将聚焦于动态枢纽令牌分配机制与分层注意力结构。研究团队已开放模型代码与训练数据集,为工业界探索多智能体系统仿真提供重要参考。

 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  争议稿件处理  |  English Version