在人工智能领域,让AI系统像人类一样在虚拟或现实场景中自由探索并保持场景一致性,一直是极具挑战性的难题。当人们操控第一人称视角的电子游戏角色在房间内自由走动、转身再返回时,期望眼前场景始终如一,但现有AI系统却难以做到。多数AI在“向前行进”时表现尚可,可一旦“折返查看之前经过之处”,画面便会出现偏差、模糊甚至面目全非的情况。
浙江大学、西湖大学与阿法睿智能驾驶联合开展的研究,为解决这一难题带来了新思路。研究团队将现有AI世界探索系统的问题根源归结为:把“场景模样”和“自身位置”这两件事混为一谈处理,如同厨师边做菜边记菜谱,越做越乱。于是,他们提出全新框架“在隐式中漫步”,并落地为名为NeuWorld的完整系统,重新组织AI的世界探索方式。
现有主流做法是让AI逐帧“绘制”所见画面,并将每帧存入记忆列表,判断后续画面时翻阅列表继续绘制。然而,随着探索帧数增多,列表变长,且每帧携带大量细节信息,这些信息堆积使AI“工作台”拥挤不堪。更重要的是,帧与帧按时间顺序关联,而非空间几何关系,导致AI转身往回走时,无法识别不同帧对应的同一地点。
有人尝试引入三维重建技术,如NeRF或三维高斯泼溅,精确重建场景为三维模型后从任意视角渲染。此方法虽能更好处理“走回头路”的一致性问题,但计算负担极重,每走一步都要重建场景,如同每次出门前都要重新测绘整个城市,不切实际。
研究团队认为,真正需要的是介于两者之间的方法:比一帧帧视频更紧凑、更具几何意识,又比完整三维重建更轻便、更适合生成式模型学习演化。他们提出的神经隐式场景(NIS)便是这一“中间地带”。NIS如同一个紧凑的“场景胶囊”,给定当前位置周围几张带相机位置信息的照片,NIS编码器将这些信息压缩成一组固定数量(NeuWorld中固定为1024个)的记忆令牌,每个令牌携带64维信息。无论场景多复杂,胶囊大小不变,且存储的是场景几何结构和外观的综合表达,可在任意给定相机角度下被“解码”渲染成对应画面。
NeuWorld将每一步交互拆分为两个独立阶段。第一步,用扩散变换器(NIS-DiT)根据当前观测、未来相机轨迹和历史记忆,生成下一个局部区域的NIS胶囊;第二步,用冻结的解码器(NIS-VAE的解码部分)从胶囊里渲染出未来各个视角的画面。第一步是随机的、生成性的,处理“区域场景模样”的开放性问题;第二步是确定性的、几何的,处理“从确定场景状态在特定角度看到的画面”的封闭性问题。两步分离,各司其职。
NeuWorld由两个主要神经网络模块构成。第一个模块是NIS-VAE,其任务是学会将一组带位置信息的照片压缩成NIS胶囊,以及从胶囊中渲染出任意视角画面。给定若干张“情境视图”,编码器将每张照片和对应的相机射线信息拼接、切块后,经Transformer处理,由可学习的“查询令牌”汇聚成NIS胶囊。解码器则根据胶囊和目标相机角度渲染画面。NIS-VAE的训练采用图像重建、感知损失、对抗损失(GAN)和KL正则化四种损失函数组合。第二个模块是NIS-DiT,其任务是给定当前观测和未来相机轨迹,预测局部区域NIS胶囊。这是一个生成式建模问题,采用流匹配目标函数,基于U形Transformer骨架,整体架构无空间或时间位置编码,自注意力直接在令牌集合上操作。
NeuWorld还有一个精妙设计,即让相机、图像和历史信息使用同一种“语言”。通常,AI系统处理这三类输入时,会为每种输入设计专门编码器。而NeuWorld复用NIS编码器作为统一接口,当只有相机轨迹信息时,将图像部分设为零,只保留相机位置,送进NIS编码器得到“仅含相机结构”的部分NIS令牌;有参考图像时,将参考图像放在对应位置,其余图像设为零,得到相应令牌;编码历史帧时,将历史帧和对应相机位置送进同一NIS编码器,得到记忆NIS令牌。这三种条件输入最终都变成NIS令牌,通过不同拼接方式送给NIS-DiT。研究团队通过消融实验验证了这一统一接口的价值,表明把相机和图像信息映射到同一NIS空间,为几何一致性提供了更强支撑。
NIS-DiT的训练采用“由弱到强”的课程学习策略。在本地场景中,一张参考图像往往能覆盖未来帧大部分内容。若一开始就给模型喂“参考图像+相机轨迹”的强条件,模型可能学会直接复制参考图像内容,而不学习真正场景几何先验。因此,训练分为三个阶段。第一阶段只给仅含相机位置的z_pose作为条件,强迫模型学习NIS内在分布和相机对齐的几何结构;第二阶段加入参考图像,但以一定概率随机丢掉参考图像条件,保留第一阶段学到的先验并引入外观对齐能力;第三阶段加入历史记忆令牌,同样通过随机回退防止模型过度依赖历史信息。为解决长期漫游稳定性问题,训练阶段会随机降质历史图像,模拟测试时可能遇到的质量退化,还会额外注入随机高斯噪声扰动潜在条件令牌,并告知模型当前使用的噪声强度,使其能根据条件质量好坏自适应调整生成策略。推理时,随着漫游步数增加,噪声强度自动增大,补偿历史质量退化。消融实验证实了这一设计的重要性。
在长期漫游中,NeuWorld还需记住去过的地方。系统维护一个记忆库,存储过去生成的所有帧及其对应相机位置。每一步漫游时,系统从记忆库中检索出最相关的若干帧作为历史条件送给NIS-DiT。检索策略考虑相机位置距离、视野重叠度和弱的时间近邻偏好项等因素,还会对全局检索得到的候选帧进行位姿多样性过滤,确保选出的历史帧在空间上不过于集中,然后与最近帧合并形成最终历史集合送给NIS编码器编码为z_mem。消融实验显示,这一检索策略能显著提升回程路径的旋转误差和回程画面的感知质量。
NeuWorld的NIS-VAE和NIS-DiT都从零开始训练,仅使用Re10K和DL3DV-10K两个公开的室内场景数据集。所有图像被中心裁剪并缩放到256×256像素,训练使用16块A100 GPU,总计约一周。参与比较的基线方法都继承了大规模预训练的图像或视频生成先验,部分方法还在相关数据集上进行了专门微调,而NeuWorld未借助任何预训练视频骨干网络,在这种不对等条件下参与比较。
研究团队设计了两类评估协议。第一类是前向轨迹生成,从第一帧出发,沿着真实相机轨迹自回归地生成后续帧,在Re10K上评估第50帧和第200帧,在DL3DV上评估第20帧和第80帧;第二类是环形重游,相机从起点走到终点后沿原路返回,评估回程帧的画面质量和与去程对应帧的一致性,同时记录每条轨迹的平均运行时间。实验结果显示,在Re10K前向生成的短期评估中,NeuWorld在六个指标上全面领先;长期评估中,画面质量指标有所下降,但几何一致性指标依然最优。在DL3DV上,短期评估多数指标名列前两位,长期位移一致性表现最优。在环形重游评估中,NeuWorld在Re10K和DL3DV上均取得多项最优指标,且推理效率极高。
研究团队还通过探测实验可视化NIS里隐含的几何信息。将NIS-VAE的编码器冻结,额外训练一个轻量的深度预测头,把解码出的深度图反投影成点云。结果显示,从完整NIS解码的点云展现出清晰的三维布局,从部分NIS解码的点云也保留了连贯的几何骨架。NIS空间的插值实验表明,NIS空间在局部光滑连续,不同局部坐标系之间的转换可在潜在空间里被平滑表示,跨序列插值实验也显示解码器对潜在扰动的响应连续。
为更纯粹比较NIS潜变量和传统视频帧潜变量作为世界模型状态变量的优劣,研究团队设计了受控对比实验。结果显示,NIS先验在视频质量和旋转轨迹误差上优于帧潜变量先验,位移误差上略逊,且训练效率优势明显。研究团队认为这得益于NIS的集合式令牌结构,自注意力在更紧凑的令牌集合上操作,收敛更快。
NIS胶囊的表达能力由令牌数量L和每个令牌的通道维度D控制。通过系统调节这两个参数并在Re10K上评估新视角合成质量,研究发现增加令牌数量L对画面质量提升显著且持续,而增加通道维度D的收益很快饱和。考虑到交互推理效率和扩散先验训练的稳定性,最终选择L = 1024、D = 64作为默认配置。
目前,NeuWorld仅在静态场景下验证了有效性,场景中不能有移动物体,每个NIS胶囊只覆盖局部区域,未维护全局持久的场景地图。如何将这一局部状态框架扩展到动态环境、更丰富交互动作以及更大范围场景组合,是未来需进一步探索的方向。对这一领域感兴趣的读者,可通过arXiv编号2606.30045找到论文完整版本,项目页面也提供了更多可视化对比结果。











