ITBear旗下自媒体矩阵:

GAIR 2025:宁波学者金鑫探索世界模型新范式,推动AI具身智能落地

   时间:2025-12-14 18:25:01 来源:互联网编辑:快讯 IP:北京 发表评论无障碍通道
 

在人工智能技术快速发展的当下,一位研究者将研究重心聚焦于世界模型与具身智能两大前沿领域,并强调产业应用和市场接受度是检验技术价值的关键标准,这一理念引发了学界的关注。宁波东方理工大学的助理教授金鑫正是这样一位探索者。

近期,金鑫团队与上海交通大学、布里斯托大学、清华大学等高校合作,在美国圣地亚哥举办的NeurIPS会议期间组织了一场关于“具身世界模型”的研讨会。这场活动吸引了众多学界和产业界专家参与并分享报告,进一步推动了该领域的技术交流。

金鑫的研究路径经历了从底层视觉任务到高维认知决策的转变。早期,他专注于图像视频处理、压缩等基础领域,近年来逐渐转向表征解耦、世界模型、空间智能等方向。他希望通过这些研究让机器具备更强的智能,更好地理解物理世界并服务于实际产业需求。这种从感知到认知的跃迁,反映了人工智能领域的发展趋势。

尽管取得了显著进展,金鑫在谈到核心研究时仍保持谨慎态度。他表示,当前空间智能领域仍处于探索阶段,尚未形成成熟的技术范式。任何声称找到唯一正确路径的论断都可能过于乐观。他更倾向于将团队的工作视为一种可供参考的交流,而非定论。

在构建世界模型的方法上,金鑫团队采取了一种混合策略。对于能够明确描述的物理规则,如碰撞检测和摩擦力,他们通过知识嵌入的方式将这些先验信息传授给模型;而对于难以公式化的复杂现象,如软体变形或大气流动,则依赖数据驱动的方法让模型自行学习。这种结合知识注入与数据驱动的方式,旨在提高模型的适应性和准确性。

目前,团队将这套方法应用于工业制造场景,开发了“工厂世界模型”,并与宁波当地的制造业龙头企业合作进行验证。金鑫认为,工业场景中的规则和需求相对明确,是技术落地的理想切入点。通过在真实环境中测试模型的有效性,团队能够不断优化技术方案。

在GAIR大会上,金鑫分享了团队在空间智能技术领域的多项研究成果。他介绍了空间智能的概念起源,指出这一理念早在SLAM技术时期就已被讨论,并在2024年由斯坦福大学的李飞飞教授进一步拓展。如今,空间智能技术已在自动驾驶、机器人、AIGC等多个行业得到应用,展现出广阔的发展前景。

金鑫将空间智能或世界模型划分为三个核心部分:空间感知、空间交互和空间理解、泛化与生成。空间感知负责构建3D世界的基础框架;空间交互支持智能体与环境及多智能体之间的互动;空间理解则涉及对世界本质的把握和生成能力。基于这一框架,团队将研究细分为空间构建和智能体训练两个方向,形成了一个建模-训练的闭环优化系统。

在具体研究工作中,团队提出了多项创新方案。例如,UniScene项目专注于驾驶场景的生成,通过Occupancy(占据栅格)技术统一多模态数据,构建了一个全面的自动驾驶仿真器。该方案能够生成高质量的驾驶视频和雷达点云数据,为自动驾驶算法的训练提供了低成本且高效的解决方案。目前,团队已发布UniSceneV2版本,进一步提升了数据质量和规模,并新增了深度图和语义分割等模态。

另一项工作OmniNWM引入了闭环的“规划-生成”机制,通过将规划轨迹作为条件输入生成器,预测未来场景的变化。该模型能够同时生成全景视频、语义分割、深度图和3D结构,并在动作维度和闭环奖励优化方面实现了扩展。团队还将这一思路迁移到机器人领域,开发了“机器人世界模型”,用于合成软体和绳体等复杂物体的数据。

针对机器人数据采集的需求,团队构建了InterVLA基准数据集,以第一人称视角补充了机器人交互数据的缺失。该数据集包含视频、动作捕捉和文本描述等多种信息,支持人体运动估计和人机交互等下游任务。团队还提出了DreamVLA模型,通过引入“世界嵌入”中间产物,增强了视觉-语言-动作模型的推理能力,提高了任务完成的效率和泛化性。

在方位感知能力方面,团队设计了一个模块化方案,赋予机器人类似人类的方位判断能力。例如,在抓取任务中,机器人能够根据物体的形状选择合适的抓握方式,而非机械地从正上方操作。这一改进显著提升了机器人的操作灵活性。

团队还将解耦学习应用于世界模型中,通过提取关键环境因素,排除了光照、背景等无关干扰,提高了模型对任务相关信息的聚焦能力。在仿真环境中测试显示,这一方法显著提升了智能体的训练效率,为复杂场景下的模型优化提供了新思路。

金鑫的研究转变始于对物理空间认知能力的追求。他希望团队的研究能够从处理2D视觉信号升级到理解更高维度的视觉信息,从而让AI获得对物理世界的真实感知。这种转变不仅体现了技术维度的提升,也为吸引跨领域人才提供了平台。

在筛选实验室学生时,金鑫最看重的是自驱力和科研热情。他认为,背景和能力可以通过培养提升,但对技术的热爱和探索精神才是关键。他鼓励学生主动反馈研究进展,并通过实习期相互磨合,确保团队成员的目标一致。

在构建世界模型的过程中,团队结合了静态资产和动态数据。静态数据包括生产线上的物体模型,而动态数据则涵盖视频、雷达点云和动作捕捉信息。技术路径上,团队先定义物理规则,再叠加动态数据,最后以静态数据为基础,逐步构建出能够生成物理真实场景的模型。这一过程中,数据采集和规则嵌入是成本和技术难度最高的环节。

对于视频生成模型能否演进为世界模型的问题,金鑫认为这取决于应用场景。在游戏和娱乐行业,这类模型能够发挥重要作用;但在需要精细空间感知和动作策略的领域,如机器人操作或自动驾驶,其局限性则较为明显。因此,技术路径的选择需与具体需求相匹配。

在处理不同材质物体的物理属性时,团队强调世界模型的物理真实性。通过在仿真环境中还原玻璃、塑料等材质的特性,智能体能够学习到真实的物理规律,从而在数字世界中表现出与真实环境一致的行为。这一过程需要结合知识注入和数据驱动的方法,确保模型对复杂现象的理解。

 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  争议稿件处理  |  English Version