在近期举办的智源大会上,北京智源研究院理事长黄铁军成为备受关注的人物。他不仅是闭幕演讲者,还在会场中被众多参会者围堵追问。其闭幕演讲题目为《智能之路——吾道一以贯之》,在大会期间多次被提及,以此回应外界对智源发展主线的疑问。从悟道到悟界,从大模型到具身智能,智源研究院始终沿着从大语言模型,到多模态大模型,再到世界模型的技术路径前行。
当下,不少企业借助VLA(视觉语言动作模型)推动具身智能快速落地,而智源研究院却坚定地认为世界模型才是终极方向。黄铁军解释,企业运用成熟技术解决明确问题无可厚非,但研究机构肩负着探索通用大脑的使命,要构建一个能让机器人在任何场景下做出基本判断的“主观内部模型”,也就是世界模型。
在媒体对话环节,针对智源提出世界模型是具身智能核心方向这一观点,黄铁军表示,企业用成熟技术在特定场景完成任务与智源追求具身智能通用化并不冲突。机器人要像人类一样在各种场景解决问题,就必须拥有对世界的模型,如同人脑中对世界的认知模型,为行动提供基本判断依据。
谈及数据成本的变化,黄铁军认为这取决于数据采集模式。建立数据工厂、使用机器人或人类控制机器人采集数据成本过高,而边工作边采集数据是更好的方式,比如工人工作时佩戴设备同步完成数据采集,或者通过可穿戴设备在获取智能体服务时零成本或低成本地让系统获得第一视角数据,自动驾驶也是类似逻辑。
当被问到短期内世界模型更容易实现的场景时,黄铁军称,纯数字模型如游戏、视频生成等并非真正的世界模型,因为它们无需考虑物理正确性。真正的世界模型需要多传感器输入,具备视觉、听觉、触觉等,在尽可能多的物理输入下对未来一段时间做出精准推测,这与自动驾驶类似,即观察当前状态并推想未来十几秒的情况。他还提到,数字模型发展迅速但产品推广未达预期,具身传感器受物理限制发展可能稍慢,但必须做好。
对于世界模型与通用人工智能(AGI)的关系,黄铁军表示,尽管大家对AGI定义不同,但无论是现实意义上的通用人工智能系统,还是终极性的AGI,世界模型都是核心部分,如同大脑对身体的重要性。未来AGI若要超越人类,必然是在对世界的认知上超过人类,拥有比人类更强大的世界模型,同时也需要身体在物理世界中更灵巧地完成任务。










