在近日举行的国际计算机图形学与交互技术领域顶级盛会SIGGRAPH上,全球领先的图形处理器制造商英伟达展示了一系列针对机器人开发者的创新成果,包括世界模型、应用库及基础设施,引发了业界的广泛关注。
尤为引人注目的是,英伟达推出了一款名为Cosmos Reason的开源物理AI应用和机器人视觉推理模型,尽管其参数量仅为70亿,但性能卓越。这款模型打破了传统视觉语言模型的局限,不仅提升了物体与模式识别的精度,更重要的是,它具备了解决多步骤任务和应对复杂现实情境的能力。
据英伟达介绍,Cosmos Reason凭借其强大的记忆与理解能力,能够让机器人和AI代理像人类一样进行推理,并在真实环境中执行决策。在一个演示案例中,搭载了视觉推理模型的机器人手臂,在观察到“面包+烤面包机”的场景后,成功推断出将面包放入烤面包机进行烘烤的下一步动作,并将这一逻辑转化为具体的操作指令。
这一功能被称为“机器人规划与推理”,它使得Cosmos Reason成为机器人的“智慧大脑”,负责有意识、条理化的决策制定。视觉推理模型能够解析环境信息,面对复杂指令时,能够将其分解为具体任务,并依靠常识来执行。该模型在AI应用方面也展现出巨大潜力,如自动化整理、标注大规模训练数据集,以及从海量视频数据中提取有价值信息进行归因分析等。
目前,Cosmos Reason已进入商业化运营阶段。英伟达内部机器人和自动驾驶团队正利用该模型进行数据整理、过滤、标注以及VLA(视觉语言动作)后训练。优步也在自动驾驶训练数据的标注与说明生成中采用了这一模型。麦格纳国际则正在开发全自动即时配送解决方案City Delivery,借助Cosmos Reason帮助车辆更快适应新城市环境。同时,VAST Data和Milestone Systems也在交通监控自动化、视觉检测等领域应用了该模型。
除了Cosmos Reason,英伟达还在Cosmos世界模型中新增了Cosmos Transfer-2,旨在加速从3D仿真等场景生成合成数据,并推出了一个更注重速度优化的Cosmos Transfers蒸馏版本。英伟达还更新了Omniverse软件开发工具包,并公布了新的神经重建库,其中包括一种允许开发者使用传感器数据在三维中模拟现实世界的渲染技术库。