在人工智能领域的热门赛道上,具身智能正掀起一场前所未有的风暴。然而,这一领域的发展并非一帆风顺,数据瓶颈和多场景泛化难题如同两座大山,阻挡着前行者的脚步。近日,在世界人工智能大会(WAIC)上,一个名为“悟能”的全新具身智能平台横空出世,为行业带来了新的曙光。
“悟能”平台以世界模型为引擎,旨在赋予机器人强大的感知、导航和多模态交互能力。在WAIC的展览现场,各式各样的机器人吸引了众多目光,但行业内的专业人士深知,这些机器人虽火爆一时,却普遍面临着数据短缺和训练效率低的困境,导致自主解决问题能力较弱。
商汤科技,作为人工智能领域的佼佼者,在此次大会上推出了其精心打造的“悟能”平台。该平台能够仅凭一句自然语言描述的场景,生成符合物理规则、多视角统一、真实世界还原度极高的多视角视频,从而破解了仿真数据输出的难题。
想象一下,你仿佛置身于城市的街头,手握方向盘,脚踩油门,周围的光影变幻莫测,而这一切,都通过七个摄像头构建出的无比真实的世界呈现在你眼前。但这并非游戏场景,而是你与AI共同“开悟”的体验。
“悟能”平台的出现,标志着AI将不再仅仅是工具,而是成为了人类的合作者、探索者和创造者。这一平台之所以能为具身智能带来如此显著的赋能,得益于其四大核心功能:感知、导航、交互以及世界模型的构建。
在感知方面,商汤凭借其强大的视觉感知能力,为机器人提供了对世界万物的识别和理解。无论是机器狗还是机器人,都能通过其视觉系统,实时感知周围环境,识别场景中的物件和行人。这一能力被完美嵌入到机器人的核心芯片中,实现了端侧的高效处理。
导航功能则是“悟能”平台的另一大亮点。尽管全自主的无人驾驶车已经问世,但全自主的机器狗和机器人仍属罕见。商汤的绝影团队,在无人驾驶领域积累了丰富的经验,这些技术同样可以应用于机器狗和机器人的导航上。通过实时路径规划和避障功能,机器狗和机器人能够在复杂环境中自如穿梭。
交互功能则展现了“悟能”平台的幽默感和全局记忆能力。在现场演示中,一个机器人通过AI生成的PPT,绘声绘色地讲解了《长安的荔枝》的故事。它不仅能够自己翻页,还能在嘈杂环境中保持主线任务,继续讲解。这一功能同样适用于机器狗,展现了“悟能”平台在不同形态硬件上的广泛适用性。
而世界模型的构建,则是“悟能”平台的核心所在。通过“人、物、场”的构建,平台能够生成一个4D的真实世界。用户只需给出一张具身关节模型和简单的指令,平台就能生成连续的视频和位姿。这些视频和位姿具有时空一致性,可以从多个角度进行观察,为机器人的交互训练提供了高质量的数据。
在自动驾驶领域,“悟能”平台已经能够用一句自然语言生成一个七视角摄像头的视频。这些视频在空间和时序上都具有一致性,甚至可以进行实时编辑和替换。这些新生成的数据,为AI进入现实世界提供了闭环交互训练的解决方案。
如今,商汤将“开悟”世界模型进一步扩展到具身智能领域,并赋予了它新的名字——“悟能”。这一平台不仅解决了具身智能领域的数据瓶颈问题,还为机器人的多场景泛化提供了可能。未来,随着“悟能”平台的不断推广和应用,机器人将成为人类生活中不可或缺的“超级队友”,在智能制造、医疗护理、家庭服务等多个领域发挥巨大作用。