智元机器人近日宣布了一项重大技术创新,正式推出了业内首个开源的机器人世界模型平台——Genie Envisioner(简称GE)。这一平台的诞生,标志着机器人在学习技术领域迈出了划时代的一步。
与传统机器人学习方式截然不同,Genie Envisioner平台构建了一个以统一视频生成世界模型为核心的闭环系统。该系统整合了未来帧预测、策略学习与仿真评估等功能模块,使得机器人能够在单一模型中实现从环境感知、决策思考到动作执行的整个流程,极大地提升了机器人的自主学习和适应能力。
该平台的核心竞争力在于其高度集成的闭环架构。其中,GE-Base模型经过海量数据训练,具备卓越的环境布局解析和动作意图理解能力。GE-Act作为动作解码器,负责将GE-Base模型的理解结果转化为具体的动作指令。而GE-Sim则是一个基于动作条件的神经仿真器,通过精细的分层机制,实现了高精度的视觉预测。这三个部分紧密配合,共同驱动着整个平台的高效运行。
为了打造这一平台,智元机器人投入了大量资源,收集了约3000小时的真实机器人操作视频数据。这些数据不仅为模型建立了语言指令与视觉空间之间的直接联系,还完整地保留了操作过程中的时空信息,为平台的准确性和实用性奠定了坚实基础。
在实际应用测试中,搭载GE-Act模块的机器人已经成功完成了多项复杂任务,如制作三明治、倒茶和擦拭桌面等。这些成功案例不仅充分展示了GE平台的技术优势,也进一步证明了其在提升机器人智能化水平和任务执行能力方面的巨大潜力。随着技术的不断成熟和完善,相信Genie Envisioner平台将在更多领域发挥重要作用,推动机器人技术的持续创新和发展。