智元机器人近日宣布了一项革命性的技术突破,正式推出了业内首个开源的机器人世界模型平台——Genie Envisioner(简称GE)。这一创新平台的问世,标志着机器人在学习技术领域迈出了关键的一步。
不同于传统的机器人学习方式,Genie Envisioner平台采用了全新的设计理念,其核心是一个统一的视频生成世界模型,形成了一个闭环系统。该系统集成了未来帧预测、策略学习与仿真评估等多个功能模块,使得机器人能够在单一模型内实现从环境感知、决策制定到动作执行的完整流程。
该平台的核心架构高度集成,主要包括三个部分:GE-Base模型、GE-Act动作解码器和GE-Sim神经仿真器。GE-Base模型基于庞大的数据集训练而成,拥有卓越的环境布局解析能力和动作意图理解能力。GE-Act则负责将模型的理解结果转化为具体的动作指令,确保机器人能够准确执行。而GE-Sim则是一个基于动作条件的神经仿真器,通过精细的分层机制,实现了高精度的视觉预测。这三个部分协同工作,共同推动了平台的高效运行。
在开发过程中,智元机器人投入了大量资源,利用了约3000小时的真实机器人操作视频数据。这些数据不仅帮助模型建立了语言指令与视觉空间之间的直接联系,还完整保留了操作过程中的时空信息,从而确保了平台的准确性和实用性。
在实际应用中,搭载GE平台的机器人已经展现出了强大的任务执行能力。例如,在测试中,配备GE-Act模块的机器人成功完成了制作三明治、倒茶和擦拭桌面等多项复杂任务。这些成果不仅验证了GE平台的技术优势,也充分展示了其在提升机器人智能化水平和任务执行能力方面的巨大潜力。