在机器人技术的前沿探索中,智元机器人公司近期宣布了一项重大突破,推出了业内首个全面开源的机器人世界模型平台——Genie Envisioner(简称GE)。这一创新平台的问世,标志着机器人在学习技术领域取得了关键性的进展。
与传统的机器人学习方式相比,Genie Envisioner平台采用了革命性的设计理念,构建了一个以统一视频生成世界模型为核心的闭环系统。该系统整合了未来帧预测、策略学习与仿真评估等多个功能模块,使得机器人能够在单一模型中流畅地完成从环境感知、决策制定到动作执行的整个过程。
Genie Envisioner平台的核心架构高度集成,主要由GE-Base模型、GE-Act动作解码器和GE-Sim神经仿真器三部分组成。GE-Base模型基于庞大的数据集进行训练,具备卓越的环境布局解析能力和动作意图理解能力。GE-Act则负责将模型的理解结果转化为具体的动作指令,而GE-Sim则通过精细的分层机制,实现高精度的视觉预测。这三部分协同工作,确保了平台的高效运行。
为了打造这一平台,智元机器人投入了大量资源,收集了约3000小时的真实机器人操作视频数据。这些数据不仅帮助模型建立了语言指令与视觉空间之间的直接联系,还完整地保留了操作过程中的时空信息,从而显著提升了平台的准确性和实用性。
在实际应用中,搭载GE-Act模块的机器人已经展现出了出色的表现。它们成功完成了包括制作三明治、倒茶和擦拭桌面在内的多项任务,这些成果充分证明了Genie Envisioner平台的技术实力。该平台不仅提升了机器人的智能化水平,还显著增强了其任务执行能力,为未来的机器人应用开辟了广阔的前景。