ITBear旗下自媒体矩阵:

智元机器人首推机器人世界模型开源平台,实现端到端推理与执行

   时间:2025-08-14 13:36:47 来源:凤凰网科技编辑:快讯团队 IP:北京 发表评论无障碍通道
 

智元机器人在科技领域迈出了创新性的一步,正式推出了业内首个开源的机器人世界模型平台——Genie Envisioner(简称GE)。这一平台颠覆了传统机器人学习的流水线模式,通过整合未来帧预测、策略学习与仿真评估,构建了一个以视频生成为核心的闭环系统。这一变革性的设计,使得机器人能够在同一世界模型中实现从感知到思考再到行动的端到端处理。

GE平台的核心在于其统一的视频生成世界模型,它将数据收集、模型训练及策略评估等环节无缝集成,形成了一个高效的闭环系统。平台的三大核心组件各司其职:GE-Base通过训练超百万条数据,能够精确解析环境布局与动作意图;GE-Act动作解码器则负责将理解转化为实际行动;而GE-Sim则进一步扩展了GE-Base的生成能力,成为了一个基于动作条件的神经仿真器,通过层次化的机制实现精准的视觉预测。这三大组件的协同工作,共同构成了GE平台的强大功能。

为了构建这一平台,智元机器人利用了约3000小时的真实机器人操控视频数据,这些数据帮助GE建立了从语言指令到视觉空间的直接映射,完整地保留了机器人与环境交互的时空信息。这一基础数据的积累,为GE平台的成功应用奠定了坚实的基础。

在近期举行的2025世界人工智能大会(WAIC)上,智元机器人主办的智启具身论坛上,智元机器人的高层以飞机架构为比喻,生动阐述了GE平台的核心逻辑。他们指出,GE-Base就像是飞机的机身,经过海量数据的训练,具备了长程、多视角的视频生成能力。而World Action Model和Action-conditioned World Model则分别象征着飞机的双翼,为GE平台提供了更广阔的应用空间。

在实际测试中,搭载了GE-Act组件的机器人已经成功完成了多项任务,包括制作三明治、倒茶以及擦拭桌面等。这些成果不仅展示了GE平台的强大功能,也预示着未来机器人在智能交互和执行任务方面将拥有更加广泛的应用前景。

举报 0 收藏 0 打赏 0评论 0
 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  争议稿件处理  |  English Version