智元具身研究中心在具身智能领域取得重要进展,正式发布第二代一体化具身大小脑系统GenieReasoner。该系统针对视觉语言动作(VLA)模型中语义推理与动作控制两大模态难以对齐的技术痛点,创新性地提出支持统一离散化预训练的模型架构,通过引入流匹配(Flow-matching)机制突破传统离散化编码器的动作精度限制,为具身智能体的跨模态协同提供了全新解决方案。
在技术实现层面,研究团队重构了传统VLA模型的训练范式。通过将语义推理与动作控制模块的离散化过程进行统一建模,系统在预训练阶段即可实现跨模态特征的深度耦合。针对离散化编码导致的动作精度损失问题,流匹配算法通过动态调整离散单元与连续动作空间的映射关系,在保持语义一致性的同时显著提升动作执行的细腻度。实验数据显示,该架构在复杂场景下的动作误差率较传统方法降低42%,推理效率提升28%。
为推动行业标准化评估体系建立,智元同步开源ERIQ评测基准。该基准聚焦具身智能体在真实机器人平台上的全流程操控能力,通过构建包含2000+任务场景的测试集,将具身推理能力解耦为空间理解、逻辑规划、动作执行等六个维度。每个维度均设计梯度化测试任务,支持对智能体推理能力的量化评估。开发者可通过开放接口获取标准化评测报告,为模型优化提供明确方向。目前ERIQ已吸引国内外30余家科研机构参与共建,相关数据集和工具包已在智元开源平台全面开放。








