人工智能领域迎来重要技术突破,摩尔线程提出的URPO统一奖励与策略优化框架引发行业关注。这项创新成果被国际顶级学术会议AAAI 2026收录,为简化大语言模型训练流程提供了全新解决方案。研究团队通过将指令遵循与奖励评判两大核心功能整合到单一模型中,实现了训练效率与模型性能的双重提升。
该框架在《URPO:A Unified Reward & Policy Optimization framework for Large Language Models》论文中详细阐述了技术实现路径。研究团队突破传统训练范式,创造性地构建了三大技术模块:首先通过数据格式统一技术,将偏好数据、推理数据和指令数据转化为标准化训练信号;其次开发自我奖励循环机制,使模型能够自主评估生成内容并形成改进闭环;最后建立协同进化体系,让生成能力与评判能力在混合数据训练中相互促进。
实验数据充分验证了技术有效性。基于Qwen2.5-7B模型的测试显示,采用URPO框架后,模型在Alpacaeval指令跟随榜单的得分从42.24提升至44.84,综合推理能力平均分增长3分。更值得关注的是,模型内生的评判能力在RewardBench评测中取得85.15分,超越专用奖励模型的83.55分,展现出强大的泛化能力。这种训练副产品直接转化为实用功能的技术路径,为模型开发提供了新思路。
技术落地方面已取得实质性进展。摩尔线程宣布该框架已在其自研计算卡上实现稳定运行,并完成与VERL等主流强化学习框架的深度适配。这种软硬协同的优化策略,不仅提升了训练效率,更为后续大规模模型开发奠定了基础。研究团队透露,相关技术正在向多模态领域延伸,有望在更复杂的AI应用场景中发挥作用。
行业专家指出,URPO框架的创新性在于打破了传统训练中生成与评判分离的架构限制。通过将裁判功能内化于模型自身,既减少了训练环节的复杂度,又提升了奖励信号的精准度。这种技术路径特别适用于需要快速迭代的开发场景,可能引发大模型训练范式的变革。随着技术文档的公开,预计将有更多研究机构和企业开展相关实验验证。











