阿里巴巴Qwen大模型应用团队联合多所国内外高校提出了一项名为Skill-RM的新型奖励模型框架,旨在解决大语言模型训练中评判标准复杂且难以统一管理的难题。该研究以预印本形式发布于arXiv平台,论文编号为arXiv:2606.03980,代码同步开源至GitHub仓库,为AI训练中的评分机制提供了系统性解决方案。
传统奖励模型在面对多样化任务时面临显著挑战。以餐厅评分员为例,若仅依赖单一评判方式(如仅凭味道打分),则无法全面评估需要核对食谱或检查摆盘的菜品;若将所有标准同时堆砌,又会导致信息过载,影响判断准确性。当前大模型训练中的评分机制同样存在类似问题:部分模型仅输出单一分数,缺乏解释性;部分模型虽尝试整合所有标准,却因提示词冗长导致混乱。Skill-RM通过将评分过程转化为可执行的“技能”,使模型能够根据任务需求动态调用合适的评判工具,有效解决了这一矛盾。
Skill-RM的核心设计包含三大部件。首先是“奖励评估技能”组合包,包含操作规程说明书与资源库。操作规程定义了评判逻辑,明确何时调用何种资源;资源库则分类存储评分细则、参考资料、检查清单、验证工具及校准规则五大类材料。其次是“技能驱动的判断过程”,模型通过“行动-观察”循环逐步收集证据:例如处理代码任务时调用沙箱验证结果,处理事实核查时查阅参考资料。最后是“奖励读取函数”,从结构化评判结果中提取最终分数,支持绝对评分与相对比较两种场景。
资源库的构建是Skill-RM的关键创新。研究团队通过大模型辅助策划流程,从学术文献、评估协议及实践案例中筛选通用化模块,确保资源质量与可复现性。与传统方法不同,资源库默认隐藏,仅在操作规程触发时加载相关内容,避免信息干扰。例如,在数学题评估中,模型仅调用计算工具与答案库,而不会接触无关的文本分析资源。
实验验证显示,Skill-RM在多个基准测试中表现优异。以Qwen3.5-27B为基础模型时,其在RewardBench2、RM-Bench及JudgeBench上的平均分从83.9提升至86.2;加载样本特定资源后,分数进一步升至89.1,超越多数专门设计的奖励模型。在“最优N选一”场景中,Skill-RM在指令遵循与代码正确性任务上的选择准确率显著高于基准方案,尽管在复杂代码基准上仍有提升空间。强化学习训练实验表明,以Skill-RM为奖励信号的模型在指令遵循基准上达到45.9分,优于同类训练数据的对比方法。
研究团队在不同规模模型上验证了Skill-RM的稳健性。Qwen3.5系列的9B至122B模型均在使用Skill-RM后表现提升,但样本特定资源对小规模模型效果有限。例如,9B模型加载额外资源后分数略有下降,反映出小模型筛选资源的能力不足。这一发现提示,资源利用效率与模型实际能力密切相关。
尽管Skill-RM在文本任务中表现突出,研究团队也指出其当前局限。首先,评估范围主要限于文本指令遵循,扩展至多模态或长周期任务仍需探索。其次,奖励评估技能依赖人工策划,自动化生成与更新技能文件是未来方向。最后,技能驱动的评判过程需更多推理步骤,增加计算开销,需通过自适应终止、证据缓存等技术优化效率。
对于普通用户,Skill-RM的直接意义在于提升AI助手的可靠性。无论是复杂指令遵循、代码处理还是专业场景应用,训练阶段的评分机制优化将使AI输出更贴近实际需求。对研究者而言,该研究引发对信息组织方式的重新思考:在AI系统设计中,结构化信息管理可能比单纯扩大参数规模更为重要。完整论文与代码已公开,供学术界与产业界进一步探索。







