阿里巴巴等团队提出Skill-RM方案，为AI“裁判”打造公平精准评分新体系

时间：2026-06-15 23:05:34 来源：互联网编辑：快讯 IP：北京 发表评论无障碍通道

阿里巴巴Qwen大模型应用团队联合多所国内外高校提出了一项名为Skill-RM的新型奖励模型框架，旨在解决大语言模型训练中评判标准复杂且难以统一管理的难题。该研究以预印本形式发布于arXiv平台，论文编号为arXiv:2606.03980，代码同步开源至GitHub仓库，为AI训练中的评分机制提供了系统性解决方案。

传统奖励模型在面对多样化任务时面临显著挑战。以餐厅评分员为例，若仅依赖单一评判方式（如仅凭味道打分），则无法全面评估需要核对食谱或检查摆盘的菜品；若将所有标准同时堆砌，又会导致信息过载，影响判断准确性。当前大模型训练中的评分机制同样存在类似问题：部分模型仅输出单一分数，缺乏解释性；部分模型虽尝试整合所有标准，却因提示词冗长导致混乱。Skill-RM通过将评分过程转化为可执行的“技能”，使模型能够根据任务需求动态调用合适的评判工具，有效解决了这一矛盾。

Skill-RM的核心设计包含三大部件。首先是“奖励评估技能”组合包，包含操作规程说明书与资源库。操作规程定义了评判逻辑，明确何时调用何种资源；资源库则分类存储评分细则、参考资料、检查清单、验证工具及校准规则五大类材料。其次是“技能驱动的判断过程”，模型通过“行动-观察”循环逐步收集证据：例如处理代码任务时调用沙箱验证结果，处理事实核查时查阅参考资料。最后是“奖励读取函数”，从结构化评判结果中提取最终分数，支持绝对评分与相对比较两种场景。

资源库的构建是Skill-RM的关键创新。研究团队通过大模型辅助策划流程，从学术文献、评估协议及实践案例中筛选通用化模块，确保资源质量与可复现性。与传统方法不同，资源库默认隐藏，仅在操作规程触发时加载相关内容，避免信息干扰。例如，在数学题评估中，模型仅调用计算工具与答案库，而不会接触无关的文本分析资源。

实验验证显示，Skill-RM在多个基准测试中表现优异。以Qwen3.5-27B为基础模型时，其在RewardBench2、RM-Bench及JudgeBench上的平均分从83.9提升至86.2；加载样本特定资源后，分数进一步升至89.1，超越多数专门设计的奖励模型。在“最优N选一”场景中，Skill-RM在指令遵循与代码正确性任务上的选择准确率显著高于基准方案，尽管在复杂代码基准上仍有提升空间。强化学习训练实验表明，以Skill-RM为奖励信号的模型在指令遵循基准上达到45.9分，优于同类训练数据的对比方法。

研究团队在不同规模模型上验证了Skill-RM的稳健性。Qwen3.5系列的9B至122B模型均在使用Skill-RM后表现提升，但样本特定资源对小规模模型效果有限。例如，9B模型加载额外资源后分数略有下降，反映出小模型筛选资源的能力不足。这一发现提示，资源利用效率与模型实际能力密切相关。

尽管Skill-RM在文本任务中表现突出，研究团队也指出其当前局限。首先，评估范围主要限于文本指令遵循，扩展至多模态或长周期任务仍需探索。其次，奖励评估技能依赖人工策划，自动化生成与更新技能文件是未来方向。最后，技能驱动的评判过程需更多推理步骤，增加计算开销，需通过自适应终止、证据缓存等技术优化效率。

对于普通用户，Skill-RM的直接意义在于提升AI助手的可靠性。无论是复杂指令遵循、代码处理还是专业场景应用，训练阶段的评分机制优化将使AI输出更贴近实际需求。对研究者而言，该研究引发对信息组织方式的重新思考：在AI系统设计中，结构化信息管理可能比单纯扩大参数规模更为重要。完整论文与代码已公开，供学术界与产业界进一步探索。

为了节省成本，iQOO Z11i一方面是缩减内存和闪存的容量规格，另一方面，还采用了水滴屏。最低1199元，用这级别的内存和闪存也算常规操作。存储是肯定要的，只能在其零部件上降低成本，iQOO Z11i就…

现在年轻人装修都讲究全屋智能，但家里有人用华为、有人用苹果、有人用小米，买个空调还得看手机品牌，这设定本身就离谱。美的把双排铜管、美芝压缩机、无风感技术、全屋智能不挑平台、中央空调十年延保、12000个网点…

其他两款手机的配置也大致盘点下，红米note 17预计搭载骁龙6s Gen 4处理器，能效比挺高，正面采用一块1.5k高清直屏，支持67w有线快充，后置5000万像素光学防抖主摄，大概定价会在1500元左右…

许多研究人员希望，在人工智能训练中加入具身体验，可以让他们更接近实现“通用人工智能（AGI）”的目标——人工智能在任何任务中都具有类似人类的认知能力。另一个问题是，机器人基础模型在使用视觉数据（占其物理训练…

7月3日午后，人形机器人板块延续强势表现，截至收盘，国证机器人产业指数上涨7.9%、领涨全市场。同花顺iFinD数据显示，机器人ETF易方达（159530，联接基金A/C：020972/020973）今日获3…

作为全球移动通信领域的一个国际行业组织，GSMA联合超过1000家移动运营商及相关企业每年在巴塞罗那、上海等地举办的MWC系列展会，被业界视为观察全球通信产业与数字科技趋势的重要风向标。在技术快速融合的背…

7月3日，由霞光社联合霞光智库主办的「AI重构品牌·正在发生｜WAVE 2026品牌全球化大会」在深圳举办。大会期间，备受行业关注的WAVE 2026品牌全球化年度榜单正式揭晓。农业具身智能领军企业禾芯动力凭借在全球化布局与技术突破中的卓越表现，从众多参选企业中脱颖而出，

按充电头网长期拆解评测的经验，一块用料过关的20000mAh充电宝，品牌电芯+合规保护电路+3C认证+新国标测试，硬成本就在100元上下。 200元以内买充电宝，绿联67W超能块以¥149提供了一个很难挑出短…

它还支持双微信生态，工作和生活在手腕上实现了物理隔离，工作消息不错过，私人生活免打扰，完美治愈双机党的烦恼。总之，览邦Watch Ultra以其独立通信、强大的AI交互、硬核的配置、出色的外观设计和健康守护…

当时发布的时候小米YU7非常抢手，显示交付周期高达53–56周，也正是由于订单量过大，造成了后面出现了很多现车。由于订单量过大，交付周期过长，后来就出现了很多用户退订的情况。尽管当时5000元定金并不能退，…

结合专利公开内容来看，这项专利升顶装置的核心，是通过可开启的汽车顶部结构，把车内和车顶连通，从而为露营、休憩等场景提供更大的活动范围。在当下只有华为和小米寥寥几家车企设计汽车顶棚时，车顶有机会成为卖车新的竞争…

快科技7月3日消息，小米汽车武汉张家湾售后中心迎来暖心一幕，六位SU7Ultra车主相约一起到店，送来锦旗表达对门店服务的满意，雷军也专门发文回应这份认可。这件事被小米汽车官方发布在社交平台，几位车主不是单独…

本网站LOGO小熊标志受版权保护，版权登记号：鲁作登字-2015-F-025467，未经ITBEAR比尔科技官方许可，严禁使用。
声明：本网站是公益性科普网站，为网友提供科技类资讯内容，无障碍技术由太阳湾捐增，为阅读障碍用户提供内容听读服务。如本站内容侵犯了您的权利，请通知我们及时删除。
中国（山东）自由贸易试验区鲁ICP备11015305号-1 联系入口
Copyright © 比尔科技 2007-2024 ITBEAR.COM.CN All rights reserved.