ITBear旗下自媒体矩阵:

昆仑万维发布Skywork-Reward-V2奖励模型,全面夺魁七大主流评测榜单

   时间:2025-07-04 10:51:09 来源:ITBEAR编辑:快讯团队 IP:北京 发表评论无障碍通道

昆仑万维在人工智能领域再度发力,于近期正式推出了其第二代奖励模型系列——Skywork-Reward-V2。这一系列共涵盖了8个不同规模的模型,参数量从6亿至80亿不等,均基于不同的基座模型构建。令人瞩目的是,Skywork-Reward-V2系列一经问世,便迅速在七大主流奖励模型评测中脱颖而出,全面夺得榜首,成为开源奖励模型领域的新星。

奖励模型在强化学习从人类反馈(RLHF)的过程中扮演着核心角色。为了打造这一全新系列的奖励模型,昆仑万维精心构建了一个包含4000万对偏好对比的混合数据集Skywork-SynPref-40M。在数据处理策略上,团队创新性地采用了人机协同的两阶段流程,巧妙地将人工标注的高质量与模型的大规模处理能力相结合。在第一阶段,团队首先构建了一个初始的、未经验证的偏好池,并借助大语言模型生成辅助属性。随后,人工标注者依据严格的协议,借助外部工具和大语言模型,对部分数据进行精细审核,从而构建出一个小规模但高质量的金标准数据集。以此为引导,结合大语言模型,团队进一步生成了高质量的银标准数据,并通过多轮迭代不断优化。进入第二阶段,团队转向自动化的大规模数据扩展,利用训练完成的奖励模型执行一致性过滤,既减轻了人工标注的负担,又实现了偏好数据规模与质量的完美平衡。

基于这一优质的混合偏好数据,Skywork-Reward-V2系列展现出了广泛的适用性和卓越的能力。它不仅在人类偏好的通用对齐、客观正确性、安全性、风格偏差抵抗能力以及best-of-N扩展能力等多个维度上表现出色,还在Reward Bench v1/v2、PPE Preference & Correctness、RMB、RM-Bench、JudgeBench等七大主流奖励模型评估基准上全面达到了当前最优水平。即便是系列中最小的模型Skywork-Reward-V2-Qwen3-0.6B,其整体性能也几乎达到了上一代最强模型的平均水平,而Skywork-Reward-V2-Qwen3-1.7B更是超越了当前开源奖励模型的最高水平。最大规模的模型Skywork-Reward-V2-Llama-3.1-8B在所有主流基准测试中均全面超越,成为了当前整体表现最优的开源奖励模型。

Skywork-Reward-V2系列还具备广泛覆盖多维人类偏好的能力。在通用偏好评估基准上,它优于多个参数更大的模型以及最新的生成型奖励模型;在客观正确性评估方面,它在知识密集型任务中展现出了突出的表现;在多项高级能力评估中,包括Best-of-N任务、偏见抵抗能力测试、复杂指令理解以及真实性判断等,均取得了领先的成绩,充分展现了其出色的泛化能力与实用性。

数据筛选流程的高度扩展性也显著提升了奖励模型的性能。经过精细筛选和过滤的偏好数据,在多轮迭代训练中能够持续有效地提升模型的整体性能,特别是在第二阶段的全自动数据扩展中表现尤为显著。早期版本的实验结果显示,仅需使用1.8%的高质量数据训练8B规模的模型,其性能就能超越当前的70B级最高水平奖励模型,这充分印证了Skywork-SynPref数据集在规模和质量上的显著优势。

对于感兴趣的研究人员和开发者来说,可以通过以下链接获取更多关于Skywork-Reward-V2系列的信息和资源:HuggingFace地址为https://huggingface.co/collections/Skywork/skywork-reward-v2-685cc86ce5d9c9e4be500c84,GitHub地址为https://github.com/SkyworkAI/Skywork-Reward-V2。

举报 0 收藏 0 打赏 0评论 0
 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  RSS订阅  |  开放转载  |  滚动资讯  |  争议稿件处理  |  English Version