滚动资讯

当前位置：首页 > 资讯 > 人工智能 > 正文内容

昆仑万维发布Skywork-Reward-V2奖励模型，全面夺魁七大主流评测榜单

时间：2025-07-04 10:51:09 来源：ITBEAR编辑：快讯团队 IP：北京 发表评论无障碍通道

昆仑万维在人工智能领域再度发力，于近期正式推出了其第二代奖励模型系列——Skywork-Reward-V2。这一系列共涵盖了8个不同规模的模型，参数量从6亿至80亿不等，均基于不同的基座模型构建。令人瞩目的是，Skywork-Reward-V2系列一经问世，便迅速在七大主流奖励模型评测中脱颖而出，全面夺得榜首，成为开源奖励模型领域的新星。

奖励模型在强化学习从人类反馈（RLHF）的过程中扮演着核心角色。为了打造这一全新系列的奖励模型，昆仑万维精心构建了一个包含4000万对偏好对比的混合数据集Skywork-SynPref-40M。在数据处理策略上，团队创新性地采用了人机协同的两阶段流程，巧妙地将人工标注的高质量与模型的大规模处理能力相结合。在第一阶段，团队首先构建了一个初始的、未经验证的偏好池，并借助大语言模型生成辅助属性。随后，人工标注者依据严格的协议，借助外部工具和大语言模型，对部分数据进行精细审核，从而构建出一个小规模但高质量的金标准数据集。以此为引导，结合大语言模型，团队进一步生成了高质量的银标准数据，并通过多轮迭代不断优化。进入第二阶段，团队转向自动化的大规模数据扩展，利用训练完成的奖励模型执行一致性过滤，既减轻了人工标注的负担，又实现了偏好数据规模与质量的完美平衡。

基于这一优质的混合偏好数据，Skywork-Reward-V2系列展现出了广泛的适用性和卓越的能力。它不仅在人类偏好的通用对齐、客观正确性、安全性、风格偏差抵抗能力以及best-of-N扩展能力等多个维度上表现出色，还在Reward Bench v1/v2、PPE Preference & Correctness、RMB、RM-Bench、JudgeBench等七大主流奖励模型评估基准上全面达到了当前最优水平。即便是系列中最小的模型Skywork-Reward-V2-Qwen3-0.6B，其整体性能也几乎达到了上一代最强模型的平均水平，而Skywork-Reward-V2-Qwen3-1.7B更是超越了当前开源奖励模型的最高水平。最大规模的模型Skywork-Reward-V2-Llama-3.1-8B在所有主流基准测试中均全面超越，成为了当前整体表现最优的开源奖励模型。

Skywork-Reward-V2系列还具备广泛覆盖多维人类偏好的能力。在通用偏好评估基准上，它优于多个参数更大的模型以及最新的生成型奖励模型；在客观正确性评估方面，它在知识密集型任务中展现出了突出的表现；在多项高级能力评估中，包括Best-of-N任务、偏见抵抗能力测试、复杂指令理解以及真实性判断等，均取得了领先的成绩，充分展现了其出色的泛化能力与实用性。

数据筛选流程的高度扩展性也显著提升了奖励模型的性能。经过精细筛选和过滤的偏好数据，在多轮迭代训练中能够持续有效地提升模型的整体性能，特别是在第二阶段的全自动数据扩展中表现尤为显著。早期版本的实验结果显示，仅需使用1.8%的高质量数据训练8B规模的模型，其性能就能超越当前的70B级最高水平奖励模型，这充分印证了Skywork-SynPref数据集在规模和质量上的显著优势。

对于感兴趣的研究人员和开发者来说，可以通过以下链接获取更多关于Skywork-Reward-V2系列的信息和资源：HuggingFace地址为https://huggingface.co/collections/Skywork/skywork-reward-v2-685cc86ce5d9c9e4be500c84，GitHub地址为https://github.com/SkyworkAI/Skywork-Reward-V2。

举报 0 收藏 0 打赏 0评论 0

07-04

MiniMax-M1登顶开源AI榜，技术实力彰显，引领行业新风潮

07-04

英伟达股价攀升至新高，市值突破3.89万亿美元成全球科技新领袖

07-04

微软年内二度大规模裁员，近9000岗位受影响

07-04

ABB推出三款新型机器人，瞄准中国中型企业自动化需求

IT之家 7 月 3 日消息，据路透社报道，瑞士工程巨头 ABB周三宣布，将面向中国市场推出三款新型工厂机器人系列，瞄准对自动化需求日益增长的中国中型企业。根据国际机器人联合会的数据，中国已成为全球最大的…

07-04

中国移动中兴通讯联手打造“联创+”自智网络实验室，加速科技创新成果转化

近日，中国移动通信集团有限公司与中兴通讯股份有限公司在北京举行“联创+”自智网络开放实验室揭牌仪式。此举旨在贯彻国家科技创新驱动发展战略，加速自智网络高阶发展。中国移动副总经理李慧镝强调，通信产业是推动社会…

07-04

荣耀Magic V5深度评测：极致轻薄下的性能与智能新高度

在性能上，荣耀Magic V5并没有因为轻薄而向性能妥协，这恰好就是用户的理想型。如果你想要拥有一部折叠屏手机双持的话，那么荣耀Magic V5一定就是一个不错的选择，不仅轻薄，而且还没有传输壁垒，想怎么传…

07-04

智谱AI上海子公司增资近50倍，寰宇科技公司资本跃升至5亿

07-04

优必选杭州布局，新设智行机器人公司，注册资本高达5000万！

07-04

歌尔股份杭州新设歌尔泰克，注册资本达500万引关注

07-04

中石油昆仑资本携手山东未来机器人，共谱智能制造新篇章

07-04

AI赋能热辐射超材料设计，批量创制方案突破传统设计上限

金属基复合材料全国重点实验室、上海交通大学材料科学与工程学院、张江高等研究院未来材料创制中心教授周涵表示，热辐射超材料的设计难点在于缺乏普适性方法，即缺乏多材料、多结构、多维度、多参数的全自动设计范式及通用方…

07-03

Fortinet连续第二年荣膺Gartner企业级WLAN魔力象限领导者

Fortinet 全面集成至 Fortinet Security Fabric 的企业级有线和无线局域网解决方案，为用户打造经实践检验、以人工智能驱动的安全平台，全面融合网络与安全性，助力用户降低复杂性、缓…

07-03

外滩大会AI科创赛启幕，探索生活变革、金融智能与安全防护新应用

07-03

外滩大会AI科创赛盛启，三大领域角逐百万奖金共促创新

7月3日，2025 Inclusion·外滩大会科技智能创新赛（简称“外滩大会AI科创赛”）正式启动，本届大赛在上海市科学技术委员会指导下，聚焦AI智能硬件、金融智能、AI安全等领域创新应用，设置人工智能硬…

07-03

点击查看更多 +

全站最新

黑洞之谜：高维度或是解开其本质的关键线索

长四丙火箭西昌再建功，成功发射试验二十八号B星01星入轨

哈工大录取通知书：宇宙级浪漫，携梦想上太空

小鹏G7正式上市挑战Model Y，何小鹏：智能算力新纪元开启，9分钟大定破万

丰田借势涨价，或加速供应链倒戈，国产电车面临新挑战

小鹏G7正式上市：L3级算力引领智驾新时代，起售价19.58万元

热门内容

本栏最新

微软年内二度大规模裁员，近9000岗位受影响

ABB推出三款新型机器人，瞄准中国中型企业自动化需求

中国移动中兴通讯联手打造“联创+”自智网络实验室，加速科技创新成果转化

荣耀Magic V5深度评测：极致轻薄下的性能与智能新高度

智谱AI上海子公司增资近50倍，寰宇科技公司资本跃升至5亿

优必选杭州布局，新设智行机器人公司，注册资本高达5000万！

本网站LOGO小熊标志受版权保护，版权登记号：鲁作登字-2015-F-025467，未经ITBEAR官方许可，严禁使用。
声明：本网站是公益性科普网站，为网友提供科技类资讯内容，无障碍技术由太阳湾捐增，为阅读障碍用户提供内容听读服务。如本站内容侵犯了您的权利，请通知我们及时删除。
中国（山东）自由贸易试验区鲁ICP备11015305号-1 商业合作入口
Copyright © 小熊科技资讯 2007-2024 ITBEAR.COM.CN All rights reserved.