滚动资讯

当前位置：首页 > 资讯 > 信息流 > 正文内容

通义实验室提出生成式奖励模型P-GenRM

时间：2026-03-18 02:24:08 来源：鞭牛士编辑：快讯 IP：北京 发表评论无障碍通道

AIPress.com.cn报道

3月17日消息，通义实验室自然语言智能团队提出了一种面向开放域场景的个性化生成式奖励模型P-GenRM，并入选ICLR 2026Oral。该方法旨在解决传统奖励模型难以适应用户多样化偏好的问题，为AI系统提供更具动态适配能力的对齐机制。

在现有方法中，奖励模型通常依赖统一标准或静态偏好建模，对不同用户和场景的差异响应有限，尤其在新用户冷启动和复杂偏好表达方面存在不足。P-GenRM则引入生成式建模思路，将“评分”过程拆解为结构化的推理链条，包括用户偏好画像、评分标准设定以及逐项打分与汇总，从而将原本隐式的偏好建模转化为可解释的评估流程。

在训练方法上，研究团队采用分阶段策略，结合有监督微调与强化学习，使模型能够从显式与隐式偏好信号中推断用户需求，并在信息不完整情况下进行合理补全。同时，通过课程学习提升模型对复杂样本的判别能力。

在推理阶段，P-GenRM进一步引入测试时扩展机制，通过多次采样与相似用户参考相结合的方式，提高评分稳定性并缓解噪声影响。这一设计不仅增强了模型在低数据场景下的表现，也提升了对新用户的泛化能力。

实验结果显示，在个性化评测基准上，P-GenRM在较小模型规模下实现了对既有方法的性能超越，并在下游策略模型训练中带来显著的个性化对齐收益。相关结果表明，通过结构化生成与推理增强，奖励模型在个性化场景中的有效性得到提升。

整体来看，该研究将个性化对齐从传统的隐式表示，转变为可解释、可组合的生成过程，为AI系统在客服、教育及内容生成等场景中的应用提供了新的技术路径。

更多>同类资讯

财报季多股业绩亮眼！A股公司一季度净利大增，锂电产业链迎新机遇

04-26

马里国防部长卡马拉遭袭丧生

04-26

杭州萧山地王项目奥映世纪首开86套房源，单日去化率超94%，揽金超20亿元

04-26

伊朗称美以伊战争导致伊朗3468人死亡 34060人受伤

04-26

伊朗总统指示伊央行智能管理流动性保护本币币值

04-26

中国自主建造最大LNG运输船交付由招商船舶海门基地建造

04-26

美媒：以色列在伊朗冲突期间向阿联酋提供了“铁穹”防御系统

04-26

九鼎投资：下修2025年净利润至亏损3.4亿元-3.7亿元股票可能被实施退市风险警示

04-26

中国智能眼镜市场爆发式增长

04-26

德力佳(603092.SH)一季度净利润2.13亿元，同比增长48.91%

04-26

航材股份(688563.SH)一季度净利润1.20亿元，同比下滑11.52%

04-26

吉林高速(601518.SH)一季度净利润1.15亿元，同比增长0.70%

04-26

中国版权协会：强化短剧「通知-删除」规则要求

04-26

富淼科技(688350.SH)一季度净利润1907.15万元，同比增长251.80%

04-26

龙溪股份(600592.SH)2025年净利润同比增长34.52%

04-26

点击查看更多 +

全站最新

小米汽车慕尼黑设欧洲研发中心 2027年携YU7 GT进军欧洲高端市场

奥迪再下“先手棋”：以新品牌新模式深耕中国市场能否突围？

务实创新双驱动岚图汽车：以用户需求为核心走稳发展路

魏牌V9X发布：归元S平台赋能，年内开启欧亚及中东市场新征程

2026北京车展捷途汽车焕新登场双品类矩阵开启旅行生活新篇章

鸿蒙智行“破圈”年轻市场：设计革新、价格下探与明星营销齐发力

热门内容

本栏最新

CW激光器破局：光芯片产业壁垒如何重塑？

千亿液冷龙头，翻车了

楼市，觉醒了？

特朗普紧急召开记者会，有记者问“为何枪击事件总发生在您身上？”

互联网裁员浪潮中，掌握项目管理技能为何成了“保命符”？

全球领跑，智启新程｜比亚迪亮相2026北京车展

本网站LOGO小熊标志受版权保护，版权登记号：鲁作登字-2015-F-025467，未经ITBEAR比尔科技官方许可，严禁使用。
声明：本网站是公益性科普网站，为网友提供科技类资讯内容，无障碍技术由太阳湾捐增，为阅读障碍用户提供内容听读服务。如本站内容侵犯了您的权利，请通知我们及时删除。
中国（山东）自由贸易试验区鲁ICP备11015305号-1 联系入口
Copyright © 比尔科技 2007-2024 ITBEAR.COM.CN All rights reserved.