ITBear旗下自媒体矩阵:

通义实验室提出生成式奖励模型P-GenRM

   时间:2026-03-18 02:24:08 来源:鞭牛士编辑:快讯 IP:北京 发表评论无障碍通道
 

AIPress.com.cn报道

3月17日消息,通义实验室自然语言智能团队提出了一种面向开放域场景的个性化生成式奖励模型P-GenRM,并入选ICLR 2026Oral。该方法旨在解决传统奖励模型难以适应用户多样化偏好的问题,为AI系统提供更具动态适配能力的对齐机制。

在现有方法中,奖励模型通常依赖统一标准或静态偏好建模,对不同用户和场景的差异响应有限,尤其在新用户冷启动和复杂偏好表达方面存在不足。P-GenRM则引入生成式建模思路,将“评分”过程拆解为结构化的推理链条,包括用户偏好画像、评分标准设定以及逐项打分与汇总,从而将原本隐式的偏好建模转化为可解释的评估流程。

在训练方法上,研究团队采用分阶段策略,结合有监督微调与强化学习,使模型能够从显式与隐式偏好信号中推断用户需求,并在信息不完整情况下进行合理补全。同时,通过课程学习提升模型对复杂样本的判别能力。

在推理阶段,P-GenRM进一步引入测试时扩展机制,通过多次采样与相似用户参考相结合的方式,提高评分稳定性并缓解噪声影响。这一设计不仅增强了模型在低数据场景下的表现,也提升了对新用户的泛化能力。

实验结果显示,在个性化评测基准上,P-GenRM在较小模型规模下实现了对既有方法的性能超越,并在下游策略模型训练中带来显著的个性化对齐收益。相关结果表明,通过结构化生成与推理增强,奖励模型在个性化场景中的有效性得到提升。

整体来看,该研究将个性化对齐从传统的隐式表示,转变为可解释、可组合的生成过程,为AI系统在客服、教育及内容生成等场景中的应用提供了新的技术路径。

 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  争议稿件处理  |  English Version