通义实验室自然语言智能团队近期在开放域场景的个性化奖励模型领域取得突破性进展,其研发的P-GenRM模型凭借创新性设计入选国际顶级学术会议ICLR 2026的口头报告环节。该模型通过构建动态适配机制,有效解决了传统奖励模型在应对用户多样化需求时的局限性,为AI系统与人类偏好的精准对齐提供了全新解决方案。
传统奖励模型普遍采用统一评估标准或静态偏好建模方式,在处理复杂场景时暴露出明显短板。例如面对新用户冷启动或个性化需求表达时,现有技术往往因无法捕捉动态偏好特征而表现欠佳。研究团队通过引入生成式建模框架,将评估过程解构为三个核心模块:首先通过用户交互数据构建动态偏好画像,其次基于场景特征生成个性化评分标准,最终通过多维度打分与权重聚合形成综合评估结果。这种结构化设计使原本隐式的偏好判断转化为可追溯的推理链条。
在模型训练阶段,研究团队创新性地采用分阶段强化学习策略。初始阶段通过监督微调使模型掌握基础评估能力,随后引入强化学习机制,使模型能够从用户显性反馈和隐性行为模式中自主推断需求偏好。针对数据稀疏场景,团队设计了课程学习框架,通过渐进式增加样本复杂度的方式,显著提升了模型对边缘案例的判别能力。实验数据显示,该训练策略使模型在信息缺失情况下的需求补全准确率提升37%。
推理阶段的优化是该研究的另一亮点。研究团队提出的测试时扩展机制,通过结合蒙特卡洛采样与相似用户群体分析,有效降低了评估结果的方差。特别是在处理低资源用户时,该机制能够动态调整参考样本池,在保证评估稳定性的同时,将新用户适应周期缩短至传统方法的1/5。这种设计使模型在模型参数量减少40%的情况下,仍能在个性化基准测试中超越现有最优模型。
技术验证环节,研究团队在包含200万组多模态交互数据的测试集上进行了系统评估。结果显示,P-GenRM在客服对话质量评估、教育辅导方案推荐等任务中,个性化对齐指标较基线模型提升29%-42%。更值得关注的是,当模型规模缩减至原有方案的60%时,其性能表现仍保持领先优势,这为实际部署中的资源优化提供了重要参考。
该成果在工业界引发广泛关注。技术专家指出,将可解释的生成式推理引入奖励模型,不仅提升了评估过程的透明度,更为跨场景迁移学习开辟了新路径。目前,研究团队正与多家互联网企业合作,探索该技术在智能客服、个性化内容生成等领域的落地应用,相关代码与数据集已同步开源以推动学术交流。











