人工智能训练领域迎来一项突破性进展。由武汉大学、国防科技大学、南洋理工大学及AGH科拉科夫大学学者组成的跨学科团队,联合字节跳动公司研发出新型训练框架MAPO(混合优势策略优化),有效解决了大型语言模型推理训练中的评分偏差难题。相关研究成果已发表于arXiv预印本平台(论文编号:arXiv:2509.18849v3)。
研究团队发现,当前主流的GRPO(组相对策略优化)训练方法存在根本性缺陷。该技术通过比较多个解题思路的优劣来指导模型学习,但采用"一刀切"的评分标准——无论题目难易,均使用相同的评价体系。这种模式导致两个典型问题:一是"优势反转"现象,即简单题目的偶然错误被过度惩罚;二是"优势镜像"现象,本质不同的问题(如全员正确与全员错误)获得对称评分。
针对上述缺陷,MAPO框架创新性引入"轨迹确定性"评估机制。该指标通过分析模型多次尝试的表现稳定性,将问题划分为高确定性(简单或极难)和低确定性(能力边界)两类。对于高确定性问题,系统采用"优势百分比偏差"评分法,重点考察答案质量相对于群体水平的比例关系;对于低确定性问题,则延续传统标准化评分。
技术实现层面,MAPO构建了动态权重调节系统。当模型在特定问题上的正确率接近50%时,系统自动增强传统评分方法的权重;当正确率趋近0%或100%时,则优先采用百分比偏差法。这种自适应机制通过数学公式精确控制两种评分方式的混合比例,确保评价标准始终与问题难度相匹配。
实验验证环节,研究团队选用Qwen2.5-VL-7B多模态大语言模型,在几何推理和情感识别两个不同领域展开测试。几何任务要求模型分析图形计算答案,情感任务则需判断图像中的情绪类别。结果显示,MAPO训练使几何任务准确率从51.91%提升至54.41%,情感任务准确率从77.20%提升至77.86%。更重要的是,新方法显著增强了模型处理未知问题的泛化能力。
理论分析表明,MAPO的评分权重分配符合认知科学规律。该方法自动为困难问题分配更高学习权重,为简单问题分配较低权重,这种"难者重教,易者轻训"的策略与人类教育中的因材施教原则高度契合。数学推导证实,该框架在收敛性和稳定性方面具有显著优势。
这项创新具有双重价值:技术层面,MAPO无需改造现有模型架构或增加计算资源,可无缝集成至现有训练流程;理念层面,其"自适应学习"思想为AI发展开辟新路径。研究团队在数学和情感两个完全不同领域的成功验证,证明该方法具有广泛适用性。
值得注意的是,MAPO的设计理念折射出人工智能向人类学习模式的演进趋势。人类在学习过程中会自然根据任务难度调整策略,而MAPO首次使AI系统具备这种动态调节能力。不过研究也指出,当前成果主要基于中小规模实验,未来需在更大模型和数据集上验证;同时,轨迹确定性判断机制和跨领域扩展性仍有优化空间。