ITBear旗下自媒体矩阵:

清华深研院新突破:AI推理告别“非此即彼”,探索利用双提升

   时间:2025-10-22 22:17:27 来源:互联网编辑:快讯 IP:北京 发表评论无障碍通道
 

当大型语言模型处理复杂问题时,常面临一个关键抉择:是广泛尝试多种解法(探索),还是依赖已有经验(利用)?传统认知中,这两者如同天平两端,只能选择其一。但清华大学深圳国际研究生院联合加州大学洛杉矶分校、深圳技术大学的研究团队,通过一项创新研究颠覆了这一观念。他们发现,在模型内部的深层语义空间中,探索与利用并非对立,而是可以协同增强。该成果以论文形式发表于预印本平台arXiv(编号:arXiv:2509.23808v2),为AI推理能力提升开辟了新路径。

研究团队将视角从“输出词汇”转向“思维过程”,聚焦模型处理问题时的隐藏状态——这些未被直接观察的语义表征,如同人类思考时未说出口的想法。通过引入“有效排序”这一数学工具,他们量化了模型在语义空间中的探索行为。与传统矩阵排序仅统计维度数量不同,有效排序能分析维度的“质量分布”,就像评估探险路线时不仅看数量,还要看路线是否均衡利用。

基于有效排序,研究团队进一步提出动态指标:有效排序速度衡量信息获取效率,反映利用能力;有效排序加速度则捕捉信息获取速度的变化趋势。正值表示思维活跃度增加,负值意味着推理趋于停滞。实验发现,正确推理路径中,有效排序加速度始终保持较高值,而错误路径往往同时出现高探索和高利用指标,表明过度探索与过度信息获取可能导致推理偏离正确方向。

这一发现彻底改变了传统训练方法的设计思路。研究团队开发的VERL(速度利用排序学习)方法,通过实时监控隐藏状态的动态演化,利用有效排序加速度作为“智能调度器”。当模型可能过度自信时,系统增强探索激励;当推理可能停滞时,则加强利用奖励。这种双通道激励机制如同为AI安装了双引擎,既能预防错误,又能巩固有效推理。

VERL的创新不仅在于机制设计,更在于其稳定性保障。由于有效排序加速度具有理论上的O(1)增长稳定性,它为训练提供了可靠的指导信号。实验中,VERL在多种语言模型和数学推理基准测试中均表现出色。以Llama-3.2-3B-Instruct模型为例,在AIME24数据集上,应用VERL后准确率从3.3%提升至13.3%;在高考2024数据集这一高难度测试中,准确率提升达21.4%。

在Pass@k测试中,VERL的优势更为突出。这类测试要求模型生成多个解答,只要有一个正确即算成功。VERL训练的模型在某些数据集上,Pass@k的改进幅度超过Pass@1,直接证明了其在增强探索能力方面的有效性。消融实验进一步验证,仅使用探索或利用相关项均无法实现稳定性能提升,只有两者结合才能持续改进。

实际应用案例生动展示了VERL的优势。在涉及负数比较的数学问题中,传统方法训练的模型错误认为-1小于-13,而VERL训练的模型能正确处理这类基础概念。在房屋计数应用题中,传统模型忽略约束条件,错误推断每条街道只有10栋房屋;VERL模型则正确理解约束,得出每条街道20栋房屋的结论。在微分方程求解中,传统模型常忽略“纯指数”约束,给出包含多项式和三角函数的通解;VERL模型则严格遵循要求,只给出符合条件的指数解。

VERL的成功源于对模型内部表征动态的深入理解。传统方法在词汇层面观察到的探索-利用权衡,在隐藏状态层面几乎消失。这是因为词汇输出是高度压缩的结果,而隐藏状态保留了更丰富的语义信息。在这个更丰富的表征空间中,模型有足够“空间”同时进行探索和利用。有效排序加速度作为元控制信号,能前瞻性地调节推理过程,引导模型走向更健康的推理路径。

这项研究不仅提出了有效的技术方法,更从根本上改变了对AI推理过程的理解。它挑战了探索-利用权衡的传统认知,开创了基于语义表征动态性进行模型优化的新范式。通过多尺度分析,研究团队获得了单一尺度分析无法提供的深层洞察,为AI系统的改进开辟了全新方向。VERL代表的“质量提升”型改进路径,在当前AI发展面临资源和环境约束的背景下,具有特殊意义。

Q&A

Q1:VERL方法与传统强化学习方法的核心差异是什么?

A:传统方法基于词汇层面分析,认为探索和利用只能二选一;VERL则深入语义表征空间,发现两者可解耦,并通过有效排序及其导数同时增强这两种能力,如同为AI配备智能双引擎。

Q2:为何有效排序加速度能作为可靠的控制信号?

A:该指标具有O(1)增长稳定性,不会因问题规模或序列长度变化而剧烈波动。正确推理路径中,此指标往往保持较高值,而错误推理中表现不佳,因此可区分推理质量并指导训练。

Q3:VERL方法的实际应用效果如何?

A:实验显示,VERL在多种数学推理任务中显著提升性能,高考2024数据集上准确率提升达21.4%。更重要的是,它不仅提高准确率,还增强推理多样性,使AI能使用更丰富的解题策略。

 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  争议稿件处理  |  English Version