ITBear旗下自媒体矩阵:

苹果杜克联手突破!AI交错推理让Qwen2.5模型响应飙升80%

   时间:2025-05-30 15:10:31 来源:ITBEAR编辑:快讯团队 发表评论无障碍通道

近期,苹果公司与杜克大学的一项合作研究引起了科技界的广泛关注。这项研究提出了一种名为交错推理的全新强化学习方法,旨在增强大语言模型的推理能力。

在以往,大型语言模型在处理复杂的多步骤问题时,通常采用一种线性的推理方式,即先完成整个推理过程,再给出答案。然而,这种方式存在明显缺陷:一方面,它导致了较长的响应时间,无法满足即时交互的需求;另一方面,一旦推理过程中的某个环节出错,最终答案的准确性也会大打折扣。

与人类的对话习惯不同,语言模型往往不会在推理过程中分享任何中间想法,而是等待全部推理完成后再一次性输出结果。这种“闭门造车”的方式,无疑降低了模型的效率。

为了克服这一难题,苹果与杜克大学的研究人员共同研发了交错推理技术。这一技术允许模型在推理过程中交替进行内部计算和输出中间答案,从而极大地提升了速度和实用性。

交错推理技术基于强化学习框架,采用了一种特殊的训练模板,其中包含了特定的标签,以确保模型在关键推理节点上能够输出中间结果。研究团队还设计了一套基于规则的奖励机制,包括格式正确性、最终答案准确率和条件性中间准确率,以引导模型注重整体推理的准确性。

在实际测试中,交错推理技术在Qwen2.5模型(包括1.5B和7B参数版本)上取得了显著成效。与传统方法相比,响应速度提升了超过80%,准确率也提高了高达19.3%。更令人瞩目的是,该方法仅在问答和逻辑数据集上进行了训练,却能够在MATH、GPQA、MMLU等更具挑战性的基准测试中展现出强大的泛化能力。

研究团队还尝试了多种奖励策略,如全或无奖励、部分积分奖励和时间折扣奖励等。实验结果表明,条件性和时间折扣奖励策略的效果最佳,显著优于传统奖励方法。

举报 0 收藏 0 打赏 0评论 0
 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  RSS订阅  |  开放转载  |  滚动资讯  |  争议稿件处理  |  English Version