滚动资讯

当前位置：首页 > 资讯 > 人工智能 > 正文内容

清华携手UCSD团队创新AI训练法OREO：助力AI解锁多步推理新技能

时间：2026-03-07 06:02:44 来源：互联网编辑：快讯 IP：北京 发表评论无障碍通道

清华大学与加州大学圣地亚哥分校等顶尖高校联合研发的全新AI训练方法OREO，近日在arXiv预印本平台发布论文（编号arXiv:2412.16145v2），为复杂推理任务训练提供突破性解决方案。这项创新通过模拟人类解题思维，使AI系统能够像学霸一样逐步分析问题，在数学竞赛级难题和智能体控制任务中展现出显著优势。

传统训练方法DPO（直接偏好优化）存在根本性缺陷：仅通过最终结果判断对错，如同只看考试成绩的老师，无法指出解题过程中的具体错误。研究团队发现，这种模式在处理需要多步骤的数学题或机器人控制任务时，会导致AI无法理解错误根源，更难以掌握关键推理步骤。例如在解方程时，DPO无法区分"设未知数"和"最终计算"哪个步骤更重要，而人类教师则会针对每个环节给予具体指导。

OREO的核心突破在于构建"双脑协作"系统：策略模型负责生成解题步骤，价值函数实时评估每个步骤的质量。这种设计类似同时培养解题专家和资深评委，使AI既能推导答案，又能自我诊断推理过程。在MATH数学竞赛数据集测试中，1.5亿参数的OREO模型达到52.5%准确率，远超同等规模传统模型的42%水平，甚至逼近某些70亿参数大模型的性能。

该方法的数学基础源自软贝尔曼方程理论，通过平衡当前收益与未来潜在收益，实现更精准的步骤价值评估。研究团队形象比喻：这就像围棋高手下棋时，既要考虑当前落子的局部优势，又要预判对整个棋局的影响。实验数据显示，在GSM8K小学数学数据集上，OREO将准确率从传统方法的72.1%提升至77.3%，提升幅度达5.2个百分点。

智能体控制任务验证进一步凸显OREO优势。在模拟家庭环境的ALFWorld测试中，经过OREO训练的虚拟机器人面对未见过的清洁任务时，成功率较传统方法提升17.7%。这种泛化能力的提升，源于价值函数帮助AI掌握了"先整理桌面再清扫地面"等通用策略，而非机械记忆特定场景的操作步骤。

技术实现层面，研究团队开发了三种OREO变体：词语级处理单个词汇，步骤级分析完整推理单元，响应级模拟传统方法。实验表明，前两种变体性能相当且显著优于第三种，证明细粒度信用分配对提升推理能力至关重要。通过"停止梯度"技术防止两个模型相互干扰，确保训练稳定性。

价值函数的独特价值不仅限于训练阶段。在推理过程中，该函数可引导AI进行"树搜索"：面对复杂问题时，系统会生成多个解题路径，通过价值函数评估选择最优方案。这种机制在MATH数据集测试中带来17.9%的性能提升，相当于每10道难题能多解对近2道。

与传统方法依赖配对偏好数据不同，OREO可直接利用未标注的推理轨迹进行训练。研究团队通过为每个问题生成10-16个回答，并根据最终答案正确性分配奖励，有效解决了复杂任务数据标注难题。在70亿参数大模型训练中，采用LoRA技术仅更新1/50参数，在保持性能的同时将计算资源消耗降低80%。

对比实验显示，OREO在迭代训练中呈现持续改进特性。经过三轮训练，数学推理准确率稳步提升，而传统拒绝采样方法在第三轮即出现性能饱和。这种差异源于OREO能从失败案例中提取价值信息，就像优秀教师会分析错题原因，帮助学生建立更全面的知识体系。

显式价值函数与隐式价值函数的对比研究揭示关键发现：专门训练的价值函数在评估推理步骤时，对错误识别的敏感度是隐式方法的近3倍。这种优势在涉及多步代数运算的MATH问题中尤为明显，证明独立的价值函数模块能更精准捕捉关键转折点。

该方法已展现跨领域应用潜力。在代码生成任务中，价值函数可评估每个编程步骤的质量；在科学推理场景下，能帮助AI规划实验设计路径；对话系统中则可优化多轮交互策略。研究团队强调，OREO的核心思想不依赖特定模型架构，具有广泛的适应性。

技术实现细节彰显工程智慧：通过动态内存分配处理变长推理轨迹，采用梯度检查点技术优化内存使用，设计自适应序列长度处理机制。这些创新使OREO在保持理论优势的同时，具备实际工程应用的可行性。完整技术细节可通过arXiv论文编号arXiv:2412.16145v2查询。

更多>同类资讯

深圳前海中碳发布“艾博士”：AI赋能建筑能源管理开启新篇章

日前，在2026澳门国际环保合作发展论坛及展览大会“无废城市AI解决方案工作坊——从技术验证到全域推广的实践路径”活动现场，深圳前海中碳综合能源科技有限公司（以下简称“中碳能源”）对外发布深度融合AI与建筑…

03-31

企业微信CLI开源上新：七大核心能力开放，助力AI Agent变身“数字员工”

03-31

DeepSeek服务中断后全面恢复：两次紧急修复确保用户正常使用

03-31

爱奇艺纳逗Pro开启预商用：AI赋能影视创作，引领行业效率新变革

03-31

欧洲AI发力追赶！Mistral AI获83亿债务融资购1.38万片芯片建算力中心

03-31

爱奇艺拟赴港交所二次上市 2025年会员收入168.1亿海外业务增长强劲

03-31

东风汽车全球设计中心启用 24小时协同设计引领全球化设计新篇章

03-31

东风汽车全球设计中心启用 “东方风韵”设计哲学引领中国汽车文化出海新征程

03-31

紫金星宇依托紫金山实验室推出“空天地”三大产品助力数字基建

03-31

AMD再发力：双V-Cache加持的Ryzen 9 9950X3D2处理器强势登场

03-31

合作30年却无合同？黄仁勋揭秘英伟达与台积电独特合作模式

03-31

43.80万起售！全新坦克700携双动力与VLA智驾系统开启预售之旅

03-31

玉柴携全球首创混合动力与飞轮增程系统赋能农业现代化绿色升级

03-31

词元成AI时代新基石：两年调用量增千倍，投资机遇如何把握？

03-30

汇川技术拟赴港IPO牵手四大投行募资或达138亿业务发展受关注

03-30

点击查看更多 +

全站最新

2026款丰田海狮北京4S店有售！7座配置拉满科技舒适安全一步到位

东风汽车全球设计中心启用 24小时协同设计引领全球化设计新篇章

大通皮卡新品来袭！星际L等多款车型亮相，首创“7天先试后买”革新购车体验

长安蓝鲸超擎混动：打破传统逻辑，开启油电交融新体验，引领新燃油时代

比亚迪2025年报：营收创新高净利下滑，研发出海双驱动布局未来

东风汽车全球设计中心启用 “东方风韵”设计哲学引领中国汽车文化出海新征程

热门内容

本栏最新

东风汽车全球设计中心启用 24小时协同设计引领全球化设计新篇章

东风汽车全球设计中心启用 “东方风韵”设计哲学引领中国汽车文化出海新征程

玉柴携全球首创混合动力与飞轮增程系统赋能农业现代化绿色升级

华沿机器人成功登陆港交所市值超百亿港元全球及国内市场地位显著

长城汽车2025年营收创新高，高端化布局与研发投入共促稳健增长

中联重科“巨无霸”起重机亮相随州，核心技术突破助力智能工厂高效生产

本网站LOGO小熊标志受版权保护，版权登记号：鲁作登字-2015-F-025467，未经ITBEAR比尔科技官方许可，严禁使用。
声明：本网站是公益性科普网站，为网友提供科技类资讯内容，无障碍技术由太阳湾捐增，为阅读障碍用户提供内容听读服务。如本站内容侵犯了您的权利，请通知我们及时删除。
中国（山东）自由贸易试验区鲁ICP备11015305号-1 联系入口
Copyright © 比尔科技 2007-2024 ITBEAR.COM.CN All rights reserved.