滚动资讯

当前位置：首页 > 资讯 > 人工智能 > 正文内容

清华等高校提出OPID框架，让AI从“只看结果”到“善学过程”

时间：2026-07-01 00:24:18 来源：互联网编辑：快讯 IP：北京 发表评论无障碍通道

在人工智能领域，训练具备复杂任务处理能力的智能体始终面临重大挑战。最新研究显示，由多所顶尖高校联合开发的OPID训练框架，通过创新性的技能提取机制，成功突破了传统强化学习在长程决策任务中的效率瓶颈。这项突破性成果已在预印本平台发布，编号为arXiv:2606.26790，为智能体训练提供了全新思路。

传统强化学习方法存在显著局限性。以GRPO算法为代表的现有技术，在训练智能体时仅提供最终成败的二元反馈，如同指导快递员时仅告知包裹是否送达，却不指出具体路线错误。这种模式导致AI在需要连续决策的复杂任务中，难以理解早期失误与最终结果的因果关系。例如在虚拟家居环境中，AI可能在第5步拿错物品，直到第25步才发现错误，传统方法无法建立这种延迟反馈的关联。

研究团队提出的OPID框架创造性地引入"经验复盘"机制。该系统首先让AI自主完成完整任务轨迹，随后通过大语言模型分析器提取双重技能：情节级技能总结全局工作流程，如"定位-清洗-放置"的标准化流程；步骤级技能则聚焦关键决策点，指出"第2步应直接检查储物台而非库存"等具体改进建议。这种分层指导模式，既提供宏观框架又确保关键节点的精准干预。

技术实现层面，OPID采用独特的"关键优先路由"机制。系统自动识别任务轨迹中的3-4个关键决策点，在这些节点注入步骤级技能指导，其余步骤则采用情节级技能作为默认指引。实验表明，这种选择性干预策略比全面密集指导更有效，避免了信息过载导致的决策混乱。在技能信号转化环节，系统通过比较原始历史记录与技能增强记录的预测概率差异，生成逐词级别的精细反馈信号。

实证研究覆盖三大典型场景：文字版家居模拟ALFWorld、电商购物平台WebShop以及搜索增强问答系统。测试结果显示，OPID训练的智能体在各项任务中均表现优异。以30亿参数模型为例，在ALFWorld任务成功率达84.3%，较传统方法提升9.3个百分点；在WebShop平台成功率达74.2%，提升10.9个百分点。特别值得注意的是，17亿参数的小模型在WebShop任务中成功率从38.3%跃升至64.8%，提升幅度达26.5个百分点。

与传统方法相比，OPID展现出显著优势。在依赖外部技能库的Skill-GRPO方法测试中，移除技能辅助后模型性能暴跌11.7-25个百分点，而OPID训练的模型在完全无外部支持的情况下仍保持稳定表现。这种内生性学习能力在陌生环境测试中得到验证，OPID智能体在未见过的环境配置中成功率达78.6%，超出传统方法7.7个百分点，证明其真正掌握了可迁移的行为模式。

具体案例分析生动展示了技术差异。在"清洗铲子并放置餐桌"任务中，传统方法训练的AI在第10步突然转移目标，花费大量步骤清洗无关勺子最终失败；而OPID训练的AI严格遵循"定位-取物-清洗-放置"的标准流程，仅用6步高效完成任务。这种目标导向的稳定表现，源于技能指导对决策过程的持续校正。

该研究对AI实际应用具有重要价值。OPID框架完全在训练阶段内化经验，执行任务时无需任何外部支持，避免了推理阶段的额外计算开销。数据效率测试显示，使用60%训练数据即可达到传统方法满数据训练效果，在低数据场景下优势更为突出。这种特性使其特别适合资源受限的边缘设备部署，为智能体技术的产业化应用开辟了新路径。

针对技术细节的疑问，研究团队明确指出：OPID训练的AI在执行阶段完全依靠内化能力，无需任何技能描述支持；情节级技能与步骤级技能形成互补，前者提供全局框架，后者确保关键决策精准；小模型提升显著的原因在于其更需要来自轨迹的密集指导来弥补经验短板。这些特性共同构成了OPID框架的核心竞争力。

更多>同类资讯

英加两校联手打造AI“算盘”：让机器数数像人类一样精准可靠

07-01

AI生成大提速！UCSD等团队提出JETSPEC方法，破解大模型逐字生成瓶颈

07-01

中昊芯英“须臾®”芯片亮相泰则®2.0智算平台同步升级性能

07-01

强化学习致AI工具调用崩溃？中科院自动化所给出修复新策略

07-01

上海创智学院携手穹彻智能共建联合实验室共育具身智能全栈人才

07-01

复旦大学新突破：机器人学会“自主探索” 适应新环境更高效

07-01

最高近百万的“赛博伴侣”来袭，是科技新宠还是昂贵“玩具”？

07-01

自变量机器人推出X-Tokenizer：重新定义VLA动作离散化新问题

07-01

优必选Cruzr Y1工业人形机器人亮相，旭日芯片助力工业场景能力升级

07-01

OpenAI系统底层优化显成效：AI模型推理成本大幅削减超五成

07-01

AI编程工具“重量级”进化：Codex流量硬盘双飙升，轻与重何去何从？

07-01

邬贺铨院士：2026年工业互联网迈入智能体新阶段，聚焦三大瓶颈与协同发展

06-30

Momenta港股招股引关注，智能驾驶竞争白热化谁能突围？

06-30

邮储银行原行长刘建军谈AI：破除“AI焦虑”需厘清三大认知误区

06-30

GLM-5.3新版本怎么搞？智谱唐杰全球问策，网友齐呼：快补视觉短板！

06-30

点击查看更多 +

全站最新

REDMI K90至尊版来袭！狂暴双芯+超强散热，2999元起开启游戏新体验

雷军谈小米SU7 Ultra纽北表现：立志打造比肩保时捷特斯拉的梦想座驾

织密算力网络郑州打造全国算力“数纽”赋能数字中国建设

鸿蒙智行智界V9旗舰MPV受热捧 6月交付量突破5000台大关

14个月10万辆达成，东风日产以体系力破局新能源市场

现代汽车或效仿丰田：主流车型加速混动转型，纯燃油车渐行渐远

热门内容

本栏最新

织密算力网络郑州打造全国算力“数纽”赋能数字中国建设

AI产业下半场：技术创新与产业落地融合下的五大趋势与机遇洞察

15万级荣威家越07将至，AI座舱与智驾升级，能否成家用SUV新宠？

华为极简全闪数据中心2.0：以数智之力，赋能千行百业数智化跃迁

世优科技赋能教育：数字人、动作捕捉与VR课堂共绘智慧校园新图景

晟兴电话机器人助力资料补全：小步试跑精准优化，让人机协作更高效自然

本网站LOGO小熊标志受版权保护，版权登记号：鲁作登字-2015-F-025467，未经ITBEAR比尔科技官方许可，严禁使用。
声明：本网站是公益性科普网站，为网友提供科技类资讯内容，无障碍技术由太阳湾捐增，为阅读障碍用户提供内容听读服务。如本站内容侵犯了您的权利，请通知我们及时删除。
中国（山东）自由贸易试验区鲁ICP备11015305号-1 联系入口
Copyright © 比尔科技 2007-2024 ITBEAR.COM.CN All rights reserved.