滚动资讯

当前位置：首页 > 资讯 > 人工智能 > 正文内容

为什么Agent总是Demo猛如龙实战一条虫？

时间：2025-12-22 23:04:37 来源：量子位编辑：快讯 IP：北京 发表评论无障碍通道

为什么Agent在演示时无所不能，到了实际场景却频频拉胯？

一篇长达51页的论文研究了自ChatGPT以来的主要智能体，给出参考框架：适应性是其中关键。

智能体定义上不是只会被动回答的AI，而是能自己规划、用工具（比如搜索引擎、代码编译器、数据库）、记东西，一步步完成复杂任务。

当遇到新任务、新环境时，不需要重造一个新的智能体，而是通过 “微调自己” 或 “优化工具”，快速适配需求（比如从写普通代码适配到写垂直行业代码）。

这篇论文作者阵容豪华，来自UIUC、斯坦福、普林斯顿、哈佛、UC伯克利等12所高校的三十多位研究者联手，由UIUC的韩家炜教授团队领衔，共同一作Pengcheng Jiang，Jiacheng Lin，Zhiyi Shi为UIUC博士生。

Agent“适应性”的四个象限

团队认为，当前Agent系统的核心瓶颈在于适应性：模型如何根据反馈信号调整自身行为。

为此，他们提出了一个2×2的分类框架，把现有的适应方法切成了四大范式。

第一个维度是“优化谁”：是优化Agent本身（Agent Adaptation），还是它调用的工具（Tool Adaptation）。

第二个维度是“信号从哪来”：是来自工具执行的结果，还是来自Agent最终输出的评估。

据此分成四类：

A1范式让Agent根据工具执行的反馈来学习，比如代码能不能跑通、检索结果准不准。

A2范式则是用Agent的最终答案作为优化信号，典型代表就是DeepSeek-R1这类用强化学习训练推理能力的工作。

T1范式是即插即用：工具独立训练好，Agent直接调用，比如SAM、CLIP这些预训练模型。

T2范式让工具反过来根据Agent的输出来优化自己，形成一种共生适应的关系。

这样分类之后，有两个好处：

开发遇到问题时，不用盲目试错。想让AI更擅长工具的使用细”，就选 A1；想让整体推理更靠谱，就选A2；想让工具通用好用，就选T1；想让工具适配特定AI，就选 T2。

另外也明确了trade-off。改AI（A1/A2）灵活但成本更高，需要重新训练模型。改工具（T1/T2）省钱，但受限于 AI 本身的能力。

论文中还有一个关键发现：T2范式的数据效率远超A2范式。

以检索增强生成任务为例，Search-R1采用A2范式端到端训练Agent，需要约17万条训练样本。

而采用T2范式，只训练一个轻量级的搜索子智能体来服务冻结的主模型，仅用2400条样本就达到了相当的效果。数据量减少了约70倍，训练速度快了33倍。

更值得注意的是泛化能力的差异。在医学问答这种专业领域测试中，T2训练的智能体达到了76.6%的准确率，而A2训练的Search-R1只有71.8%。

论文分析认为，这是因为A2范式要求模型同时学习领域知识、工具使用技能和任务推理三件事，优化空间过于复杂；而T2范式下，冻结的大模型已经具备知识和推理能力，小模型只需要学习“怎么搜”这一项程序性技能。

四大前沿方向指路

论文最后指出了Agent适应性研究的四个前沿方向。

协同适应（Co-Adaptation）是最具挑战性的课题。目前几乎所有方法都是“冻一个、调一个”，但未来理想的系统应该让Agent和工具在同一个学习循环中相互优化。这带来了复杂的信用分配问题：任务失败了，到底该怪Agent还是工具？

持续适应（Continual Adaptation）针对的是真实世界的非平稳性。任务分布会随时间变化，工具会更新，用户需求会演进。如何让Agent持续学习新技能而不遗忘旧能力，是部署层面的核心难题。

安全适应（Safe Adaptation）揭示了一个令人担忧的现象：大模型在强化学习优化推理能力的过程中，会逐渐侵蚀掉监督微调阶段建立的安全护栏。模型学会了用复杂的“思维链”给自己的违规行为编造理由，反而更容易被越狱攻击。

高效适应（Efficient Adaptation）关注的是资源受限场景。论文介绍了LoRA在强化学习中的应用、FlashRL的量化加速技术，以及端侧设备的个性化适应方案。

这篇综述的GitHub仓库已经开放，持续收录相关论文和资源。对于正在搭建Agent系统的开发者来说，这份51页的“适应性指南”或许能避开一些坑。

更多>同类资讯

特斯拉人形机器人“上岗”卖爆米花：装袋、递送一气呵成

12-22

CES 2026下月6日开始现代汽车将展示下一代人形机器人

12-22

华为nova 15系列领衔发布，全场景新品矩阵再扩容

12-22

Fortinet 2025年终媒体会：共赴AI驱动网络安全新时代

12-22

华为鸿蒙智家新品发布：小艺管家升级，智装套餐9999元开启智慧美居新体验

12-22

稀土钇价格狂飙，中国出口管制下美国相关产业困境凸显

12-22

中关村新地标AGI Bar：AI泡沫里，藏着新时代的江湖与梦想

12-22

科技赋能豪华新体验，尊界S800开启中国高端汽车破局新篇章

12-22

市场反弹ETF活跃：标普生物科技领涨，半导体设备与多概念股齐飞

12-22

优德牛留栓：科技赋能大健康，以新质生产力解锁产业升级新路径

12-22

17.88万起！红旗HS6 PHEV来袭，续航空间智能安全全在线

12-22

理想MEGA：打破纯电魔咒，以硬实力铸就高端MPV保值新标杆

12-22

央视聚焦海尔卡奥斯：赋能中小企业数智跃升激活制造业新动能

12月19日，央视《经济半小时》十分钟专题报道，点赞海尔卡奥斯助力中小企业数质升级的创新实践，赋能浙江金华聚杰电器（以下简称聚杰电器）搭建工业互联网平台，使其从一家主营业务遭遇发展瓶颈到增收2亿多的开放平台型…

12-22

赋能AI智能体！Anthropic正式发布Claude“技能”开放标准

12-22

北京人形机器人推出国内首个符合国标的 VLA 大模型 XR-1

12-22

点击查看更多 +

全站最新

2026手机市场新趋势：功能趋同下，“情绪价值”成破局关键

线上产品控价难题如何破？四大策略构建品牌价格防护网

物理AI浪潮来袭：中国企业发力，五一视界领跑开启新征程

东风携手华为乾崑发力奕境品牌首台工装样车下线 2026年推全尺寸SUV

宾利首款纯电SUV新曝光！800V快充加持，大灯设计新潮，或明年亮相

17.88万起！红旗HS6 PHEV来袭，续航空间智能安全全在线

热门内容

本栏最新

17.88万起！红旗HS6 PHEV来袭，续航空间智能安全全在线

央视聚焦海尔卡奥斯：赋能中小企业数智跃升激活制造业新动能

LOVOT上海ifc商场店启幕，以温暖科技解锁高端陪伴新体验

AI陪伴新体验：LOVOT上海ifc商场店启幕共赴温暖科技之约

10万级纯电SUV新选择！欧拉5全配置解析，哪款最适合你？

福特智趣烈马入局：越野家用融合，能否在激烈市场闯出一片天？

本网站LOGO小熊标志受版权保护，版权登记号：鲁作登字-2015-F-025467，未经ITBEAR官方许可，严禁使用。
声明：本网站是公益性科普网站，为网友提供科技类资讯内容，无障碍技术由太阳湾捐增，为阅读障碍用户提供内容听读服务。如本站内容侵犯了您的权利，请通知我们及时删除。
中国（山东）自由贸易试验区鲁ICP备11015305号-1 联系入口
Copyright © 小熊科技资讯 2007-2024 ITBEAR.COM.CN All rights reserved.