滚动资讯

当前位置：首页 > 资讯 > 人工智能 > 正文内容

从“凭感觉”到“凭证据”：Bayesian-Agent让AI智能体经验积累更靠谱

时间：2026-06-15 23:02:58 来源：互联网编辑：快讯 IP：北京 发表评论无障碍通道

人工智能领域的研究者们正试图解决一个关键问题：如何让AI智能体像经验丰富的医生一样，从每一次任务中积累真正可靠的经验，而非依赖粗糙的“试错计数”。由香港科技大学（广州）、IDEA研究院与DataArcTech联合提出的一项新研究，通过引入贝叶斯统计方法，为AI智能体构建了一套可验证、可追溯的“经验进化”框架，相关成果以预印本形式发布，论文编号为arXiv:2606.08348。

传统AI智能体的“经验积累”方式存在明显缺陷。它们往往通过简单统计成功或失败的次数来调整行为，或依赖模型自身对执行过程的主观反思。这种模式类似于实习医生仅记录“今天治好了几个病人”，却未深入分析失败原因，也未建立系统的诊断逻辑。研究团队指出，随着AI智能体的“工作环境”——即包含记忆、操作规程和技能包的“推理环境”——日益复杂，技能库中混杂着有效方法、偶然成功、过时经验甚至错误操作，导致AI在修复问题时可能引入新错误，形成“把失败外包给工具”的困境。

为突破这一瓶颈，研究团队提出了“Bayesian-Agent”框架，其核心是将每个AI技能视为待验证的假设，通过外部验证器记录任务执行的完整轨迹，包括结果、资源消耗、失败原因等客观数据。这些数据经特征提取后转化为结构化标签，例如任务场景、失败模式、计算量区间等，形成类似医院病历的分类系统。框架为每个技能维护一个动态更新的“置信度模型”，初始时保持中立，随着证据积累逐步精化成功或失败的概率估计。例如，一个技能在处理某类任务时连续失败三次，系统会降低其置信度；若在另一场景中多次成功，则提升其权重。

基于置信度模型，框架设计了五种保守的操作策略：当技能缺乏历史数据时触发“探索”，优先积累证据；同一失败原因重复出现时“打补丁”，将错误模式转化为具体操作提醒；技能被用于差异较大的场景时“拆分”，将其分解为专项技能；稳定可靠的技能“压缩”，删除冗余描述；失败率过高时“退役”，标记为不可靠。这些操作均以“证据充分性”为前提，避免因数据不足导致误判。例如，系统不会因单次差评大幅修改技能，但若十个用户均指出同一问题，则会果断调整。

为确保AI能直接理解技能更新，框架将后台的贝叶斯统计结果转化为可执行指令。例如，置信度数字仅供研究人员审查，而AI收到的技能说明会明确标注“执行完毕后需检查出口文件是否存在”，而非“根据500次实验，此步骤成功率为0.87”。这种设计既保留了统计严谨性，又符合AI的实际执行需求。

研究团队在三个测试平台上验证了框架的有效性。在“SOP-Bench”工业操作规程测试中，使用轻量级DeepSeek模型的基础系统通过率为80%，开启全量模式后提升至95%，增量修复模式以仅15.3万个计算单元的额外消耗，将通过率同样提升至95%。在“Lifelong AgentBench”连续任务测试中，基础系统完成90%任务，全量模式表现略有下降至85%，但增量修复模式以8.4万个计算单元的代价修复了全部失败案例，实现100%通过率。在难度最高的“RealFin-Bench”金融推理测试中，基础系统解决45%任务，全量模式提升至52%，增量修复模式进一步达到65%，相当于从22个失败案例中抢救回8个。

框架的兼容性也得到验证。研究团队将其应用于四种不同的执行后端，包括原生引擎、GenericAgent系统、mini-swe-agent代码任务系统和Claude Code系统。结果显示，只要后端能输出执行轨迹并接受技能文本注入，Bayesian-Agent均可运行。例如，Claude Code配合轻量级DeepSeek模型在SOP-Bench上的基础通过率为90%，全量模式提升至100%；RealFin-Bench上基础通过率77.5%，增量修复后达87.5%，从9个失败案例中修复4个。换用更强模型时，SOP-Bench基础通过率仅65%，全量模式已提升至95%，增量修复后达100%，7个失败案例全部被修复。

研究团队还公开了技能进化的完整记录。在SOP-Bench的一道任务中，系统记录到某技能三次触发“输出内容为空”的失败模式，随后在技能说明中添加补丁：“执行完毕后必须重新读取目标文件，确认目标格式栏不为空；若为空，需补写计算结果再结束任务。”AI重新执行后成功输出正确标签，失败模式观察计数更新为4次，补丁保持激活。在Lifelong AgentBench的SQL任务中，系统先压缩技能说明以保持精简，后因两次失败发现AI误将工作流日志写入答案文件，追加补丁：“仅写一条可执行的SQL语句到指定文件，禁止写入日志或格式标记。”

尽管成果显著，研究团队也明确了框架的适用边界。它最适合任务有客观验证标准、失败原因可归纳、同类任务重复执行的场景，如工业规程、数据库操作和金融分析。对于一次性任务、主观判断类任务（如创意写作）、高度动态环境或失败根源在于工具缺失的情况，框架效果有限。技能进化并非单调向好——全量模式在证据不足时可能导致成绩下降，印证了贝叶斯理论中“数据量越少，推断不确定性越高”的原则。

为确保伦理合规，框架保留了完整的审计记录，所有技能变化均可被人类检查和干预，避免AI因追求目标而变得“固执”。研究团队强调，该框架的目标不是创造更聪明的AI，而是让现有AI在使用一段时间后变得更可靠、可预测和可解释。目前，框架覆盖的执行后端仍有限，贝叶斯模型也较为简化。未来研究将探索更复杂的决策策略、扩展更多后端兼容性，以及实现不同AI系统间技能置信度信息的共享。更多技术细节可查阅论文编号arXiv:2606.08348。

更多>同类资讯

AI早有"自知之明"？新研究唤醒模型沉睡能力，用极简数据实现精准自我评估

06-15

豪恩汽电：与英伟达合作开发机器人大脑控制系统，产品尚在开发阶段

06-15

AI处理长文本迎新突破：潜在上下文模型让速度飙升，内存占用锐减

06-15

费城半导体指数6月15日高开英伟达等多只成分股股价显著上扬

06-15

深圳国际眼镜设计大赛落幕：以创新平台引领AI眼镜设计新风潮

06-15

理想汽车下半年马赫VLA进化：Mind系列模型赋能，第四季度对标特斯拉FSD V14

06-15

IC载板迎爆发拐点，兴森科技凭技术产能出海“三板斧”业绩狂飙

06-15

吴世春：教学相长，6月26日带创业者参访深圳两家代表性企业

06-15

OpenAI斥资1. 5 亿美元启动合作伙伴网络，全面加速企业AI转型

06-15

蚂蚁阿福试水"AI+医生"模式:AI回答可由医生把关 15%用户会选择

06-15

上海交大等团队推出 SWE-Explore 基准测试，揭示 AI 编码智能体行级定位缺陷

06-15

烧钱不止，AI大模型厂商陷入“订阅困局”

06-15

蚂蚁集团正秘密测试“AI版支付宝”，智能体助手或成未来核心

06-15

雨果奖作家新书惹争议！主动承认AI写作比重竟占一半

06-15

全渠道销量夺冠！千问AI眼镜引爆智能穿戴新风口

06-15

点击查看更多 +

全站最新

启境汽车获广州L3级自动驾驶路测许可携手华为乾崑共推智能出行新发展

宇树机器人“Pemba”挑战雪山：从钦博拉索起步珠峰之行待启新篇

支付宝政务AI“晓政”服务超1亿次，助力政务升级让群众办事更便捷高效

雷军用小米YU7 GT装车厘子引争议，回应称在封闭实验场内分装运输

雷军小米YU7装600斤车厘子引争议，回应称在封闭道路分装，交警谈公共道路规定

雷军武汉街头品味热干面：重温求学时光，直言味道如初几十年未改

热门内容

本栏最新

享界G9强势入局9系旗舰SUV赛道，北汽蓝谷业绩增量与估值提升可期

2026重庆车展：特斯拉携前沿科技与全场景生态，助力山城智能出行新体验

通用汽车拟推车网互动技术：让电动汽车“兼职”供电，硬件成本成推广拦路虎

MG 4X苏皖动态评鉴会收官：硬核实力圈粉，技术平权引领9万级纯电新风潮

特斯拉重庆车展“亮剑”：智能汽车、机器人与补能网络共筑AI生态

理想汽车智源大会亮剑：自研马赫M100芯片破解AI推理难题性能跃升

本网站LOGO小熊标志受版权保护，版权登记号：鲁作登字-2015-F-025467，未经ITBEAR比尔科技官方许可，严禁使用。
声明：本网站是公益性科普网站，为网友提供科技类资讯内容，无障碍技术由太阳湾捐增，为阅读障碍用户提供内容听读服务。如本站内容侵犯了您的权利，请通知我们及时删除。
中国（山东）自由贸易试验区鲁ICP备11015305号-1 联系入口
Copyright © 比尔科技 2007-2024 ITBEAR.COM.CN All rights reserved.