ITBear旗下自媒体矩阵:

OPPO AI新突破:"搜索多思考少"策略让AI智能体效率与准确率双提升

   时间:2026-02-28 23:52:09 来源:互联网编辑:快讯 IP:北京 发表评论无障碍通道
 

在人工智能研究领域,OPPO AI团队近期提出了一项突破性框架——SMTL(Search More, Think Less),该框架通过重构智能体的问题解决模式,为深度研究型AI系统开辟了新路径。与传统依赖长时间推理的智能助手不同,SMTL采用并行信息获取策略,将复杂任务分解为多个可同时执行的子任务,显著提升了处理效率与结果准确性。

研究团队将传统AI比作埋头苦思的学者,面对问题时往往需要逐步推导,而SMTL则被形容为经验丰富的图书管理员——通过同时派遣多个助手搜集信息,再快速整合结果。这种策略在BrowseComp基准测试中展现出显著优势:在最多100次交互内,平均推理步数减少70.7%,准确率从41.2%提升至48.6%。实验数据显示,SMTL-100模型仅需60.4步即可达到44.6%准确率,而同类模型MiroThinker-v1.0需要206步才能实现41.2%的准确率。

该框架的核心创新在于并行智能体工作流,其运作机制包含三个阶段:初始计划构建阶段将任务拆解为可并行处理的子目标;并行执行阶段通过多线程工具调用(如网络搜索与页面抓取)同步获取信息;动态计划完善阶段则根据实时反馈调整任务优先级。这种设计使系统每步平均执行3.5次工具调用,信息密度较传统方法提升3倍以上。研究团队特别强调,并行策略并非简单增加计算量,而是通过优化任务组织方式实现效率跃升。

训练过程采用两阶段策略:监督微调阶段使用蒸馏自DeepSeek-V3.2与GPT-5的轨迹数据,强化学习阶段则引入改进的REINFORCE Leave-One-Out算法。为解决训练-推理不匹配问题,团队对rollout校正应用序列级重要性采样,并过滤由环境问题导致的负面轨迹。奖励机制设计上,系统仅对正确答案分配奖励1,同时对工具调用格式错误实施零容忍策略,确保模型学习到高效的信息获取模式。

在深度搜索任务评估中,SMTL在BrowseComp、XBench-DeepSearch和WebWalker-QA等基准上均取得领先成绩。特别是在300步预算设置下,其准确率较基线模型提升5个百分点,达到48.6%。开放式研究评估显示,该框架在综合性、洞察力深度与指令遵循等维度表现均衡,总体得分45.9%超越多个30B规模开源模型。案例分析表明,SMTL能在8个交互轮次内定位关键证据,而顺序推理模型需要16轮次才能达到同等水平。

消融实验揭示了框架设计的关键要素:增加网络搜索的top-k参数(返回结果数量)可显著提升性能,当top-k从4增至8时,SMTL-300准确率提升7.7%;而传统模型依赖的交互步数扩展对成功案例影响有限,失败案例则与预算耗尽密切相关。这些发现印证了研究团队的假设——在长视野搜索中,扩展检索广度比增加推理深度更具效益。技术细节方面,SMTL通过溢出触发压缩方案管理上下文,采用目标条件摘要技术提升爬取效率,并设计双系统prompt分别支持不同任务类型。

该研究已开源代码、模型与数据集,为学术界提供完整的研究基础设施。实验结果表明,SMTL框架在保持结构化任务处理能力的同时,实现了推理成本与结果质量的双重优化。这种"以搜索为中心"的设计范式,为开发能够处理复杂现实问题的通用智能体提供了新思路,其并行信息整合机制尤其适用于需要多源数据验证的应用场景。

 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  争议稿件处理  |  English Version