ITBear旗下自媒体矩阵:

阿里通义WebSailor登顶开源网络智能体榜单,检索性能超越多项闭源模型

   时间:2025-07-07 20:26:20 来源:钱江晚报编辑:快讯团队 IP:北京 发表评论无障碍通道

在人工智能领域,一项新的突破正引发广泛关注。阿里巴巴旗下的通义实验室宣布,其自主研发的网络智能体WebSailor已在开源网络智能体榜单上登顶,超越了包括DeepSeek R1和Grok-3在内的多个知名模型和智能体。

WebSailor之所以备受瞩目,是因为它具备出色的推理和检索能力。面对高度复杂和线索模糊的任务,WebSailor能够主动在互联网中搜集信息,并通过多步推理和交叉验证,将分散的线索串联起来,从而得出准确的答案。这一能力在业界备受认可,尤其是在OpenAI发布的BrowseComp评测集上,WebSailor更是展现出了卓越的性能。

BrowseComp评测集包含了1266个高难度问题,旨在评测大模型和智能体的检索性能。这些问题不仅涉及的信息广泛且复杂,而且要求AI能够在海量的互联网内容中迅速定位并提取出关键信息。然而,尽管业界对此进行了大量的研究,但在此前数月内,尚无开源系统能够取得接近闭源模型的成绩。而WebSailor的出现,打破了这一僵局。

为了构建WebSailor,通义实验室付出了巨大的努力。他们首先合成了大量具有高度不确定性的复杂任务数据SailorFog-QA,并基于Qwen模型进行冷启动微调,让模型能够学习到超越人类的复杂推理模式。他们还提出了一种高效的强化学习算法DUPO,该算法基于双阶段动态采样策略,大幅提高了训练效率,使得WebSailor即使在密集工具交互的情境中也能快速迭代。

在BrowseComp评测集的实测中,WebSailor的表现令人瞩目。无论是WebSailor-32B还是WebSailor-72B,都在开源模型和智能体阵营中实现了断层领先,甚至超越了部分闭源模型,仅次于闭源的OpenAI DeepResearch。这一成绩不仅证明了WebSailor的卓越性能,也展示了通义实验室在人工智能领域的深厚实力。

WebSailor不仅在高难度任务上表现出色,在普通任务上的表现也同样卓越。在SimpleQA数据集上,WebSailor的表现超越了其他方法,展现出了极强的兼容性和有效性。这一结果进一步验证了WebSailor方法的泛化能力,也为其在未来的广泛应用奠定了坚实的基础。

今年以来,通义实验室已经开源了WebWalker、WebDancer和WebSailor三个检索和推理智能体,并且这三个智能体都取得了SOTA(State-of-the-Art)的成绩。这一系列的成果不仅展示了通义实验室在人工智能领域的创新能力,也为整个行业的发展注入了新的活力。

举报 0 收藏 0 打赏 0评论 0
 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  RSS订阅  |  开放转载  |  滚动资讯  |  争议稿件处理  |  English Version