近日,阿里通义宣布了一项重大进展,其自主研发的网络智能体WebSailor成功问鼎开源网络智能体评测榜单。这款智能体凭借卓越的推理与检索能力,在BrowseComp这一高难度评测集中,力压DeepSeek R1、Grok-3等知名模型与智能体,展现了其强大的实力。
据了解,WebSailor的构建方案及部分数据集已在Github平台实现开源,为行业内的开发者与研究人员提供了宝贵的资源与参考。为了提升WebSailor对复杂网页信息的处理能力,通义团队采取了一套创新的训练方法,这套方法包含三大核心模块。
首先,“SailorFog-QA”模块被形象地称为“地狱级试炼场”。它通过模拟真实网页环境,构建复杂的信息图谱,并故意制造信息混淆,迫使模型跨越多个页面整合线索,以此来挑战并提升模型的认知极限。其次,“重构推理逻辑”模块则专注于优化模型的思考方式。通过摒弃冗长且重复的推理链,模型学会了更加简洁、直击重点的思考策略,从而显著提升了其思维的灵活性。
“强化学习DUPO算法”模块也是WebSailor成功的关键之一。该算法通过动态筛选高质量的训练样本,有效提高了模型的训练效率,使其相比传统方法提升了2至3倍。在权威评测平台BrowseComp的英文与中文榜单中,WebSailor均取得了优异的成绩。其中,WebSailor-72B在开源榜上独占鳌头,中文榜单中与豆包(Doubao-Search)不相伯仲,英文榜单更是超越了Grok-3等闭源模型。
WebSailor不仅在复杂任务中表现出色,在相对简单的任务如SimpleQA中同样展现出了卓越的性能。这一全面的能力表现,无疑为其在未来的广泛应用奠定了坚实的基础。