ITBear旗下自媒体矩阵:

蒙特利尔研究新突破:小模型也能“青出于蓝”,网页任务表现超越大模型

   时间:2026-04-18 05:26:59 来源:互联网编辑:快讯 IP:北京 发表评论无障碍通道
 

在人工智能领域,让AI自主完成网页任务一直是备受关注的研究方向。从日常的表格填写、数据库查询到电商平台浏览,这些看似简单的操作却消耗着人们大量时间。因此,具备自主网页操作能力的“网页智能体”应运而生。然而,当前能有效处理复杂网页任务的AI大多依赖付费API,如GPT-4o、Claude 3.5 Sonnet等,不仅成本高昂,还需将用户数据传输至第三方服务器,难以满足企业和个人对数据隐私保护及成本控制的需求。

相比之下,参数量较小的开源模型虽可在本地服务器或消费级显卡上运行,但在网页任务中的表现与大模型存在显著差距。以90亿参数的小模型为例,其性能比大模型低22个百分点以上,犹如让新员工处理资深专家才能应对的复杂业务。

为解决这一难题,蒙特利尔学习算法研究所与麦吉尔大学的研究团队提出了一种创新方法:让大模型充当“教师”,将经验传授给小模型。这种被称为“知识蒸馏”的技术并非新概念,但研究团队通过优化教学方法,取得了突破性进展。他们设计的AGENT-AS-ANNOTATORS框架,通过系统化生成高质量训练轨迹,使90亿参数的小模型在主流网页任务评测基准WebArena上达到41.5%的成功率,不仅超越了GPT-4o(31.5%)和Claude 3.5 Sonnet(36.0%),还几乎是此前同类最佳开源小模型成绩(21.7%)的两倍。

研究团队指出,现有方法在训练小模型时面临两大挑战:一是训练数据质量参差不齐,二是不同方法的设计逻辑差异大,难以直接比较效果。为此,他们建立了一套统一框架,将现有方法纳入同一坐标系进行系统分析,并在此基础上实现了最优方案。

在AGENT-AS-ANNOTATORS框架中,训练数据生成分为两个阶段。第一阶段是任务合成,由人格生成器和任务生成器协同工作。人格生成器创建多样化的虚拟用户角色,包括数据科学家、平面设计师、医学研究员等,每个角色都有独特的职业背景和兴趣。任务生成器则根据角色描述操作网页,生成基于真实环境状态的任务描述及评判提示。第二阶段是轨迹收集与过滤,执行智能体在全新网页环境中完成任务,裁判模块根据评判提示判断轨迹是否成功,仅保留成功轨迹用于训练。

在实验中,研究团队选用谷歌的Gemini 3 Pro作为教师模型,训练数据集A3-SYNTH覆盖六个网页环境,生成3000个任务。经过裁判过滤后,保留2322条成功轨迹,包含16353个训练样本。被训练的小模型是90亿参数的Qwen3.5-9B,采用监督微调方式训练。评测结果显示,该模型在WebArena上达到41.5%的成功率,在未接触过的ServiceNow企业平台上成功率从33.3%提升至51.5%,在视觉任务、复杂企业任务和原子网页技能测试中也有显著提升。

研究还发现,教学数据的质量远比数量重要。用能力较弱的Gemini 3 Flash作为教师,虽生成更多训练样本,但学生模型表现更差。降低教师模型的思考预算反而能提升训练效果。研究团队认为,过度思考可能导致模型执行失误,而简洁的推理轨迹能为学生模型提供更清晰的学习信号。

为验证框架中各模块的作用,研究团队进行了一系列实验。结果显示,裁判过滤、完整推理轨迹和评判提示对提升学生模型性能至关重要。例如,去掉裁判模块后,成功率下降4.5个百分点;完全去掉推理过程后,成功率下降7.9个百分点;不带评判提示的裁判训练出的学生成功率比带提示的低2.4个百分点。

研究团队指出,网页交互的底层技能是有限且可泛化的,如填写表单、筛选表格等操作在几乎所有网页平台上都存在。因此,在六个环境中通过角色多样化生成丰富任务变化,可能比在更多环境中生成较少任务变化更高效。然而,目前的数据缩放曲线已显示收益递减,未来需探索将深度聚焦方法与更广泛环境覆盖相结合的可能性。

该研究为在本地部署可靠、经济、安全的网页智能体提供了新思路。研究团队承诺将公开完整的轨迹数据集、流水线代码和微调后的模型权重,方便社区复现和进一步研究。感兴趣的读者可通过arXiv编号2604.07776查阅原论文。

 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  争议稿件处理  |  English Version