滚动资讯

当前位置：首页 > 资讯 > 业界动态 > 正文内容

蒙特利尔研究新突破：小模型也能“青出于蓝”，网页任务表现超越大模型

时间：2026-04-18 05:26:59 来源：互联网编辑：快讯 IP：北京 发表评论无障碍通道

在人工智能领域，让AI自主完成网页任务一直是备受关注的研究方向。从日常的表格填写、数据库查询到电商平台浏览，这些看似简单的操作却消耗着人们大量时间。因此，具备自主网页操作能力的“网页智能体”应运而生。然而，当前能有效处理复杂网页任务的AI大多依赖付费API，如GPT-4o、Claude 3.5 Sonnet等，不仅成本高昂，还需将用户数据传输至第三方服务器，难以满足企业和个人对数据隐私保护及成本控制的需求。

相比之下，参数量较小的开源模型虽可在本地服务器或消费级显卡上运行，但在网页任务中的表现与大模型存在显著差距。以90亿参数的小模型为例，其性能比大模型低22个百分点以上，犹如让新员工处理资深专家才能应对的复杂业务。

为解决这一难题，蒙特利尔学习算法研究所与麦吉尔大学的研究团队提出了一种创新方法：让大模型充当“教师”，将经验传授给小模型。这种被称为“知识蒸馏”的技术并非新概念，但研究团队通过优化教学方法，取得了突破性进展。他们设计的AGENT-AS-ANNOTATORS框架，通过系统化生成高质量训练轨迹，使90亿参数的小模型在主流网页任务评测基准WebArena上达到41.5%的成功率，不仅超越了GPT-4o（31.5%）和Claude 3.5 Sonnet（36.0%），还几乎是此前同类最佳开源小模型成绩（21.7%）的两倍。

研究团队指出，现有方法在训练小模型时面临两大挑战：一是训练数据质量参差不齐，二是不同方法的设计逻辑差异大，难以直接比较效果。为此，他们建立了一套统一框架，将现有方法纳入同一坐标系进行系统分析，并在此基础上实现了最优方案。

在AGENT-AS-ANNOTATORS框架中，训练数据生成分为两个阶段。第一阶段是任务合成，由人格生成器和任务生成器协同工作。人格生成器创建多样化的虚拟用户角色，包括数据科学家、平面设计师、医学研究员等，每个角色都有独特的职业背景和兴趣。任务生成器则根据角色描述操作网页，生成基于真实环境状态的任务描述及评判提示。第二阶段是轨迹收集与过滤，执行智能体在全新网页环境中完成任务，裁判模块根据评判提示判断轨迹是否成功，仅保留成功轨迹用于训练。

在实验中，研究团队选用谷歌的Gemini 3 Pro作为教师模型，训练数据集A3-SYNTH覆盖六个网页环境，生成3000个任务。经过裁判过滤后，保留2322条成功轨迹，包含16353个训练样本。被训练的小模型是90亿参数的Qwen3.5-9B，采用监督微调方式训练。评测结果显示，该模型在WebArena上达到41.5%的成功率，在未接触过的ServiceNow企业平台上成功率从33.3%提升至51.5%，在视觉任务、复杂企业任务和原子网页技能测试中也有显著提升。

研究还发现，教学数据的质量远比数量重要。用能力较弱的Gemini 3 Flash作为教师，虽生成更多训练样本，但学生模型表现更差。降低教师模型的思考预算反而能提升训练效果。研究团队认为，过度思考可能导致模型执行失误，而简洁的推理轨迹能为学生模型提供更清晰的学习信号。

为验证框架中各模块的作用，研究团队进行了一系列实验。结果显示，裁判过滤、完整推理轨迹和评判提示对提升学生模型性能至关重要。例如，去掉裁判模块后，成功率下降4.5个百分点；完全去掉推理过程后，成功率下降7.9个百分点；不带评判提示的裁判训练出的学生成功率比带提示的低2.4个百分点。

研究团队指出，网页交互的底层技能是有限且可泛化的，如填写表单、筛选表格等操作在几乎所有网页平台上都存在。因此，在六个环境中通过角色多样化生成丰富任务变化，可能比在更多环境中生成较少任务变化更高效。然而，目前的数据缩放曲线已显示收益递减，未来需探索将深度聚焦方法与更广泛环境覆盖相结合的可能性。

该研究为在本地部署可靠、经济、安全的网页智能体提供了新思路。研究团队承诺将公开完整的轨迹数据集、流水线代码和微调后的模型权重，方便社区复现和进一步研究。感兴趣的读者可通过arXiv编号2604.07776查阅原论文。

更多>同类资讯

破局同质化困局：拼多多“打新”如何激活电商新供给？

05-29

Claude Opus 4.8上线，张口就说自己是DeepSeek、Qwen

05-29

小米澎湃OS 3更新：毕业季水印上线一堆BUG全修好

05-29

小红书彻底爆发了

05-29

强制AI导致员工刷榜亚马逊因算力成本原因关闭内部排行榜

05-29

苹果iOS 27爆料：用Gemini训练本地AI

05-29

Anthropic融资650亿美元，筹备近万亿美元估值IPO

05-29

Grok Build 0.1打响编程实战，马斯克称物超所值

05-29

小米T系列首次回国：卢伟冰称17T系列手机国行6月上旬发布

05-29

消息称SpaceX已将IPO目标估值降至1.8万亿美元

05-29

合作数百所学校后，陈林创办的银河智学也要布局线下自习空间了

05-29

小红书彻底爆发了

05-29

SpaceX据悉将IPO估值目标下调至至少1.8万亿美元

05-29

Anthropic估值飙至9650亿美元首超OpenAI，AI赛道双雄争霸IPO竞速一触即发

05-29

Claude Opus 4.8登场：从聊天模型迈向工程协作，开启AI工作流新篇

05-29

点击查看更多 +

全站最新

魏建军亲赴一线“挑刺”魏牌：以用户视角促提升经验辐射全系车型

比亚迪“敢为”引领智能化新篇：安全兜底开启全民城市领航新纪元

十年油车老用户换电车后深有感触：燃油车四大短板，正让它逐渐失去优势

2026世界汽车标准创新大会在坪山举行 27项国标外文版发布引关注

天津氢能产业崛起：“氢”风拂面驱动城市绿色转型新引擎

MG 4X：以体系力重塑10万级纯电市场，MG新能源转型的关键落子

热门内容

本栏最新

2026款福特烈马亚马逊限量版来袭！原厂涉水喉+2.3T+10AT，硬核越野新选择

小米YU7 GT明日交付首批车主！雷军携手舒淇出席，跑车级SUV性能亮眼

小米YU7“上新”标准版与GT版，能否在激烈竞争中稳住销量？

武契奇体验小米YU7 GT赞不绝口，自曝薪资难负担，雷军幽默回应引热议

小米YU7 GT明日交付首批车主！雷军携手舒淇现身，跑车级SUV性能拉满

2026 AI Partner富阳分会场：具身智能浪潮下，资本、场景与产业链如何共舞？

本网站LOGO小熊标志受版权保护，版权登记号：鲁作登字-2015-F-025467，未经ITBEAR比尔科技官方许可，严禁使用。
声明：本网站是公益性科普网站，为网友提供科技类资讯内容，无障碍技术由太阳湾捐增，为阅读障碍用户提供内容听读服务。如本站内容侵犯了您的权利，请通知我们及时删除。
中国（山东）自由贸易试验区鲁ICP备11015305号-1 联系入口
Copyright © 比尔科技 2007-2024 ITBEAR.COM.CN All rights reserved.