ITBear旗下自媒体矩阵:

NeurIPS 2025最佳论文出炉:阿里通义千问“门控注意力”成中国唯一获奖者

   时间:2025-11-29 00:59:40 来源:互联网编辑:快讯 IP:北京 发表评论无障碍通道
 

在近期举办的全球顶尖人工智能学术会议上,阿里巴巴通义千问团队凭借创新研究《Attention Gating Makes Better Foundation Models》斩获最佳论文奖,成为四篇获奖成果中唯一来自中国的团队。本届会议共收到两万篇投稿,最终录取率仅为25%,创下历年竞争最激烈纪录。

研究团队提出了一种名为"动态注意力门控"的机制,通过在标准注意力模块后叠加可学习的门控层,实现计算资源的智能分配。该机制如同为模型配备"智能筛选器",能够实时判断哪些注意力头、哪些语言单元需要参与后续计算。实验数据显示,在1.7亿参数的稠密模型和150亿参数的混合专家模型上,采用该技术后仅增加1%参数量,却使语言模型困惑度降低0.2,多任务语言理解基准测试MMLU得分提升2分,在Pile数据集各子领域均取得显著提升。

团队负责人解释称,这种门控机制相当于在注意力计算流程中增设"安检关卡",将无效信息拦截在前馈神经网络之前,既提升了计算效率又增强了模型鲁棒性。特别在处理长文本时,该技术能自动识别关键信息,减少冗余计算,使模型在保持性能的同时降低能耗。

目前,这项创新技术已集成至即将发布的Qwen3-Next大模型中。阿里巴巴同步将核心代码与17亿参数的实验模型开源至GitHub平台,供全球开发者验证优化。研究团队透露,后续将探索该机制在多模态大模型和长文本处理领域的应用,推动"自适应注意力"成为新一代基础模型的标准组件。

 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  争议稿件处理  |  English Version