在近期举办的全球顶尖人工智能学术会议上,阿里巴巴通义千问团队凭借创新研究《Attention Gating Makes Better Foundation Models》斩获最佳论文奖,成为四篇获奖成果中唯一来自中国的团队。本届会议共收到两万篇投稿,最终录取率仅为25%,创下历年竞争最激烈纪录。
研究团队提出了一种名为"动态注意力门控"的机制,通过在标准注意力模块后叠加可学习的门控层,实现计算资源的智能分配。该机制如同为模型配备"智能筛选器",能够实时判断哪些注意力头、哪些语言单元需要参与后续计算。实验数据显示,在1.7亿参数的稠密模型和150亿参数的混合专家模型上,采用该技术后仅增加1%参数量,却使语言模型困惑度降低0.2,多任务语言理解基准测试MMLU得分提升2分,在Pile数据集各子领域均取得显著提升。
团队负责人解释称,这种门控机制相当于在注意力计算流程中增设"安检关卡",将无效信息拦截在前馈神经网络之前,既提升了计算效率又增强了模型鲁棒性。特别在处理长文本时,该技术能自动识别关键信息,减少冗余计算,使模型在保持性能的同时降低能耗。
目前,这项创新技术已集成至即将发布的Qwen3-Next大模型中。阿里巴巴同步将核心代码与17亿参数的实验模型开源至GitHub平台,供全球开发者验证优化。研究团队透露,后续将探索该机制在多模态大模型和长文本处理领域的应用,推动"自适应注意力"成为新一代基础模型的标准组件。






