阿里通义实验室近日宣布推出新一代基础模型架构Qwen3-Next,并同步开源基于该架构的Qwen3-Next-80B-A3B-Base模型。这款拥有800亿参数的模型仅激活30亿参数,在保持高效能的同时显著降低了计算资源消耗。据实验室披露,该模型在Qwen3预训练数据子集(15T tokens)上的训练成本不足Qwen3-32B模型的10%,却实现了超过32k上下文场景下10倍以上的推理吞吐提升。
此次开源的模型体系包含指令模型(Instruct)和思维模型(Thinking)两个变体。指令模型采用非思考模式输出,不生成内容块;思维模型则通过预设聊天模板强制触发深度思考机制。性能测试显示,指令模型在多项基准测试中达到与Qwen3-235B-A22B-Instruct-2507相当的水平,思维模型更是在长文本处理等场景超越谷歌Gemini-2.5-Flash-Thinking模型。
技术架构层面,Qwen3-Next引入了四大创新机制。混合注意力机制通过75%的Gated DeltaNet(线性注意力)与25%标准注意力的组合,在3:1的混合比例下实现上下文建模效率的显著提升。高稀疏度MoE结构将专家激活比例压缩至1:50,较前代1:16的激活比大幅降低计算开销。稳定性优化方案包含零中心化、权重衰减layernorm等技术,有效消除注意力池化等数值不稳定现象。
最受开发者关注的多Token预测(MTP)机制,通过训练推理一致的多步训练策略,将Speculative Decoding接受率提升至实用水平。实验数据显示,在4k tokens上下文场景下,预填充阶段吞吐量接近Qwen3-32B模型的7倍;超过32k长上下文时,推理吞吐提升达10倍以上。解码阶段同样表现优异,4k上下文实现近4倍吞吐提升,长文本场景保持10倍优势。
在具体评测中,指令模型在RULER基准测试的256k范围内超越层数更多的Qwen3-235B-A22B-Instruct-2507,仅在高难度数学推理基准AIME25中略逊于旗舰模型。思维模型则在编程、复杂问答等场景全面领先,部分指标接近Qwen3-235B-A22B-Thinking-2507水平。开发者社区对MTP机制给予高度评价,认为该设计在保持模型性能的同时,为降低训练推理成本提供了创新解决方案。
目前,新模型已在魔搭社区、HuggingFace等平台全面开源,开发者可通过Qwen Chat、阿里云百炼及NVIDIA API Catalog进行体验。实验室透露,后续将持续优化架构并推进Qwen3.5研发,同时加快文生图、语音识别等多领域模型的开源进程。随着技术影响力的扩大,阿里通义正逐步构建覆盖全场景的AI模型生态。