阿里通义实验室日前正式发布新一代基础模型架构Qwen3-Next,同步开源基于该架构的800亿参数模型Qwen3-Next-80B-A3B-Base。该模型通过参数激活优化技术,仅需调用30亿参数即可实现高效运行,在降低计算资源消耗的同时保持了强劲性能。实验室数据显示,该模型在15万亿token的Qwen3预训练数据子集上训练成本不足Qwen3-32B模型的十分之一,但在32k以上长文本场景中实现了超过10倍的推理吞吐提升。
此次开源的模型体系包含指令模型(Instruct)和思维模型(Thinking)两大版本。指令模型采用非思考模式输出机制,直接生成最终结果而不产生中间内容块;思维模型则通过预设对话模板强制激活深度思考模式,特别适用于需要复杂推理的场景。性能测试表明,指令模型在多项基准测试中已达到Qwen3-235B-A22B-Instruct-2507的水平,思维模型更是在长文本处理等维度超越谷歌Gemini-2.5-Flash-Thinking模型。
技术架构方面,Qwen3-Next实现了四大核心突破。混合注意力机制采用75%的Gated DeltaNet线性注意力与25%标准注意力组合,在3:1的混合比例下显著提升上下文建模效率。高稀疏度MoE架构将专家激活比例压缩至1:50,较前代1:16的激活比大幅降低计算开销。稳定性优化方案整合了零中心化、权重衰减layernorm等技术,有效解决了注意力池化等数值不稳定问题。最受开发者关注的多Token预测(MTP)机制,通过训练推理一致的多步策略,将Speculative Decoding接受率提升至实用水平。
实验数据显示,MTP机制在4k tokens上下文场景中,预填充阶段吞吐量接近Qwen3-32B模型的7倍;在32k以上长文本场景中,推理吞吐提升超过10倍。解码阶段同样表现优异,4k上下文实现近4倍吞吐提升,长文本场景保持10倍优势。开发者社区普遍认为,该机制在保持模型性能的同时,为降低训练推理成本提供了创新解决方案。
具体评测显示,指令模型在RULER基准测试的256k范围内超越了层数更多的Qwen3-235B-A22B-Instruct-2507,仅在高难度数学推理基准AIME25中略逊于旗舰模型。思维模型在编程、复杂问答等场景全面领先,部分指标已接近Qwen3-235B-A22B-Thinking-2507水平。这种性能表现使得新模型在保持轻量化的同时,具备了与更大规模模型竞争的实力。
目前,Qwen3-Next系列模型已在魔搭社区、HuggingFace等平台全面开源,开发者可通过Qwen Chat、阿里云百炼及NVIDIA API Catalog进行体验。实验室透露,后续将持续优化架构并推进Qwen3.5研发,同时加快文生图、语音识别等多领域模型的开源进程。这一系列动作标志着阿里通义正加速构建覆盖全场景的AI模型生态。