阿里于近日正式推出全新一代基础模型架构Qwen3-Next,同步开源基于该架构开发的Qwen3-Next-80B-A3B系列大模型。这款新架构在延续技术突破的同时,通过结构优化实现了性能与效率的双重跃升,为人工智能领域带来更具性价比的技术方案。
相较于前代Qwen3采用的MoE(混合专家)架构,Qwen3-Next通过核心技术创新实现了架构升级。新架构在保持模型性能的前提下,显著降低了资源消耗。以Qwen3-Next-80B-A3B-Base模型为例,该版本拥有800亿参数规模,但实际激活参数仅30亿,在基准测试中展现出与Qwen3-32B dense模型持平甚至更优的表现,而训练成本却降低至前者的十分之一以下。这种"小激活、大容量"的设计理念,使得模型在推理阶段具备更高的计算效率。
技术团队透露,Qwen3-Next的突破性进展源于对模型稀疏激活机制的深度优化。通过动态参数调度技术,系统能够根据输入任务自动选择最优参数组合,在保证输出质量的同时最大限度减少无效计算。这种设计不仅降低了硬件需求,更使得单卡推理成为可能,为边缘计算等场景提供了新的解决方案。
目前开源的Qwen3-Next-80B-A3B系列包含多个变体,覆盖从基础模型到特定领域优化的不同版本。开发者可根据实际需求选择不同参数规模的模型,在保持兼容性的同时获得最优的资源配置。这种模块化设计理念,使得不同规模的企业和研究机构都能找到适合自身场景的技术方案。
行业分析师指出,Qwen3-Next的推出标志着大模型技术进入"高效能"发展阶段。在保持模型能力持续提升的同时,通过架构创新实现资源消耗的指数级下降,这种技术路径或将推动AI技术更广泛地应用于移动终端、物联网设备等资源受限场景,为人工智能的普及化发展奠定技术基础。