阿里巴巴近日宣布推出全新一代基础模型架构Qwen3-Next,并同步开源了基于该架构的Qwen3-Next-80B-A3B系列模型。这一突破性成果标志着阿里在人工智能基础研究领域迈出了重要一步,为行业提供了更高效的模型开发解决方案。
相较于前代Qwen3采用的MoE模型结构,Qwen3-Next在架构设计上实现了多项关键升级。其中最引人注目的是混合注意力机制的引入,该机制通过动态调整不同层级特征的关注权重,显著提升了模型对复杂语义的理解能力。同时,高稀疏度MoE结构的应用使得模型在保持高性能的同时,计算资源消耗大幅降低。
在训练优化方面,研发团队开发了一套全新的稳定训练框架。这套框架通过动态调整梯度更新策略和参数初始化方式,有效解决了大模型训练中常见的梯度消失和参数震荡问题。多token预测机制的加入使模型推理效率得到质的飞跃,能够同时处理多个语义单元的预测任务,大幅提升了实际应用场景中的响应速度。
开源的Qwen3-Next-80B-A3B系列模型包含不同参数规模的版本,可满足从移动端到云端的多场景部署需求。该系列模型在保持800亿参数规模优势的同时,通过架构优化实现了3倍以上的推理加速,为智能客服、内容生成等实时性要求高的应用提供了有力支撑。