阿里巴巴旗下千问团队近日发布了一款名为Qwen3-Coder-Next的开放权重语言模型,该模型专为编码代理和本地开发场景设计,通过创新架构与训练方法实现了性能与效率的双重突破。基于Qwen3-Next-80B-A3B-Base构建的混合注意力与MoE架构,使模型在保持低推理成本的同时,展现出强大的编程和智能体能力。
与传统依赖参数扩展的模型不同,Qwen3-Coder-Next聚焦于智能体训练信号的扩展。研发团队采用大规模可验证编程任务与可执行环境进行训练,使模型能够直接从环境反馈中学习。训练过程包含四个关键阶段:在代码与智能体数据上进行持续预训练,在高质量智能体轨迹数据上开展监督微调,针对软件工程、QA、Web/UX等领域进行专家训练,最后将专家能力蒸馏至单一可部署模型。这种训练方式特别强化了长程推理、工具使用和执行失败恢复能力,这些特性对现实编程场景至关重要。
在编程智能体基准测试中,Qwen3-Coder-Next展现出显著优势。使用SWE-Agent框架时,该模型在SWE-Bench Verified基准上取得超过70%的成绩,在多语言设置和更具挑战性的SWE-Bench-Pro测试中保持竞争力。值得注意的是,尽管其激活参数规模较小,但在多项评测中仍能比肩甚至超越参数规模大10-20倍的开源模型。特别是在TerminalBench 2.0和Aider等基准测试中,模型证明了其在复杂编程任务中的实用价值。
效率与性能的平衡是该模型的另一大亮点。测试数据显示,3B激活参数版本的Qwen3-Coder-Next在SWE-Bench-Pro上的表现,可与激活参数量高10-20倍的模型相媲美。虽然专有全注意力模型在绝对性能上仍占优势,但Qwen3-Coder-Next在低成本智能体部署场景中展现出明显的帕累托前沿优势,为资源受限环境下的编程智能体应用提供了新选择。
目前,Qwen3-Coder-Next已通过ModelScope和Hugging Face平台开源,开发者可自由获取模型权重及相关文档。研发团队表示,后续将重点提升模型的推理决策能力,扩展任务支持范围,并根据用户反馈持续优化模型性能。这一创新成果有望推动编程智能体在软件开发、自动化测试等领域的广泛应用。









