近期,Qwen系列模型家族迎来了一位新成员——Qwen3-30B-A3B-Thinking-2507,这一重大更新标志着该系列在智能表现上的又一次飞跃。新版本不仅在体积上保持轻巧,更在推理能力、通用应用及文本处理能力上实现了显著提升。
与早前于4月29日开放的Qwen3-30-A3B相比,新版本Qwen3-30B-A3B-Thinking-2507在多个关键性能测试中展现出了明显优势。在数学领域,新模型在AIME25评测中的得分高达85.0,这一成绩已经超越了Gemini2.5-Flash(thinking)和Qwen3-235B-A22B(thinking),彰显了其卓越的数学解析能力。在编程能力测试中,LiveCodeBench v6的得分同样达到了66.0,进一步证明了新模型在代码理解和生成方面的实力。
不仅如此,Qwen3-30B-A3B-Thinking-2507在知识水平测试中也取得了显著进步,无论是GPQA还是MMLU-Pro评测,都较之前版本有了明显提升。这显示了模型在广泛知识领域的学习和应用能力。
在通用能力方面,新模型同样表现出色。无论是写作评测WritingBench,还是Agent能力测试BFCL-v3,以及多轮对话和多语言指令遵循测试MultiIF,Qwen3-30B-A3B-Thinking-2507均超越了Gemini2.5-Flash(thinking)和Qwen3-235B-A22B(thinking),展现了其在自然语言理解和生成方面的强大实力。
新模型的另一大亮点是其上下文理解能力的显著增强。原生支持256K tokens,且可扩展至1M tokens,这一改进使得模型能够处理更长的文本输入,从而更好地理解和生成复杂内容。新模型的思考长度也有所增加,开发者在面对高度复杂的推理任务时,可以通过设置更长的思考预算来充分发挥其潜力。
为了让更多开发者和研究人员受益于这一新版本,Qwen3-30B-A3B-Thinking-2507已经在魔搭社区和HuggingFace平台开放源代码。其轻量级的特性使得模型能够轻松适配消费级硬件,实现本地部署。同时,Qwen Chat也同步上线了新模型,供开发者们亲身体验其强大的推理和生成能力。