近日,阿里通义千问正式揭晓了其最新的推理模型——Qwen3-30B-A3B-Thinking-2507。相较于早先4月29日推出的Qwen3-30-A3B模型,新版本在推理能力、通用功能及上下文处理能力方面实现了显著提升。
在数学能力专项评测AIME25中,Qwen3-30B-A3B-Thinking-2507以85.0的高分脱颖而出,同时在代码能力测试LiveCodeBench v6中也取得了66.0的优异成绩。这两项核心推理能力的表现均超越了Gemini2.5-Flash(thinking)和Qwen3-235B-A22B(thinking)模型。新模型在知识水平评测GPQA和MMLU-Pro中也展现出了显著进步。
在通用能力方面,Qwen3-30B-A3B-Thinking-2507同样表现出色。无论是写作评测WritingBench、Agent能力评测BFCL-v3,还是多轮对话和多语言指令遵循评测MultiIF,新模型均超越了Gemini2.5-Flash(thinking)和Qwen3-235B-A22B(thinking)。新模型还具备更长的上下文理解能力,原生支持256K tokens,且可扩展至1M tokens,进一步提升了其处理复杂情境的能力。
Qwen3-30B-A3B-Thinking-2507的思考长度也有所增加。阿里通义千问官方建议,在处理高度复杂的推理任务时,应设置更长的思考预算,以充分发挥新模型的潜力。
目前,Qwen3-30B-A3B-Thinking-2507已在魔搭社区和HuggingFace平台上开源。由于其轻量级的体积设计,用户可以轻松地在消费级硬件上实现本地部署。同时,该新模型也已在Qwen Chat平台上同步上线,供用户体验。