近日,阿里通义千问正式揭晓了其最新的推理模型——Qwen3-30B-A3B-Thinking-2507。相较于今年4月推出的Qwen3-30-A3B模型,新版本在推理能力、通用性能及上下文处理方面实现了显著提升。
在数学推理领域,Qwen3-30B-A3B-Thinking-2507在AIME25评测中取得了85.0的高分,这一成绩超越了Gemini2.5-Flash(thinking)和Qwen3-235B-A22B(thinking)等同类模型。同时,在代码能力测试LiveCodeBench v6中,新模型也获得了66.0的分数,进一步证明了其在复杂推理任务中的优势。
不仅如此,Qwen3-30B-A3B-Thinking-2507在知识水平方面也取得了显著进步。在GPQA和MMLU-Pro等评测中,新模型的表现均优于其前身。在通用能力评测中,如写作(WritingBench)、Agent能力(BFCL-v3)、多轮对话和多语言指令遵循(MultiIF)等,新模型同样展现出了超越Gemini2.5-Flash(thinking)和Qwen3-235B-A22B(thinking)的实力。
Qwen3-30B-A3B-Thinking-2507在上下文理解方面也有了显著提升。该模型原生支持256K tokens的上下文长度,并可根据需求扩展至1M tokens,这对于处理复杂、长篇的文本信息具有重要意义。
新模型的思考长度也有所增加,这意味着它在处理高度复杂的推理任务时,能够展现出更强大的潜力。为此,官方建议在使用该模型时,为高度复杂的推理任务设置更长的思考预算,以充分发挥其性能。
目前,Qwen3-30B-A3B-Thinking-2507已在魔搭社区和HuggingFace平台上开源,其轻量级设计使得消费级硬件也能轻松实现本地部署。同时,Qwen Chat也同步上线了新模型,为用户提供更加智能、高效的对话体验。