通义千问团队近日宣布,其Qwen3-30B模型迎来重大升级,一款名为Qwen3-30B-A3B-Thinking-2507的全新推理模型正式面世。此次升级使得模型在思考能力、推理质量及深度上实现了显著提升,展现出了更加睿智、敏捷且全能的特性。
据悉,Qwen3-30B-A3B-Thinking-2507在多项评测中表现优异。特别是在聚焦数学能力的AIME25评测中,该模型获得了85.0分的高分,同时在代码能力测试LiveCodeBench v6中也取得了66.0分的成绩。这两项核心推理能力的表现均超越了Gemini2.5-Flash(thinking)和Qwen3-235B-A22B(thinking)等同类模型。新模型在知识水平评测(如GPQA、MMLU-Pro)上也较上一版本有了显著进步。
在通用能力方面,Qwen3-30B-A3B-Thinking-2507同样表现出色。无论是写作(WritingBench)、Agent能力(BFCL-v3),还是多轮对话和多语言指令遵循(MultiIF)等评测,该模型均超越了Gemini2.5-Flash(thinking)和Qwen3-235B-A22B(thinking)。这一系列的优异成绩,充分展示了新模型在通用能力上的强大实力。
Qwen3-30B-A3B-Thinking-2507的思考长度有所增加,这意味着在处理高度复杂的推理任务时,该模型能够展现出更大的潜力。因此,团队建议在使用新模型时,适当设置更长的思考预算,以充分发挥其优势。
目前,Qwen3-30B-A3B-Thinking-2507已在魔搭社区和HuggingFace平台上开源,供广大开发者和研究人员使用。同时,Qwen Chat也同步上线,为用户提供了更加智能、高效的聊天体验。