近日,阿里巴巴的通义千问团队在人工智能领域再次投下了一枚震撼弹,宣布开源其最新升级的Qwen3-235B-A22B推理模型——Qwen3-235B-A22B-Thinking-2507。
这款新模型拥有2350亿参数,其中激活参数为220亿,支持高达256K的上下文长度。在编程、数学、知识推理、人类偏好对齐等多个维度的测评中,Qwen3-235B-A22B-Thinking-2507的表现堪比Gemini-2.5 pro、o4-mini等顶尖闭源模型,甚至在某些测试中大幅超越了DeepSeek-R1等开源竞品,树立了全球开源模型的新标杆。
Qwen3-235B-A22B-Thinking-2507的发布,正值阿里巴巴一周内连续开源三款重量级模型的高潮阶段。此前,团队已推出了Qwen3-235B-A22B非思考模式的更新版本,以及专为编程任务设计的Qwen3-Coder-480B-A35B-Instruct模型。这三款模型在全球权威测评中均取得了优异成绩,分别在基础模型、编程模型和推理模型领域夺得开源冠军。
值得注意的是,Qwen3-235B-A22B-Thinking-2507的推出,是通义千问团队积极响应开发者社区反馈的结果。团队在X平台上表示,经过深思熟虑,决定停止使用混合思考模式,转而分别训练Instruct和Thinking模型,以追求最佳质量。这一决策得到了开发者们的广泛赞誉,也进一步增强了团队的“最听劝”形象。
在Qwen3-235B-A22B-Thinking-2507发布后,开发者们纷纷在社交平台上分享和点赞。有网友称赞其为“名副其实的‘思考模式’”,并惊叹于其在基准测试中的卓越表现。从编程能力的LiveCodBenchV6测试,到知识能力的SuperGPQA测试,再到推理能力的HMMT25测试,Qwen3-235B-A22B-Thinking-2507均展现出了强大的实力。
具体来看,在知识测评方面,Qwen3-235B-A22B-Thinking-2507在MMLU-Redux、GPQA、SuperGPQA等测试中均超越了DeepSeek-R1-0528,得分直逼OpenAI o3、Gemini-2.5 Pro等顶尖闭源模型。在推理测评中,该模型在AIME25、HMMT25、LiveBenc、HLE等测试中同样表现抢眼,得分远超Deepseek-R1-0528、OpenAI o3、Claude4 Opus Thinking等竞品。在编码、一致性、Agent和多语言能力等测评中,Qwen3-235B-A22B-Thinking-2507也均取得了优异成绩。
此次开源的Qwen3-235B-A22B-Thinking-2507模型,已在魔搭社区和Hugging Face平台上架,采用Apache2.0开源协议,允许用户免费下载并用于商业用途。用户还可以通过QwenChat体验该模型,感受其强大的思考和推理能力。
随着Qwen3系列模型的连续开源,阿里巴巴通义千问团队在全球AI领域的影响力日益增强。开发者们对团队的响应速度和开源态度表示赞赏,纷纷催更更多尺寸的模型版本。面对开发者的热情期待,团队相关负责人表示,将继续努力推出更多高质量的开源模型,为开发者们提供更多选择和可能性。