近日,阿里巴巴正式揭晓了其新一代大模型Qwen3系列的技术细节,通过一份详尽的技术报告,向公众展示了该系列模型的混合推理架构、独特的训练策略以及令人瞩目的评测成绩。报告显示,Qwen3系列的旗舰模型Qwen3-235B-A22B在数学推理、代码生成等多个核心评测领域,超越了包括DeepSeek-R1和Grok-3在内的国际顶尖模型。
Qwen3系列大模型于4月29日正式发布,涵盖了6款稠密模型和2款MoE模型,参数规模从0.6B到235B不等。其中,旗舰模型Qwen3-235B-A22B凭借22B的激活参数,实现了235B的总参数量,并在编程、数学推理等基准测试中表现出色,超越了全球多个顶尖模型。
Qwen3系列的核心创新在于其双系统推理架构。面对复杂的数学证明、代码生成等任务时,模型会启动“慢思考”深度推理模块,支持高达38K token的动态思考预算,进行多步骤逻辑链分析。而在日常对话场景下,模型则以“快思考”模式运行,仅需激活20%的参数,从而实现了60%的响应速度提升和40%的算力消耗降低。
Qwen3系列模型的后训练流程设计围绕两大核心目标:一是“思考控制”,通过集成“非思考”与“思考”两种模式,用户可以根据需求灵活选择模型是否进行推理,并通过指定token预算来控制思考深度;二是“慢思考”,旨在简化和优化轻量级模型的后训练过程,借助大规模模型的知识,大幅降低构建小规模模型所需的计算成本和工作量。
在性能评测方面,旗舰模型Qwen3-235B-A22B表现出色。在数学推理的AIME25奥数测评中,该模型获得了81.5分的高分,刷新了开源模型的纪录,远超DeepSeek-R1等顶尖模型。在代码生成的LiveCodeBench评测中,Qwen3-235B-A22B同样表现出色,得分超过70分,超越了Grok-3-Beta和DeepSeek-R1等主流模型。
Qwen3系列模型还支持跨模态任务,集成了视觉(Qwen3-VL)和音频(Qwen3-Audio)模块,能够应用于医学影像分析等领域。在硬件与效率优化方面,MoE模型采用动态激活专家策略,仅需4张H20加速卡便能实现235B旗舰模型的部署。Qwen3系列模型在参数效率、推理成本、多语言支持及AI Agent开发等多个维度均展现出显著优势。
Qwen3-235B-A22B于今年5月6日成功登顶国际权威大模型测评榜LiveBench开源大模型性能的榜首,进一步证明了其卓越的性能和实力。Qwen3系列模型通过混合推理架构与高效训练策略,树立了开源模型的新标杆,正在逐步缩小与顶尖闭源产品的差距。