阿里正式推出全新千问旗舰推理模型Qwen3-Max-Thinking,该模型在事实知识、复杂推理、指令遵循等核心能力维度实现突破性进展。根据官方披露的19项权威基准测试数据,其综合性能已达到GPT-5.2-Thinking、Claude-Opus-4.5等国际顶尖模型水平,在科学知识、数学推理、代码编程等专项测试中更刷新多项SOTA纪录。
这款总参数规模突破万亿的模型,通过大规模强化学习后训练与推理技术创新,实现了性能的显著跃升。其独创的"自适应工具调用"机制,使模型能够像专业人士般在对话中自主选择并调用搜索引擎、代码解释器等工具,在缓解模型幻觉的同时,可提供实时信息检索与复杂问题求解能力。实验数据显示,该功能使模型在科学知识测试GPQA Diamond中得分提升至92.8,较前代提升2.5个百分点。
在数学推理领域,Qwen3-Max-Thinking展现出卓越的逻辑演绎能力。在针对国际数学奥林匹克竞赛题目的IMO-AnswerBench测试中,模型得分从89.5提升至91.5,解题准确率显著提高。代码编程方面,LiveCodeBench v6测试集上的表现从88.0跃升至91.4,证明其具备处理复杂编程任务的能力。
该模型的创新性体现在两大核心技术突破:其一为自适应工具调用框架,通过规则与模型反馈的混合训练模式,使模型能根据对话上下文智能选择工具组合;其二为测试时扩展技术,采用经验累积式多轮迭代策略,在保持相同计算资源消耗下,将关键基准测试成绩平均提升2-3个百分点。这种自我反思机制使模型能有效利用历史推理信息,避免重复计算。
目前,Qwen3-Max-Thinking已通过Qwen Chat平台向公众开放体验,用户可直接与具备工具调用能力的模型进行交互。开发者可通过阿里云百炼平台调用API服务(模型标识:qwen3-max-2026-01-23),该接口已集成自适应工具调用与测试时扩展两大核心功能。平台提供的实时访问链接显示,模型在处理需要外部工具调用的复杂查询时,响应流畅度与结果准确性均有显著提升。
技术文档详细阐释了创新机制的实现原理:在工具调用训练阶段,模型首先完成基础工具使用微调,随后在多样化任务场景中进行强化学习,通过规则引擎与模型反馈的双重指导优化工具选择策略。测试时扩展技术则通过限制并行推理路径数量,将节省的计算资源用于迭代式自我优化,使模型在处理不确定性问题时能动态调整推理策略。这种设计在保持响应速度的同时,显著提升了复杂问题的解决能力。









