阿里正式推出千问旗舰推理模型Qwen3-Max-Thinking,该模型在事实知识、复杂推理、指令遵循、人类偏好对齐及智能体能力等关键维度实现突破性进展。在19项权威基准测试中,其性能表现与GPT-5.2-Thinking、Claude-Opus-4.5等国际顶尖模型持平,部分指标甚至实现超越。
这款总参数规模超万亿的模型通过三项核心创新实现性能跃升:其一,采用更大规模的强化学习后训练策略;其二,引入推理技术系列创新;其三,构建自适应工具调用体系。在科学知识(GPQA Diamond)、数学推理(IMO-AnswerBench)和代码编程(LiveCodeBench)等专项测试中,该模型刷新多项SOTA纪录,其中数学推理得分较前代提升12.3%,代码生成准确率提高9.7%。
模型最引人注目的突破在于原生Agent能力的进化。通过自主调用搜索引擎、记忆模块和代码解释器,Qwen3-Max-Thinking可像专业人士般实现"思考-工具调用-再思考"的闭环流程。在金融分析场景中,模型能自动检索实时市场数据,调用Python解释器进行复杂计算,最终生成包含可视化图表的深度报告。这种能力使模型在处理真实复杂任务时的幻觉率降低67%,用户满意度提升41%。
技术团队提出的测试时扩展技术(Test-Time Scaling)构成另一重要创新。该技术通过动态分配推理阶段计算资源,在保持相同token消耗的前提下,使模型在关键基准测试中的表现显著提升:GPQA得分从90.3增至92.8,LiveCodeBench v6从88.0提升至91.4。这种迭代式自我反思机制通过提取历史推理经验,避免重复计算,在相同上下文窗口内实现更高效的信息融合。
目前,用户可通过Qwen Chat平台(chat.qwen.ai)直接体验模型交互功能,开发者则可调用开放API(模型名称:qwen3-max-2026-01-23)进行二次开发。阿里云百炼平台同步上线该模型(https://bailian.console.aliyun.com/cn-beijing/?tab=model#/model-market/detail/qwen3-max-2026-01-23),提供从模型调用到应用部署的全链路支持。
自适应工具调用体系经过特殊训练流程打造:在完成基础工具使用微调后,模型通过规则反馈和模型反馈的混合训练模式,在多样化任务场景中持续优化工具选择策略。实验数据显示,该体系使搜索工具使用频率提升3倍,代码解释器调用准确率达到92%,在处理需要多工具协同的复杂任务时,任务完成率较前代提高58%。






