阿里近日正式推出其最新旗舰推理模型Qwen3-Max-Thinking,该模型在多项国际权威基准测试中表现卓越,成功超越GPT-5.2、Claude Opus 4.5及Gemini 3 Pro等知名模型,刷新全球人工智能推理性能纪录。这一突破标志着阿里在人工智能领域的技术实力迈上新台阶,为行业树立了新的标杆。
据技术团队介绍,Qwen3-Max-Thinking通过扩大总参数规模、优化强化学习策略以及创新推理计算架构,实现了性能的质的飞跃。在科学知识、数学推理和代码编程等关键领域,该模型均展现出显著优势,创造了多项测试的全球最高分。例如,在科学知识测试GPQA Diamond中,其表现远超同类模型;在数学推理测试IMO-AnswerBench和代码编程测试LiveCodeBench中,同样以绝对优势领跑。
该模型的核心创新在于引入了一种名为“测试时扩展”的全新推理机制。与传统方法仅通过增加并行路径来提升推理能力不同,这一机制能够从历史推理结果中提取经验,进行多轮自我优化,从而在相同计算资源下实现更高效的推理。这一技术突破使得Qwen3-Max-Thinking在“人类最后的测试”HLE中以58.3分的成绩脱颖而出,远超GPT-5.2-Thinking的45.5分和Gemini 3 Pro的45.8分。
除了性能提升,Qwen3-Max-Thinking还显著增强了原生Agent能力,能够像专业人士一样自主调用工具并持续思考。同时,模型幻觉问题得到大幅改善,为处理复杂真实任务提供了更可靠的支持。目前,普通用户已可通过千问PC端和网页端体验这一新模型,千问APP也将于近期接入,所有用户均可免费使用。











