ITBear旗下自媒体矩阵:

阿里Qwen3-Max-Thinking思考模型亮相,数学满分却成token消耗大户

   时间:2025-11-04 16:30:05 来源:互联网编辑:快讯 IP:北京 发表评论无障碍通道
 

阿里最新推出的推理模型Qwen3-Max-Thinking早期预览版引发行业关注。这款尚未正式发布的模型在AIME 2025数学竞赛和哈佛-MIT数学锦标赛等权威测试中取得满分成绩,展现出强大的逻辑推理能力。测试数据显示,该模型在解决复杂数学问题时展现出多维度验证能力,甚至会主动调用代码解释器进行交叉验证。

该模型的核心突破在于实现了思考模式与非思考模式的深度融合。在智能体编程任务中,模型能够准确理解用户需求并生成完整解决方案。以开发开源项目分享网站为例,模型不仅完成了1417行代码的HTML原型设计,还确保了网页布局的合理性。虽然代码量较同类模型多出近一倍,但生成结果在功能完整性上具有明显优势。

在常识推理测试中,模型展现出优秀的逻辑规避能力。面对包含逻辑陷阱的提问,模型能够快速识别关键信息并给出精准回答。值得注意的是,这种推理能力在基础版Qwen-3-Max上同样表现优异,仅需几十个字符即可完成解答,显示出阿里在模型基础架构上的深厚积累。

技术实现方面,模型引入了创新的思考预算控制机制。用户可在1024至81920个token范围内自由调节推理深度,这种设计既保证了复杂任务的处理能力,又为成本控制提供了灵活空间。实际测试表明,解决AIME压轴题约消耗1.2万至1.5万个token,处理时间约4-5分钟。

目前该模型仅支持文本生成模态,通过Qwen Chat和阿里云API提供限时免费服务。虽然尚未在Hugging Face等开源平台发布,但已在开发者社区引发热烈讨论。不少技术人员通过个人渠道获取体验资格,并在社交媒体分享使用心得,形成自发传播效应。

作为Qwen3系列的重要成员,Qwen3-Max-Thinking的参数量超过1万亿规模。今年9月发布的Qwen3-Max预览版已展现强大实力,此次推理专项模型的推出进一步丰富了产品线。业内人士分析,这种"基础大模型+专项强化模型"的组合策略,可能成为未来AI模型发展的重要方向。

 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  争议稿件处理  |  English Version