ITBear旗下自媒体矩阵:

阿里通义千问升级推理模型Qwen3,AIME25评测高分展现强大数学能力

   时间:2025-07-31 10:25:06 来源:IT之家编辑:快讯团队 IP:北京 发表评论无障碍通道
 

近日,阿里通义千问正式揭晓了其最新的推理模型——Qwen3-30B-A3B-Thinking-2507。相较于早先4月29日推出的Qwen3-30-A3B模型,新版本在推理能力、通用功能及上下文处理能力方面实现了显著提升。

在数学能力专项评测AIME25中,Qwen3-30B-A3B-Thinking-2507以85.0的高分脱颖而出,同时在代码能力测试LiveCodeBench v6中也取得了66.0的优异成绩。这两项核心推理能力的表现均超越了Gemini2.5-Flash(thinking)和Qwen3-235B-A22B(thinking)模型。新模型在知识水平评测GPQA和MMLU-Pro中也展现出了显著进步。

在通用能力方面,Qwen3-30B-A3B-Thinking-2507同样表现出色。无论是写作评测WritingBench、Agent能力评测BFCL-v3,还是多轮对话和多语言指令遵循评测MultiIF,新模型均超越了Gemini2.5-Flash(thinking)和Qwen3-235B-A22B(thinking)。新模型还具备更长的上下文理解能力,原生支持256K tokens,且可扩展至1M tokens,进一步提升了其处理复杂情境的能力。

Qwen3-30B-A3B-Thinking-2507的思考长度也有所增加。阿里通义千问官方建议,在处理高度复杂的推理任务时,应设置更长的思考预算,以充分发挥新模型的潜力。

目前,Qwen3-30B-A3B-Thinking-2507已在魔搭社区和HuggingFace平台上开源。由于其轻量级的体积设计,用户可以轻松地在消费级硬件上实现本地部署。同时,该新模型也已在Qwen Chat平台上同步上线,供用户体验。

举报 0 收藏 0 打赏 0评论 0
 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  开放转载  |  滚动资讯  |  争议稿件处理  |  English Version