ITBear旗下自媒体矩阵:

阿里Qwen3-Max-Preview携超万亿参数震撼登场,多项评测成绩登顶,性能实力超群

   时间:2025-09-06 11:53:49 来源:新智元编辑:快讯团队 IP:北京 发表评论无障碍通道
 

阿里云百炼平台迎来重磅更新——Qwen3-Max-Preview(Instruct)模型正式上线。这款参数规模突破万亿级的大语言模型,在权威基准测试中展现出碾压性优势,多项指标超越Claude-Opus 4(Non-Thinking)、Kimi-K2及DeepSeek-V3.1等主流模型,甚至将阿里自家Qwen3-235B-A22B-Instruct-2507版本甩在身后。

在知识推理评测SuperGPQA中,Qwen3-Max-Preview以64.6分登顶;数学推理评测AIME25中,80.6分的成绩形成断层式领先;复杂问题解决测试Arena-Hard v2中,86.1分的表现大幅超越同类模型。更值得注意的是,该模型在LiveBench"抗操控性"评测中取得79.3分,证明其在应对恶意引导时的稳定性。

实测环节中,模型在物理模拟、前端开发等场景展现惊人能力。开发者@karminski-牙医测试显示,在流体动力学模拟中,Qwen3-Max-Preview能准确呈现杯子倾倒时液体的物理轨迹,而Gemini 2.5出现底部数据异常,DeepSeek-V3.1则错误呈现物体倒出状态。该模型还能一键生成符合物理规律的SVG动画,并快速构建交互式网页界面。

技术特性方面,新模型支持超过100种语言,针对检索增强生成(RAG)和工具调用进行专项优化。在阿里云百炼平台,用户可通过API调用该模型,最大支持256k上下文窗口。计费模式采用阶梯定价:0-32k token输入0.006元/千token,输出0.024元/千token;32k-128k区间输入0.01元/千token,输出0.04元/千token;128k-252k区间输入0.015元/千token,输出0.06元/千token。

同步上线的Qwen Chat服务向用户开放免费体验,开发者可测试模型在多轮对话、任务拆解、指令响应等场景的表现。实测案例显示,该模型能精准理解复杂指令,如根据单张照片生成像素风格花园设计,或创建骑自行车的鹈鹕动态矢量图。这些能力验证了Scaling Law(规模定律)在模型性能提升中的持续有效性。

举报 0 收藏 0 打赏 0评论 0
 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  争议稿件处理  |  English Version