ITBear旗下自媒体矩阵:

阿里通义Qwen3强势登场,全球最强开源模型再添新成员

   时间:2025-05-07 14:43:45 来源:ITBEAR编辑:快讯团队 发表评论无障碍通道

近日,阿里巴巴旗下的通义平台迎来了重大更新,正式推出了新一代开源模型Qwen3,该模型在通义App及网页版中全面上线。用户现在可以在专属智能体“千问大模型”及主对话页面,率先体验到这一被誉为全球最强开源模型的智能实力。

Qwen3一经问世,便凭借其卓越的智能水平和高效的算力利用,迅速登顶全球最强开源模型榜单。该系列模型共包含8款不同尺寸,均采用了创新的“混合推理模型”架构。其中,旗舰款Qwen3-235B-A22B作为一款混合专家(MoE)模型,更是在性能上刷新了国产模型及全球开源模型的新纪录。

在代码、数学、通用能力等基准测试中,Qwen3-235B-A22B展现出了与DeepSeek-R1、o1、o3-mini、Grok-3和Gemini-2.5-Pro等顶级模型相媲美的竞争力。小型MoE模型Qwen3-30B-A3B虽然激活参数数量仅为QwQ-32B的10%,但其表现却更为出色。而Qwen3-32B作为一款稠密(Dense)模型,则以其低部署成本、高稳定性和高效性,成为了企业部署的首选。

通义此次还慷慨地开源了两个MoE模型的权重,分别是拥有2350多亿总参数和220多亿激活参数的Qwen3-235B-A22B,以及拥有约300亿总参数和30亿激活参数的小型MoE模型Qwen3-30B-A3B。同时,六个Dense模型也已在Apache 2.0许可下全面开源,包括Qwen3-32B、Qwen3-14B、Qwen3-8B、Qwen3-4B、Qwen3-1.7B和Qwen3-0.6B。

目前,经过后训练的Qwen3模型,如Qwen3-30B-A3B等,已在Hugging Face、ModelScope和Kaggle等平台上开放使用。用户还可以在Qwen Chat网页版(chat.qwen.ai)和通义APP中亲自试用Qwen3,感受其强大的智能魅力。

Qwen3模型不仅智能强大,还具备丰富的功能特性。它支持两种思考模式:深入思考和快速思考。在深入思考模式下,模型会逐步推理,深思熟虑后给出最终答案,非常适合解决复杂问题;而在快速思考模式下,模型则提供快速、近乎即时的响应,适用于对速度要求高于深度的简单问题。用户可以根据具体任务需求,灵活控制模型进行不同程度的“思考”。

Qwen3模型还支持多达119种语言和方言,使其能够跨越语言障碍,为全球用户提供智能服务。这一多语言功能无疑大大增强了Qwen3的适用性和竞争力。

Qwen3的出色表现也赢得了广大网友的一致好评。网友们纷纷表示,Qwen3能快能慢、答案精准,在编码、数学和语言处理等方面都表现出色。有网友甚至感慨:“开源模型已经很久没有这么好了。”

Qwen3的成功离不开通义团队在预训练和后训练方面的精心打造。在预训练阶段,通义实现了三重升级:数据增强、阶段训练和性能突破。通过构建覆盖119种语言、规模达36万亿token的强大数据集,以及分阶段训练和优化性能,Qwen3得以在智能水平上实现质的飞跃。

在后训练方面,通义实施了一个四阶段的训练流程,包括长思维链冷启动、长思维链强化学习、思维模式融合和通用强化学习。这一流程确保了Qwen3能够在不同任务和领域中表现出色,并具备强大的通用能力。

Qwen3的使用也非常便捷。用户可以在Hugging Face transformers中使用Qwen3模型,并通过简单的参数设置来禁用思考模式。同时,用户还可以使用多种代码库进行本地开发,如ollama、LMStudio、llama.cpp以及ktransformers等。

Qwen3在工具调用方面也表现出色。Qwen-Agent内部封装了工具调用模板和工具调用解析器,大大降低了代码复杂性,使得用户能够更加方便地使用各种工具。

回顾过去,从Qwen2.5-Max到Qwen3的推出,阿里巴巴在通用人工智能(AGI)的道路上不断取得新的里程碑。此次Qwen3的亮点在于其“双模推理”技术,为用户提供了在深度推理和及时响应之间自由切换的能力,并提供了计算资源动态分配接口,以满足不同场景的需求。未来,通义团队将继续努力提升模型性能,推动人工智能技术的不断发展。

举报 0 收藏 0 打赏 0评论 0
 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  RSS订阅  |  开放转载  |  滚动资讯  |  争议稿件处理  |  English Version