开源大模型史上最高分！阿里千问3性能全球第三

时间：2025-08-02 12:15:44 来源：互联网编辑：茹茹 IP：北京 发表评论无障碍通道

8月2日凌晨，国际权威大模型评测 Chatbot Arena更新了最新一期的大模型榜单，上周新鲜开源的阿里千问3新模型斩获1433分，超越顶尖闭源模型Grok4、Claude4，位列所有闭源及开源模型的全球总榜第三，是全球最强非推理(non-thinking)模型，并创下全球开源模型和国产模型的史上最高分。同时，千问3还夺得数学、代码、复杂提示、长文本检索、指令遵循等5项全球第一。

全球知名ChatBot Arena大模型排行榜，千问3位列全球顶级模型第三、开源第一

Chatbot Arena是由独立研究机构LMSYS Org推出的大模型评测平台，其评测分数被认为是全球最具公信力的大模型榜单。不到一年前，Qwen2.5-72B是第一个入选该榜前十的中国大模型;上周开源的千问3非思考基础模型 Qwen3-235B-A22B-Instruct-2507 再次实现重大突破，揽获5项关键能力全球第一，并以1433分的总分创下开源大模型的史上最高分，力压Grok4、Claude4、Gemini 2.5-Flash、GPT4.1等一众顶级闭源模型，千问3与GPT4.5并列全球第三。

千问3在数学、代码、复杂提示、长文本、指令遵循等方面位列全球第一

7月22日起，阿里通义团队接连开源千问3基础模型、AI编程模型和推理模型，性能均实现同类开源模型的新突破。除千问3 指令(Instruct)模型外，推理模型 Qwen3-235B-A22B-Thinking-2507 也闯进榜单前十，数学能力并列全球第一;在Chatbot Arena专门评估编程能力的WebDev Arena子榜单中，编程模型Qwen3-Coder性能与Gemini2.5 Pro、DeepSeek-R1、Claude4并列第一。

本周，通义千问仍在以“周级迭代”频率持续更新：Qwen3-30B-A3B 更新了Instruct模型、推理模型、编程模型等3款模型，性能媲美Gemini2.5-flash、GPT-4o，可在消费级硬件直接部署，广受开发者欢迎。同时，千问3新模型的“训练秘籍”GSPO新算法也对外公开，GSPO从根源上解决了大规模MoE模型在强化学习中的稳定性问题，训练效率较经典GRPO算法实现大幅提升，GSPO论文在全球最大的AI开源社区HuggingFace里论文热度排名第一。

阿里千问模型API调用量市场份额超10.9%，位列全球第四

阿里AI多连发，在全球范围内引发新一轮接入中国开源模型热潮。海外大模型API聚合平台OpenRouter数据显示，阿里千问模型全球市场份额逾10.9%，超越OpenAI和meta-Llama系列模型，位列全球第四;其中，Qwen3-Coder调用量一周暴增1474%，位列编程领域的全球第二。

编程领域中，Qwen3-Coder尤受AI社区欢迎，API调用量一周暴增1474%

截至目前，阿里已开源300余个模型，持续推进“全尺寸”、“全模态”的全面开源。通义千问衍生模型已超过14万个，是全球第一的开源模型，也是中国企业用得最多的大模型。未来三年，阿里巴巴还将投入3800亿元在AI和云基础设施建设上，夯实“AI全栈”的技术体系和战略布局，为全球开发者和企业提供更高性能、更普惠的AI和云计算服务。

蚂蚁数科的 Agentar 企业级全栈智能体平台，通过五大核心支撑构建起金融领域智能应用的可信底座，既突破了金融场景的专业性、复杂性壁垒，又确保了技术应用的合规性与可靠性，最终推动金融新质生产力实现跃迁。支撑一：企业级全栈智能体平台，夯实技术底座平台以 “1000

在智能化开发转型的深水区，全栈开发能力已成为智能体规模化落地的核心竞争力。蚂蚁集团推出的 Agentar-Fin-R1 金融大语言模型，通过与 Agentar 企业级智能体开发平台的深度耦合，实现了从数据治理、模型训练到应用落地的全流程赋能，重新定义了金融智能体开发的效率、

当金融业务进入智能化深水区，对 AI 模型的专业深度、推理精度和合规可靠性提出了前所未有的要求。蚂蚁集团推出的 Agentar-Fin-R1 系列金融大语言模型，以 8B 和 32B 参数规模为支点，通过三大核心创新构建起金融智能体开发平台Agentar的 “最强服务引擎”，重新定义了

8月1日，上海国际赛车场迎来一场改写燃油车智能化历史的盛会——全球首款搭载华为乾崑智驾技术的燃油车上汽奥迪A5L Sportback正式上市。华为乾崑智驾与上汽奥迪以德系机械底蕴+中国智能科技的突破性组合，“打破高阶智驾”仅属新能源车的行业偏见。华为智能汽车解决方

2025年，随着全球医药产业链加速重构与创新驱动发展战略的深化，中国大健康产业迎来窗口期，那么如何优化产业链原料，保障生产安全标准，并推动品牌的国际化进程?TTS泰得思携手某护肝片品牌，为行业带来一份创新答案。通过在护肝片的覆膜阶段使用医用级离型膜产品TTS-N1

盛夏酷暑，高温天气持续，当人们回到家中，迎接他们的往往是如同蒸笼般的闷热环境。传统制冷方式在应对现代家庭对舒适度日益增长的需求时，已显得力不从心。如何让夏天更舒适，成为了亟待解决的难题。8月1日，美的空调在上海美的全球创新园区举办了一场题为“全屋空气，

2025年6月，国务院第810号令《互联网平台企业涉税信息报送规定》及国家税务总局配套公告相继发布，明确互联网平台企业对从业人员取得的劳务报酬所得，按照累计预扣法计算并预扣预缴税款。《规定》和配套公告的实施，对平台企业的税务管理能力提出了新要求，也使得劳务报

七月的大连正值旅游旺季，也是毕业季的尾声。无论是慕名而来的游客，还是怀揣梦想的学子，无不将星海广场视为了解这座海滨城市的必经之地。苏女士便是其中之一，这位刚研究生毕业的年轻学者，来到大连攻读博士学位，渴望在学术之路上更进一步。然而，当她在星海广场旁的

“补贴资格已激活!”7 月 31 日晚，重庆张阿姨刷新手机时，盯着这行字长舒一口气 —— 她惦记了一个月的一级能效冰箱，终于能省 2000 元了。同一时刻，财政部下达的第三批 690 亿元以旧换新补贴，正加急涌向全国。首先,划重点! 家电家具国补资格的领取方法入口是:京东AP

清晨的中国城市街道上，两轮电动车是常见的出行工具。但对于家住北京通州的上班族陈女士而言，便捷出行的背后也有困扰：短短两年内因电池等故障产生的意外支出，以及日常通勤中动力逐渐衰减的不确定性，“不耐用”成为她用车时的主要顾虑。随着电动两轮车深度融入中国家

8月1日，第22届中国国际数码互动娱乐展览会(ChinaJoy)在上海盛大启幕。中兴通讯终端品牌努比亚布局游戏二次元，在大会上与哔哩哔哩(B站)旗下的虚拟歌手洛天依达成合作，通过“科技+二次元IP”跨界融合，为Z世代人群带来个性、潮流的科技体验。现场，努比亚携手洛天依构

自7月31日，网信办就H20算力芯片漏洞后门安全风险约谈英伟达公司后，当日晚间，英伟达火速发布声明：“网络安全对我们至关重要。芯片不存在‘后门’，并不会让任何人有远程访问或控制这些芯片的途径。”然而，这并未完全打消业界对英伟达的质疑。就在H20解禁前，美国国

最近母婴界将迎来一个利好消息!7月28日，国家级育儿补贴制度实施方案正式发布，明确从2025年1月1日起，每个3岁以下的宝宝每年能领3600元育儿补贴，直接打到家长账户。消息一出，母婴相关的概念股立马集体飘红，贝因美、孩子王这些公司股价直接涨停;而刚通过境外上市备案

摘要：这次，瞬息宇宙把《女史箴图》复刻到了WAIC大会现场2025年7月26日，全球人工智能领域的目光再次聚焦——2025世界人工智能大会(WAIC)正迎来最具想象力的科技与文化碰撞时刻。国务院总理李强出席WAIC大会开幕式并致辞，强调人工智能正迎来爆发式发展，需平衡创新与

在人工智能大模型迅猛发展的当下，大模型参数和计算量呈指数级增长，大规模深度学习模型的训练离不开多硬件设备的分布式计算。在鲲鹏昇腾科教创新卓越中心的算力支持下，北京大学计算机学院崔斌教授团队创新研发了面向大模型的高效分布式训练框架，大幅提升了大规模分布

本网站LOGO小熊标志受版权保护，版权登记号：鲁作登字-2015-F-025467，未经ITBEAR官方许可，严禁使用。
声明：本网站是公益性科普网站，为网友提供科技类资讯内容，无障碍技术由太阳湾捐增，为阅读障碍用户提供内容听读服务。如本站内容侵犯了您的权利，请通知我们及时删除。
中国（山东）自由贸易试验区鲁ICP备11015305号-1 商业合作入口
Copyright © 小熊科技资讯 2007-2024 ITBEAR.COM.CN All rights reserved.