在2025云栖大会开幕式上,阿里巴巴宣布推出七款全新通义系列模型,进一步巩固其在人工智能领域的领先地位。此次发布的模型涵盖编程、多模态处理、视频生成等多个领域,标志着阿里在AI技术布局上的又一次重大突破。
作为本次发布的核心产品,Qwen3-MAX万亿参数大模型在编程与工具调用能力方面表现突出。该模型预训练数据量达36T tokens,包含Instruct和Thinking两个版本。Instruct版本在SWE-Bench Verified测试中斩获69.6分,位列全球第一梯队;Thinking版本在AIME25评测中得分81.6,显著高于前代模型。这两个版本分别适用于即时交互任务和高阶逻辑推演场景,展现了强大的技术实力。
另一款重磅产品Qwen3-Omni原生全模态大模型支持19种语言及方言输入、10种语言输出。该模型采用Thinker-Talker MoE架构,可处理长达30分钟的会议录音或播客并精准输出纪要。在音频识别、语音生成等任务上全面超越前代模型,闭源版提供17种拟人音色,每种音色支持10语种自然表达,展现了卓越的多语言处理能力。
在视频处理领域,Qwen3-VL视觉理解模型实现重大突破。该模型支持2小时视频精确定位,OCR语言从19种扩展至32种,生僻字、古籍、倾斜文本识别率显著提升。其视觉智能体在OS World等评测中达世界顶尖水平,Thinking版本在MathVista、MathVision等STEM推理评测中达SOTA水平,为视频内容理解提供了强大技术支持。
编程领域迎来Qwen3-Coder智能编程模型,该模型支持多模态输入,可上传截图+自然语言指令生成代码。新版本在SWE-Bench Verified上得分达70.3,TerminalBench与SecCodeBench也显著上涨。支持256K上下文,可一次性理解并修复整个项目级代码库,推理速度更快、Token消耗更少、安全性更高,为开发者提供了高效的编程工具。
视频生成领域,Wan2.5-Preview首次原生支持音画同步,可生成10秒长视频,时长提升1倍,最高支持1080P 24fps画质。该模型在复杂指令遵循、图生视频保ID优化、通用音频驱动等方面实现升级,为视频创作提供了更强大的技术支持。
企业级应用方面,全新发布的通义百聆整合了Fun-ASR语音识别大模型与Fun-CosyVoice语音合成大模型。Fun-ASR通过首创的Context增强架构,将幻觉率从78.5%降至10.7%,支持热词动态注入与跨语种语音克隆。Fun-CosyVoice采用创新性语音解耦训练方法,支持跨语种语音克隆,5分钟即可完成配置,为企业语音应用提供了可靠解决方案。
阿里巴巴集团CEO吴泳铭在会上系统阐述了通往超级人工智能(ASI)的三阶段演进路线。他指出,AI发展将经历"智能涌现"、"自主行动"和"自我迭代"三个阶段,最终实现能自我迭代、全面超越人类的ASI。吴泳铭强调,大模型将成为下一代的操作系统,超级AI云是下一代的计算机,未来全世界可能只会有5-6个超级云计算平台。
为实现这一愿景,阿里巴巴正在积极推进三年3800亿的AI基础设施建设计划。阿里云智能集团首席技术官周靖人介绍,阿里云百炼平台在Agent智能体开发与AI基础设施上实现了功能改进和升级,提供低代码开发方式和基于Agentscope的Agent开发框架,支持多种开发方式,全面提升开发效率。
在AI基础设施方面,阿里推出磐久AI Infra2.0 128超节点服务器,单柜最高功率达350千瓦,系统供电可用性高达99.9999%。同时推出高性能网络HPN8.0,支持跨数据中心连接,实现资源调度。分布式存储方面,CPFS单客户端存储量达每秒40GB,相比传统方案提升60%,为AI应用提供了强大的基础设施支持。