在第四届828 B2B企业节盛大开幕之际,华为云宣布了一项重大进展:其Tokens服务已成功整合至CloudMatrix384超节点系统。通过引入创新的xDeepServe架构,该系统在单芯片上实现了前所未有的性能突破,达到2400TPS的交易处理速度及50ms的超低时延,远超当前行业标准。
面对中国AI算力需求的爆炸式增长,华为云凭借其独特的“综合优势”,正系统性地构建强大的计算能力。数据显示,从2024年初至今年6月底,中国日均Token消耗量从1000亿激增至30万亿,这一300多倍的增长不仅彰显了AI应用的迅速扩张,也对算力基础设施提出了更高要求。
今年3月,华为云推出了基于MaaS(模型即服务)的Tokens服务,该服务不仅提供了多种计费模式,还根据应用场景和性能需求,推出了在线版、进线版、离线版及尊享版等多种服务方案。这一创新举措为大模型和智能体等AI工具提供了更加灵活、经济高效的算力支持。
此次,Tokens服务的全面接入CloudMatrix384超节点,标志着华为云在算力领域迈出了关键一步。借助384超节点的原生xDeepServe框架,系统吞吐量从年初的1920TPS跃升至2400TPS,同时保持了50ms的低时延。这一成就得益于从硬件到软件、从算子到存储、从推理框架到超节点的全方位技术创新。
CloudMatrix384超节点通过革新计算架构,打破了性能瓶颈,为澎湃算力奠定了坚实基础。而CANN(昇腾计算架构)硬件使能技术,通过优化算子和通信策略,确保了云端算力的高效调度与组合。EMS弹性内存存储技术打破了AI内存墙,实现了“以存强算”,充分释放了芯片潜能。xDeepServe分布式推理框架则通过Transformerless架构,将大模型拆解为可独立扩展的微模块,实现了超高效算力。
xDeepServe的极致分离架构,如同将大模型拆解为“积木”,分派至不同NPU同步处理,再通过高性能通信库XCCL和自研推理引擎FlowServe重新组合,构建了一条超高速的Tokens处理流水线。这一创新不仅提升了单卡吞吐量至2400tokens/s,还为AI推理的线性扩展提供了可能。
作为硬件加速的中间层,CANN包含了算子库和高性能通信库XCCL等组件,共同支撑了AI模型的高效运行。XCCL专为超节点上的大语言模型(LLM)服务设计,充分利用了CloudMatrix384的UB互联架构潜力,为Transformerless架构的全面分离提供了坚实的硬件基础。
FlowServe引擎则采用了“去中心化”设计,将CloudMatrix384切割为完全自治的DP小组,每个小组具备完整的处理能力,确保了即便在千卡并发的情况下也能保持流畅运行。
在模型支持方面,华为云MaaS服务已涵盖了DeepSeek、Kimi、Qwen、Pangu、SDXL、Wan等主流大模型,以及versatile、Dify等主流Agent平台。通过大量的模型优化和技术积累,华为云实现了“源于开源,高于开源”的目标,使得大模型在昇腾云上能够更快、更好地运行。
以文生图大模型为例,华为云通过量化技术和算子融合,在轻微牺牲画质的前提下,实现了两倍于业界主流平台的出图速度,并支持最大2K×2K尺寸。在文生视频大模型方面,通过量化和通算并行等技术,大幅降低了延迟和显存占用,实现了3.5倍的性能提升。
在应用层面,华为云已与超过100家合作伙伴携手,深入行业场景,共同开发了丰富的Agent应用。这些应用涵盖了调研分析、内容创作、智慧办公、智能运维等多个领域,有效解决了产业难题,加速了企业的AI创新进程。
例如,基于MaaS平台推出的今日人才数智员工解决方案,集成了先进的NLP、机器学习和深度学习技术,实现了智能交互和任务处理,显著提升了服务效率与客户满意度。而北京方寸无忧科技开发的无忧智慧公文解决方案,则通过智能化手段提升了公文处理效率,推动了政企办公的智能化转型。