在北京举行的鲲鹏昇腾开发者大会2025期间,昇腾AI开发者峰会顺利召开。华为昇腾计算业务总裁张迪煊发表了题为《携手昇腾,共创辉煌》的演讲,详细介绍了昇腾在计算领域的最新进展和成果。
张迪煊表示,昇腾团队在短短六年时间里,从华为内部的一个百人团队迅速成长为拥有百万开发者的庞大生态。这一成就得益于广大客户、合作伙伴及开发者的支持与陪伴。昇腾通过不断演进的产品、深度开放的技术以及持续提升的易用性,推动了整个产业的发展。
他指出,目前已有超过5万名开发者能够深度挖掘昇腾的性能潜力,实现突破性创新,并为开源社区做出贡献。同时,昇腾还与高校合作,培养了40多万名学生,他们正在逐步进入社会和企业,成为推动AI发展的重要力量。
张迪煊强调,昇腾的CANN(Compute Architecture for Neural Networks)平台始终坚持分层开放策略,使能每一位开发者。CANN的开源组件包括Ascend C、算子加速库、集合通信库等,并在Gitee上提供了丰富的参考样例。昇腾还深度开放了Runtime运行时和毕昇编译器等接口,满足开发者对极致性能的追求。
在演讲中,张迪煊还介绍了昇腾的毕昇编译器,它提供了端到端的昇腾算子编译和调优能力。毕昇编译器通过混合编程编译能力、亲和昇腾微架构技术以及动态二进制插桩技术等手段,大幅提升了算子的性能和调试效率。
张迪煊还宣布了昇腾AI的CATLASS算子模板库。CATLASS按照计算粒度自上而下分层设计,包括Device层、Kernel层、Block层和Tile层,开发者可以通过调整接口参数自定义优化算子切分策略,实现算子性能最优。
在硬件方面,昇腾打造了业界最大规模的昇腾384超节点,由12个计算柜和4个总线柜组成,最大算力可达300 PFLOPS,48TB高速内存。昇腾384超节点通过高速总线互联替代传统以太网,通信带宽提升了15倍,单跳通信时延降低了10倍,真正实现了集群像一台计算机一样工作。
在AI训练方面,昇腾推出了MindSpeed RL强化学习开发套件,训练精度达到业界商用水平,性能持续引领。MindSpeed RL通过大规模训推共卡、权重Reshard和调度优化等技术,支持千亿规模大模型的强化学习训练。
在推理方面,昇腾实现了大规模专家并行,通过降低单卡内存权重占用和释放更多内存用于用户并发所需的KV Cache,实现了更大的单卡吞吐能力和更低的系统时延。昇腾还推出了MindIE Motor推理服务加速库,提供AutoPD分离、精细异步调度和高阶RAS等特性,进一步提升了推理性能。
张迪煊还介绍了昇腾的多模态理解SDK和推理微服务MIS,旨在简化应用部署流程,让开发者更专注于应用本身的开发和创新。昇腾社区也进行了全面升级,提供了丰富、友好、活跃的开发者创新阵地。
最后,张迪煊表示,昇腾将持续开源开放,与开发者共建中国最具活力的开源项目。同时,昇腾还将关注开发者成长和伙伴生态构建,提供丰富的成长体系和激励措施,赋能伙伴打造更有竞争力的产品和解决方案。
张迪煊的演讲赢得了现场开发者的热烈掌声。大家纷纷表示,昇腾在计算领域的不断创新和开放态度,为开发者提供了强大的技术支持和广阔的发展平台。