国产AI芯片领域迎来重要进展,DeepSeek-V4模型发布后,迅速引发国产芯片适配热潮。包括华为昇腾、寒武纪、海光信息、摩尔线程等在内的10款主流国产AI芯片,均已完成对V4模型的适配工作,标志着国产芯片在大模型应用方面迈出关键一步。
北京智源人工智能研究院副院长兼总工程师林咏华在接受专访时表示,V4模型的核心突破在于系统优化,通过硬件优化和架构创新,显著降低了模型所需的计算资源和显存占用,体现了在降本增效方面的极致探索。这种优化不仅提升了模型性能,更为国产芯片适配提供了技术基础。
在适配过程中,技术团队面临多重挑战。林咏华指出,首先要将DeepSeek的原版算子替换为适配国产芯片技术栈的算子,确保模型能在不同芯片上运行;其次需要解决精度转换问题,将V4采用的FP4和FP8混合精度转换为国产芯片主流的BF16精度;此外还要优化显存并行策略,突破国内主流显卡32G或64G显存的限制。通过这些技术攻关,最终实现了模型精度误差控制在5%以内,达到实用化标准。
值得关注的是,此次适配呈现出"Day0"同步发布的特征。以智源众智FlagOS技术团队为例,在V4发布当天就完成了与9家国产芯片的适配工作。林咏华解释,这种快速响应得益于提前进行的技术准备,包括建立统一的技术栈、开发跨芯片编程语言等基础工作。内部测试显示,适配后的V4 Flash模型在推理效果上已与原版基本对齐。
市场动态显示,国产芯片与大模型的适配意愿显著增强。林咏华分析,这一转变主要受推理市场算力需求激增的推动。随着智能体等应用场景的拓展,模型部署需要更多算力支持,促使模型厂商主动寻求与国产芯片的合作。这种双向奔赴的态势,与去年模型厂商主要围绕英伟达芯片开展工作的局面形成鲜明对比。
在训练领域,国产芯片也取得重要突破。基于千卡规模的国产芯片集群,已能实现与英伟达芯片相当的训练效果。林咏华团队通过多轮实验验证,在语言模型和多模态模型训练上均达到对齐标准。不过她同时指出,万卡级国产集群的稳定性和表现仍需进一步验证,这涉及行业信心和跨芯迁移等挑战。
回顾国产算力生态发展,林咏华认为近两年取得三大进步:一是实现从手写算子到AI自动生成算子的跨越,开发周期大幅缩短;二是突破单芯片专用语言限制,建立跨芯片统一编程标准;三是具备Day-0多芯片同步发布能力,跨芯片适配时间从数周缩短至数天。这些进展为构建自主生态奠定了基础。
对于生态建设方向,林咏华强调需要重点突破三个领域:一是推动开发者习惯和社区生态迁移,降低多元芯片使用门槛;二是持续优化编译、算子库和硬件特性利用,打通性能瓶颈;三是发挥网络效应,当开发者发现各类AI芯片都能简单使用时,生态才能真正繁荣。她特别指出,CUDA的成功不仅在于技术,更在于其广泛的用户基础和应用场景。











