AI大模型发展正面临双重挑战:一方面,AI专用HBM内存价格在2026年出现超165%的暴涨,显存资源成为制约模型扩展的关键瓶颈;另一方面,高端AI芯片对华出口管制持续升级,国产算力生态在供应链安全与成本压力的双重夹击下艰难突围。在此背景下,国产模型厂商开始探索硬件受限环境下的创新路径。
在华为昇腾开发者大会上,面壁智能联合清华大学、OpenBMB开源社区发布全球首个完全基于国产昇腾平台训练的三值(1.58-bit)大模型BitCPM-CANN。该模型实现0.5B至8B全尺寸开源,推理显存需求较传统方案降低83%,在数学、代码等高精度任务中仍保持全精度模型97%以上的性能表现。这项突破标志着国产算力生态在低比特量化训练领域取得系统性进展。
技术实现层面,研发团队构建了三层创新体系:通过直通估计器(STE)方案将离散权重嵌入昇腾训练算子,在梯度更新阶段保留全精度残差;部署完整的量化感知训练(QAT)与后训练蒸馏流程,将训练吞吐量损失控制在5%以内;基于Megatron-LM框架开发可插拔的QAT并行线性层,形成支持32K长序列训练的标准化基础设施。这种技术路径使每个参数仅需1.58bit存储,信息密度较传统8位量化提升3倍。
端侧应用场景展现显著优势。以8B模型为例,传统BF16格式需要16GB显存,而BitCPM-CANN仅需2-3GB。这种压缩效率使得高端对话模型可直接部署于旗舰手机,结合MoE架构未来有望将60B参数模型带入移动终端。高通新一代端侧芯片已原生支持2-bit以下低比特推理,与该模型形成技术协同。值得注意的是,整个训练流程完全在昇腾平台原生完成,不依赖英伟达CUDA生态,填补了国产NPU在大规模三值量化训练领域的空白。
这项突破源于面壁智能在端侧AI领域的长期积累。其开发的"小钢炮"系列模型(MiniCPM)在GitHub获得超3万星标,Hugging Face平台下载量突破3000万次。面对2022年国产芯片训练能力不足的现状,团队选择自主开发训练框架BM-Train,逐步构建起覆盖稀疏架构、低比特量化、推理优化的全栈技术体系。这种技术积累使其能够快速将1.58-bit训练方法移植到昇腾平台,形成从底层算子到训练框架的完整解决方案。
在国产芯片生态建设方面,面壁智能与华为昇腾、鲲鹏及寒武纪、天数智芯等企业展开深度合作,参与优化多个国产芯片软件栈。这种跨平台经验使其建立起独特的技术认知,既能准确识别硬件瓶颈,又能开发针对性优化方案。例如在BitCPM-CANN项目中,团队通过统一checkpoint格式和分布式训练调度,解决了异构计算环境下的协同问题。
当前行业普遍遵循Scaling Law追求算力扩张,而BitCPM-CANN的实践提供了另一种发展范式:通过提升模型信息密度突破硬件限制。该模型在昇腾平台的完整跑通,证明国产算力生态具备支撑前沿AI技术研发的能力。随着60B参数端侧模型的技术路线逐渐清晰,移动终端的AI应用场景正迎来新的发展机遇。










