近日,面壁智能联合清华大学及 OpenBMB 开源社区,正式发布并开源了中国首个基于华为昇腾平台训练的三值(1.58-bit)大模型 ——BitCPM-CANN。该模型在低比特大模型训练领域取得了重大突破,标志着中国在人工智能技术上的又一里程碑。
BitCPM-CANN 的推出,不仅展示了国产算力平台的强大实力,还实现了从量化算子到训练算法的全链路原生开发。该模型分为0.5B、1B、3B 和8B 四个尺寸,性能表现卓越,相较于同尺寸的全精度家族 MiniCPM4进行了逐项对照评测,结果令人振奋。BitCPM-CANN 在推理阶段能够释放约6倍的显存红利,这意味着一个8B 参数的模型能够轻松运行在当前主流旗舰手机上,为手机产业带来了极大的便利。
官方介绍,面壁智能基于 MindSpeed 与 Megatron-LM 搭建了完整的低比特训练底座,涵盖了环境适配、32K 长序列支持、并行策略、融合算子等工程体系。今后,所有面向昇腾的低比特训练工作都可以依托这一套公共基础设施。这不仅降低了开发门槛,也加快了技术的迭代速度。
为了进一步推动这一技术的应用,BitCPM-CANN 的所有模型权重均已开源,用户可以通过 HuggingFace 和 ModelScope 平台获取。这为开发者提供了一个极具潜力的工具,鼓励更多的创新应用在 AI 领域涌现。
BitCPM-CANN 的发布标志着中国在 AI 大模型训练领域迈出了坚实的一步,为未来的智能应用铺平了道路。











