中国科学院自动化研究所的科研团队近日取得重大突破,推出国内首个自主可控的类脑脉冲大模型SpikingBrain(瞬悉)-1.0。该模型通过模拟人脑神经元工作机制,构建了全新的线性复杂度架构,在超长序列处理领域展现出显著优势,为人工智能发展开辟了新路径。
传统大模型普遍采用Transformer架构,其计算复杂度随序列长度呈平方级增长,导致训练和推理成本居高不下。SpikingBrain-1.0突破性地引入脉冲神经元技术,构建了线性(7B参数)和近线性(76B参数)复杂度模型。测试数据显示,在GPU环境下处理100万长度序列时,其首个Token生成速度较主流模型提升26.5倍;处理400万长度序列时,保守估计速度提升超过100倍。移动端测试同样亮眼,在手机CPU上处理6.4万至25.6万长度序列时,解码速度较同规模Llama3.2模型提升4.04至15.39倍。
研发团队创新性地将生物神经元动力学特性融入模型设计。通过构建自适应阈值神经元模型,精准模拟神经元脉冲发放机制,配合虚拟时间步策略实现电位与脉冲的转换。这种动态阈值脉冲编码方案,将传统模型中占比超90%的稠密矩阵运算,转化为事件驱动的稀疏脉冲计算,使神经元在静息状态下保持极低能耗。结合网络层的混合专家(MoE)架构,形成微观神经元与宏观网络的双重稀疏化机制,实现计算资源的高效分配。
在模型兼容性方面,研究团队建立了脉冲神经元动力学与线性注意力机制的数学关联,证明现有线性注意力是树突计算的简化形式。基于此理论突破,开发出标准自注意力机制到低秩线性注意力模型的转换技术,并适配脉冲编码框架。为支持国产算力生态,团队还研发了面向国产GPU集群的高效训练框架,包含定制化Triton/CUDA算子库、模型并行策略及集群通信协议。
性能验证显示,7B参数模型仅需传统模型2%的训练数据,即可达到同等语言建模水平。76B混合线性模型通过优化注意力机制设计,在保持基座模型性能的同时,激活参数量较同类模型减少40%。在长序列处理场景中,51.2万长度序列的推理速度较Qwen基准模型提升13.88倍,百万长度序列下提升26.5倍。当序列扩展至400万长度时,传统模型已无法完成测试,而SpikingBrain仍保持稳定性能。
该模型已实现全流程国产化部署,训练和推理均在国产GPU平台完成。研究团队开源了7B参数版本,并上线76B参数模型的在线试用端口,支持数百人并发访问。移动端部署方案显示,1B参数压缩模型在6.4万至25.6万长度序列处理中,解码效率显著优于国际主流模型。这项突破为超长序列科学计算提供了新工具,在分子动力学轨迹分析、DNA序列建模等领域具有广泛应用前景。