华为云大模型即服务平台MaaS近日迎来新成员——DeepSeek-V3.2-Exp模型正式上线并开源。该模型通过引入创新的稀疏Attention架构,在保持性能的同时显著优化了计算资源利用率,为长序列处理场景提供了更高效的解决方案。
据技术文档披露,稀疏Attention架构通过动态选择关键信息节点,将传统注意力机制的计算复杂度从平方级降至线性级。这一突破不仅减少了30%以上的GPU算力消耗,更使模型推理速度提升近一倍,尤其适用于需要处理超长文本的场景。
在部署方案上,华为云延续了其标志性的大EP并行架构,并针对新模型特性进行深度优化。通过将稀疏Attention结构与上下文并行策略相结合,系统实现了负载均衡与通信效率的双重提升。测试数据显示,该方案在保持低时延(<50ms)的同时,将吞吐量提升至每秒万级token处理能力。
目前,开发者可通过华为云MaaS平台直接调用DeepSeek-V3.2-Exp模型,享受从模型训练到部署的全流程服务。平台提供的自动化调优工具可针对不同业务场景,动态调整稀疏度参数与并行策略,帮助用户快速构建定制化AI应用。
行业分析师指出,此次技术融合标志着大模型架构进入"高效计算"新阶段。稀疏Attention与并行计算的结合,既解决了长序列处理的资源瓶颈,又保持了模型精度,为金融、法律、科研等需要处理海量文本的领域带来新的技术范式。