ITBear旗下自媒体矩阵:

DeepSeek-V3.2-Exp模型发布:稀疏架构助力长文本推理效率提升

   时间:2025-09-29 22:40:23 来源:快讯编辑:快讯 IP:北京 发表评论无障碍通道
 

深度求索公司近日推出了一款名为DeepSeek-V3.2-Exp的实验性模型,该模型在长文本处理效率方面实现了显著提升。据官方介绍,这款新模型是在V3.1-Terminus版本的基础上进行升级,采用了创新的稀疏注意力架构,旨在优化长文本场景下的训练与推理性能。

技术团队在V3.2-Exp中引入了DeepSeek Sparse Attention架构,通过动态分配计算资源,有效减少了长文本处理过程中的冗余计算。实验数据显示,该架构在保持模型精度的同时,显著降低了内存占用和计算成本,特别适用于需要处理超长文本的应用场景。

目前,V3.2-Exp已在标准评测集上完成初步验证,但官方强调仍需通过大规模实际应用测试来进一步优化。为支持这一过程,深度求索公司决定临时保留V3.1-Terminus版本的API接口,允许研究人员和开发者同时调用新旧两个模型进行对比测试,从而更直观地评估性能差异。

这种双版本并行的测试策略,不仅为模型优化提供了宝贵的真实场景数据,也方便了开发者根据实际需求选择更适合的版本。公司表示,后续将根据用户反馈持续调整模型参数,以提升在复杂任务中的表现。

 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  争议稿件处理  |  English Version