ITBear旗下自媒体矩阵:

DeepSeek新模型DeepSeek-V3.2-Exp上线,引入DSA机制,开源双版本算子还降价

   时间:2025-09-30 03:15:29 来源:互联网编辑:快讯 IP:北京 发表评论无障碍通道
 

人工智能领域再掀波澜,DeepSeek最新推出的V3.2-Exp模型正式上线,引发行业广泛关注。这款基于V3.1-Terminus版本升级的新模型,不仅在架构设计上实现突破,更在性能优化和成本管控方面取得显著进展。

核心技术创新方面,新模型引入的DeepSeek Sparse Attention(DSA)稀疏注意力机制成为最大亮点。该机制通过细粒度注意力分配,在保持模型输出质量的同时,大幅提升了长文本处理效率。据技术文档披露,在处理128K长度上下文时,新模型的解码阶段推理成本较前代版本降低明显,尤其在需要处理复杂逻辑的长文本场景中表现突出。

性能对比测试显示,V3.2-Exp在多个公开评测集上的表现与V3.1-Terminus持平。作为V3.1的强化版本,后者已在稳定性、工具调用准确性、语言一致性等维度完成多轮优化。新模型在继承这些优势的基础上,通过注意力机制创新实现了效率与效果的平衡。

在技术实现层面,研发团队采用TileLang高级语言进行算子原型开发,最终形成TileLang与CUDA双版本开源方案。这种分层实现策略既保证了开发阶段的调试便利性,又通过底层语言优化实现了生产环境的性能提升。官方特别建议研究机构优先使用TileLang版本进行实验,以提升开发迭代效率。

商业策略调整方面,DeepSeek同步推出API服务价格优惠,降幅达五成且立即生效。该举措覆盖官方App、网页端及小程序全平台,配合模型升级形成完整的产品服务矩阵。目前用户可通过HuggingFace和ModelScope平台获取新模型资源,相关技术论文也已在GitHub开源仓库公布。

行业动态显示,头部企业间的技术竞赛持续升温。有消息指出,智谱科技即将推出GLM-4.6模型,其产品矩阵中GLM-4.5已被标注为"上一代旗舰"。这种代际更替速度反映出AI领域激烈的技术迭代压力,某企业GitHub页面甚至以幽默方式回应研发节奏:"国庆是休息日,请给团队一点时间",侧面印证了节前技术冲刺的行业现象。

 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  争议稿件处理  |  English Version