ITBear旗下自媒体矩阵:

DeepSeek-V3.2自研DSA解析:小版本升级大降价,长文本效率提升有妙招

   时间:2025-09-30 16:22:43 来源:互联网编辑:快讯 IP:北京 发表评论无障碍通道
 

DeepSeek 最新推出的实验性模型 DeepSeek V3.2 引发行业关注,其自研的稀疏注意力机制 DSA(DeepSeek Sparse Attention)成为技术突破的核心亮点。尽管此次更新属于小版本迭代,但 API 价格最高降幅达 75%,这一激进策略被业界称为“价格屠夫式”操作,同时其技术架构的革新性也引发广泛讨论。

据 DeepSeek 官方公众号披露,V3.2-Exp 版本是迈向新一代架构的关键过渡。该模型在 V3.1-Terminus 基础上引入的 DSA 机制,已通过公开评测集验证有效性,但仍需在真实用户场景中接受大规模测试。官方特别强调,用户反馈对排除潜在技术缺陷至关重要,并开放了专属反馈通道(https://feedback.deepseek.com/dsa),呼吁开发者参与技术验证。

DSA 机制的核心创新在于“先筛选后计算”的设计理念。其架构由两大组件构成:闪电索引器(Lightning Indexer)作为轻量级筛选器,以每个 token 仅 128 维的超小键缓存快速扫描上下文,为每个查询定位最相关的 2048 个关键信息;稀疏多潜在注意力(Sparse Multi-Latent Attention, MLA)则作为高精度计算单元,仅对筛选结果进行 512 维完整计算,避免无效信息干扰。这种分工模式在保证输出质量的同时,显著提升了长文本处理效率。

技术实现层面,DSA 的计算流程分为四步:首先通过查询与键的投影融入旋转位置编码,并为每个注意力头生成动态权重;随后闪电索引器利用轻量缓存计算点积得分,结合逐头权重进行掩码与缩放处理;第三步从上下文中筛选出得分最高的 2048 个 token(若上下文长度不足则启用全注意力模式);最终由稀疏 MLA 在优化后的 FlashMLA 计算核上执行精准注意力计算。整个过程通过 DeepSeek 自研的 DeepGEMM 算子实现硬件级优化,适配英伟达 Hopper 和 Blackwell 架构 GPU。

该机制的技术精髓体现在双重优势的平衡:通过 Top-k 筛选确保注意力聚焦于最相关内容,维持输出精度;同时借助闪电索引器与稀疏计算核的协同,将计算复杂度与内存占用降至极低水平。网友@teortaxesTex 评论指出:“AGI 将是稀疏的”,而 DSA 机制通过微型全注意力索引器引导大规模稀疏计算,为高效通用人工智能开辟了新路径。DeepSeek 在注意力机制领域的持续突破,彰显了其技术迭代的前瞻性与执行力。

 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  争议稿件处理  |  English Version