ITBear旗下自媒体矩阵:

深度求索发布DeepSeek-V3.2-Exp模型:稀疏注意力技术或大幅降低AI推理成本

   时间:2025-10-10 02:54:19 来源:快讯编辑:快讯 IP:北京 发表评论无障碍通道
 

当用户与ChatGPT进行长对话时,往往会发现响应速度逐渐变慢。这一现象背后隐藏着人工智能领域的基础性挑战:处理长文本序列需要消耗海量计算资源。尽管美国科技企业可以通过增加硬件投入缓解问题,但受制于芯片出口限制的中国AI公司深度求索(DeepSeek)却另辟蹊径,通过算法创新实现性能突破。

这家中国AI企业近日发布的DeepSeek-V3.2-Exp模型引发行业关注。该模型采用自主研发的"DeepSeek稀疏注意力"(DSA)技术,在保持性能的同时将API价格下调50%。这项突破建立在深度求索1月推出的R1模型基础之上——该模型以仅600万美元的训练成本达到与OpenAI o1相当的性能,其应用曾登顶iPhone应用商店排行榜。

传统Transformer架构的"暴力计算"模式是导致效率瓶颈的根源。当输入1000个词汇时,模型需要进行100万次词间关系计算;输入量增至1万词汇时,计算量将飙升至1亿次。这种二次方增长的运算需求,使得处理长对话成为技术难题。即便OpenAI可能在GPT-5中应用了稀疏注意力技术,长对话处理仍存在性能损耗。

深度求索的解决方案通过"闪电索引器"组件实现精准筛选。该神经网络模块会对词对相关性进行评分,仅保留每个词汇最关键的2048个连接。实验数据显示,采用稀疏注意力后,模型在长文本处理中的API成本最高可降低50%,且性能表现与前代模型持平。这种创新使得中国AI企业在硬件受限的情况下,依然保持技术竞争力。

与西方科技巨头封闭的技术路线不同,DeepSeek-V3.2-Exp包含MIT许可证下的开源组件和开放权重,为全球研究者提供了创新基础。尽管目前效率提升数据来自企业自测,尚未经第三方验证,但这项突破已展现出降低AI推理成本的巨大潜力。在长文本处理场景中,稀疏注意力技术可能成为改变行业格局的关键变量。

技术原理层面,注意力机制是AI理解语言的核心。通过量化词汇间的关联性,模型能够构建上下文语境。例如在"银行提高了利率"的句子中,注意力机制帮助区分"银行"的金融属性与地理属性。深度求索的创新在于,通过智能筛选关键关联,在保证理解准确性的前提下,将计算量从全量比较缩减至重点关联分析。

这项技术突破的背景值得关注。2017年原始Transformer架构设计时,主要面向数百个Token的机器翻译场景。当应用场景扩展至数千甚至上万Token时,传统方法的计算成本呈指数级增长。深度求索的稀疏注意力技术,通过动态识别关键关联,为处理超长文本提供了可行方案。

 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  争议稿件处理  |  English Version