DeepSeek-V3.2-Exp实验性模型近日正式上线,该版本聚焦长文本场景下的训练与推理效率优化,通过引入新型注意力机制实现性能与成本的双重突破。核心创新在于采用稀疏注意力架构,在保持模型准确率的前提下,将计算效率提升至传统架构的2-3倍,内存占用减少30%-40%。
上海交通大学人工智能学院赵沛霖教授指出,这项技术虽非DeepSeek原创,但首次在6710亿参数量级的超大规模模型中实现有效落地。传统Transformer架构自2017年提出以来,其自注意力机制因需要计算每个词与全序列的相关性,导致计算复杂度呈平方级增长。谷歌原始论文虽已提出稀疏化改进方向,但始终未能在超大规模模型中验证可行性。
稀疏注意力机制的创新性在于突破"全量计算"模式,通过智能筛选关键信息节点,将计算范围从全局压缩至局部重点区域。这种"精准打击"式处理方式,使模型在保持90%以上原性能的同时,计算量骤减75%。赵沛霖教授以电力预测研究为例,说明该技术早在2020年就已展现应用潜力,但此前受限于模型规模难以发挥优势。
技术团队同步披露的定价策略引发行业震动。新版本API输出价格降至每百万tokens仅3元,相当于国际主流模型的1/30至1/20,开发者调用成本直降50%以上。这种"普惠式"定价模式,使得中小企业和个人开发者首次获得与头部机构同等的算力使用权。
性能测试数据显示,新模型在长文本推理场景中展现显著优势。以金融报告分析为例,处理10万字文档的速度较前代提升120%,内存占用从48GB降至32GB。这种效率跃升不仅源于稀疏注意力机制,还得益于团队正在探索的线性注意力补充方案——通过低成本算法弥补稀疏化可能遗漏的关联信息。
产业影响层面,该技术突破具有双重价值。其一,通过降低75%的算力需求,有效缓解国内GPU芯片供应压力,为人工智能基础设施建设提供新的优化路径。其二,成本门槛的大幅下降,使得医疗诊断、法律文书分析等原本依赖中小模型的高精度场景,开始具备直接调用大模型的技术经济可行性。
技术专家特别强调,这种效率革命并非单纯追求计算速度。在保持模型核心性能的同时,通过架构创新实现资源最优配置,标志着人工智能发展从"算力堆砌"向"智能优化"的重要转型。随着新版本在金融、医疗、科研等领域的逐步渗透,其引发的产业连锁反应正在持续显现。