滚动资讯

当前位置：首页 > 资讯 > 人工智能 > 正文内容

DeepSeek V4预览版发布：百万上下文标配，技术革新引领AI新方向

时间：2026-04-25 01:16:13 来源：互联网编辑：快讯 IP：北京 发表评论无障碍通道

人工智能领域迎来重大突破，DeepSeek正式发布V4预览版大模型，同步开源其核心技术架构。此次发布的V4系列包含Pro与Flash两个版本，均实现百万级（1M）token上下文处理能力，同时将计算资源需求降低至行业领先水平。据技术报告披露，在百万token场景下，V4-Pro的单token推理计算量仅为前代V3.2的27%，关键值（KV）缓存占用压缩至10%。

传统Transformer架构面临的核心挑战在于注意力机制的计算复杂度与序列长度的平方成正比。当处理百万级上下文时，计算资源消耗呈指数级增长，导致商业化应用难以落地。此前行业虽尝试通过滑动窗口、检索增强生成（RAG）等技术规避长文本处理，但均存在全局信息丢失或检索质量瓶颈等问题。DeepSeek此次提出的CSA+HCA混合注意力架构，通过动态稀疏计算与潜空间压缩技术，在保持模型性能的同时实现计算效率质的飞跃。

CSA（压缩稀疏注意力）机制创新性地引入可训练的稀疏结构，通过轻量级索引器对token相关性进行预筛选，仅对关键token对执行完整注意力计算。该设计使模型在训练过程中自动学习最优稀疏模式，较前代DSA架构的固定稀疏模式具备更强的任务适应性。HCA（高度压缩注意力）则在MLA多头潜在注意力基础上，将KV向量映射至低维潜空间，配合FP4+FP8混合精度训练，使显存占用进一步减半。两项技术叠加使模型在同等算力下可支持3-4倍的长上下文并发处理。

技术革新带来显著性能提升。在数学竞赛推理测试中，V4-Pro以Codeforces 3206分、Apex Shortlist 90.2分的成绩领跑行业，IMOAnswerBench得分89.8分紧追GPT-5.4。软件开发能力评估显示，其SWE Verified得分80.6分与Claude Opus 4.6持平，Toolathlon工具使用测试以51.8分超越Opus 4.6的47.2分。长文本处理专项测试中，MRCR百万级关键信息检索准确率达83.5%，较Gemini 3.1 Pro提升7.2个百分点；但在CorpusQA百万级文档问答测试中62.0分的表现，与Opus 4.6的71.7分存在差距。

轻量化版本V4-Flash展现惊人效率，总参数量2840亿中仅130亿需激活，约为Pro版的18%。该版本在保持百万上下文处理能力的同时，在简单Agent任务中达到与Pro版相当的性能水平。技术团队特别优化了1.6万亿参数超大规模模型的训练稳定性，通过mHC流形约束残差连接解决跨层信号衰减问题，并采用基于矩阵正交化的Muon优化器替代传统Adam系列，使训练收敛速度与稳定性获得显著提升。

此次发布的技术报告强调，当前版本仍属"预览阶段"，CSA稀疏训练机制在不同任务分布下的泛化能力，以及HCA潜空间压缩对复杂推理任务的影响，将成为开源社区后续研究的重点。行业观察人士指出，DeepSeek通过架构创新打破长文本处理的技术-成本悖论，可能推动生成式AI在科研、金融、法律等需要深度上下文理解的领域实现规模化应用。

更多>同类资讯

祥和实业2025年业绩创新高核心业务稳健新兴无人机业务成增长新引擎

04-25

市场探底回升：港股信息技术与科创芯片ETF领涨通信ETF走弱

04-25

一季度GDP十强城市表现亮眼：工业消费外贸齐发力区域发展现新趋势

04-25

豪恩汽电2026年一季报：收入超预期增长，扩张期机遇与挑战并存

04-25

DeepSeek V4革新：CSA+HCA架构突破长文本处理瓶颈，开启百万上下文新篇

04-25

DeepSeek V4发布：从技术突破到生态共建的五大关键布局

从去年底到今年2月、3月、4月初，DeepSeek V4的发布窗口推了三次，行业里各大模型的频繁更新几乎进入了最密集的时刻。但当一个万亿参数级的开源旗舰模型，在发布首日就能跑在国产算力的全系列产品上，适配…

04-25

GPT-5.5正式官宣：性能飞跃效率飙升，知识工作全流程开启智能新篇

在Codex中，它可以承担从代码实现、重构，到调试、测试与验证的全流程工程任务。在Codex中，GPT-5.5支持最高40万token的上下文窗口，还提供Fast模式，速度提升了1.5倍，但成本是普通模式…

04-25

GPT-5.5实测：从“回答者”到“执行者”，AI工作新范式来了

这一代模型更像一个可以协作的执行者，得分只是表面，更重要的是这些分数背后指向的一件事：GPT-5.5的定位，从“回答”转向了“执行”。如果把GPT-5.5放在过去这一年的演进脉络里看，它并非单纯地围绕模型…

04-25

OpenAI连发新模型夺回AI领域首位，但万亿估值对手紧追不舍

距离 OpenAI 上次发布GPT 5.4仅不到两个月时间，从网友的实测来看GPT-5.5已经有了不小的进步，更会说“人话”了、更快了、编程更强了，“OpenAI仍在创新”，但同时，价格也翻倍了。官方表示，…

04-25

DeepSeek-V4预览版开源上线：创新技术引领AI大模型进入百万上下文新阶段

模型分为两个版本：DeepSeek-V4-Pro拥有1.6万亿参数，在Agent能力、世界知识和推理性能上均达到国内与开源领域的领先水平；DeepSeek-V4-Flash则以更小的参数量提供接近的推理能力，…

04-25

AI浪潮下科学阅读成关键：重建价值观、普及审辨力、催化创造力

那么，如果说此前我们对文科与理科的融合，是一种对理想状态的呼唤，在人工智能的大背景下，强调文理共生，是人类要想生存必须拥有的自觉。以企业为例，企业要想跨越商业的周期、赢得时代的挑战，需要提前布局，需要主动与社…

04-25

DeepSeek-V4发布：华为昇腾助力，性能提升，价格亲民开启新篇章

DeepSeek在文章中表示，V4 开创了一种全新的注意力机制，在 token 维度进行压缩，结合 DSA 稀疏注意力（DeepSeekSparse Attention），实现了全球领先的长上下文能力，并且…

04-25

GPT-5.5强势登场：性能跃升成本优化重塑AI助手竞争格局

OpenAI表示，GPT-5.5在处理复杂、多步骤任务时表现出色，能够自主规划、调用工具、检查结果，并在模糊条件下坚持完成工作，显著提升了代码编写、数据分析、在线研究、文档与电子表格创建以及软件操作等能力…

04-25

沙漠与太阳能板的“邂逅”：挑战中孕育希望，发电生态两不误

很多人一听沙漠和太阳能板的组合，第一反应就是这不天作之合吗，阳光管够，太阳能板专门发电，简直绝配啊。太阳能板最怕积灰，沙漠里风一吹，板子表面就像蒙了一层沙子，阳光透不过去，发电效率立马掉。而且清洗也是个难…

04-24

智慧光伏运维管控平台：以科技赋能，实现光伏电站高效安全全周期管理

应用，通过实时监测与智能优化，减少发电损失，有效提高系统转换效率；实现故障预测性维护，减少人工巡检频次，缩短故障修复时间的同时降低运维成本；通过环境监测与风险预警，预防火灾、触电等安全事故，增强电站安全性；…

04-24

点击查看更多 +

全站最新

公告精选︱生益科技：拟投资约52亿元建设高性能覆铜板项目；东方财富：一季度净利润37.38亿元同比增长37.67%

闪迪升破1000美元，再创历史新高，年内累涨超320%

英伟达拉升涨近4%，市值重回5万亿美元

守拙者"降维"：石头科技的第一性原理生意经

北京网络文化经营许可证全攻略：条件资料流程有效期一站式解读

Agent落地企业新趋势：从“能说会道”到“高效交付”的转变

热门内容

本栏最新

DeepSeek-V4预览版上线开源：双版本矩阵架构创新引领AI新发展

2026北京车展魏牌V9X亮相豪华配置与强劲性能开启大型插混SUV新体验

2026北京车展：长安马自达EZ-60马年版登场，增程纯电双版本任选

2026北京车展：江汽集团携多款车型亮相发布CV质检大模型加速创新

北京车展轻舟智航“亮剑”：物理AI模型登场，智驾体验开启新征程

捷达北京车展展新姿：底气支撑、诚意铺路、行动开启电动新程

本网站LOGO小熊标志受版权保护，版权登记号：鲁作登字-2015-F-025467，未经ITBEAR比尔科技官方许可，严禁使用。
声明：本网站是公益性科普网站，为网友提供科技类资讯内容，无障碍技术由太阳湾捐增，为阅读障碍用户提供内容听读服务。如本站内容侵犯了您的权利，请通知我们及时删除。
中国（山东）自由贸易试验区鲁ICP备11015305号-1 联系入口
Copyright © 比尔科技 2007-2024 ITBEAR.COM.CN All rights reserved.