ITBear旗下自媒体矩阵:

梁文锋搭箭,黄仁勋难安

   时间:2026-04-02 13:28:17 来源:饭盒财经编辑:快讯 IP:北京 发表评论无障碍通道
 

不发一言,全网却在时刻盯梢。

3月29日晚至30日上午,DeepSeek经历了一场大规模服务中断。据环球时报,29日22时开始,网页端与App全面卡顿,频繁弹出“服务器繁忙”提示,相关功能无法正常使用。至30日清晨,仍有用户反馈无法正常使用。

而后,“DeepSeek崩了”相关话题迅速冲上百度、微博、今日头条等多个平台的热搜榜前十。海外科技圈也在关注,除了媒体报道,更有不少专业用户进行实测,对比前后同一任务的执行结果。

对比外界的高度关注和推测,DeepSeek官方没有进度通报,也没有解释原因。3月30日上午,官网发布公告:DeepSeek网页/APP性能异常,服务状态显示“正常”。

3月中上旬,更是因为 OpenRouter上出现的一款名为Hunter Alpha神秘模型,而引发了猜测。当时,不少开发者认为这可能是V4的隐身测试版。后来,证明该神秘模型并非V4,是小米旗舰模型MiMo-V2-Pro的内部测试版本。而DeepSeek对该推测并未发声。

一动一静,微妙的张力来自梁文锋:“箭”已上弦,但迟迟未发。

2024年年底V3,随后的2025年年初R1发布,DeepSeek瞬间比肩OpenAI等巨头,登顶中美等国App Store榜首。产品技术之外,因极低的算力成本,引发美股半导体板块剧烈震荡。现如今,行业正屏息以待梁文锋的下一个大招——DeepSeek V4。然而,原本业内预期在今年一季度就会亮相的 V4,却一再推迟。

2月、春节前后、3月初、最早4月,外界对DeepSeek V4发布的时间猜测一路后移。除此,V4的定位、架构、性能、上下文窗口、定价、供应链等情况也在高度关注中,传闻不断。

其中,一条供应链相关的报道,更是在技术之外引发了各种猜想。据路透社报道,两位了解情况的消息人士表示,DeepSeek在即将进行重大模型更新之前,未向美国芯片制造商展示其即将推出的旗舰模型,这打破了行业标准做法。

短短几行字,透露的是一个“釜底抽薪”的链路。

英伟达能撑起这万亿市值,靠的不仅仅是GPU硬件本身,还有其打磨了十几年的CUDA软件生态。CUDA就像是给全球AI开发者铺好的一条路,沿着走总能“大力出奇迹”。但如真和上述报道透露的一样,DeepSeek要做的便是铺好了一条“绕过CUDA”的高速公路。

而更戏剧性的是,从2025年12月至今DeepSeek相关方面陆续发布的论文和开源项目来看,这些推测并非空穴来风。

拿着放大镜找变化

当地时间3月29日傍晚,X平台上,名为“AiBattle”的用户发了一条推文。

The DeepSeek model that they serve on the WEB/APP may have been updated again

The model does seem to consistently identify itself as V3 now

The zero-shot coding outputs I’m getting now also seem different in style from the ones I got a few days ago

It needs more testing to be completely sure

翻译过来,大概的意思就是:网页和APP端上,DeepSeek模型可能已经再次更新。现在,这个模型似乎始终将其自身标识为V3版本。做了一些测试,发现零提示能力大涨,输出的风格和几天前不太一样。但还需要进行更多测试才能完全确定结论。

配图则是两张鹈鹕骑自行车的前后对比图。

通过这张对比图,明显能看到其空间与图形代码能力大幅提升。在画面构图、色彩搭配以及元素逻辑上,肉眼可见地碾压一周前的版本。截至3月31日18:47,该条推文累计获得162.8K个Views。

用SVG(可缩放矢量图形)画一只骑自行车的鹈鹕,常被视为大模型空间与渲染能力“试金石”的极限测试题。

这道测试题,来自全球知名的开源开发者、Django框架联合创始人Simon Willison。他认为现在大模型刷榜的数据水分太大,而SVG本质上是由无数的坐标、曲线公式和颜色代码组成的纯代码。让一个没有真手真眼的“纯文本 AI”用代码去精确描绘“一只鹈鹕”的生物特征和“一辆自行车”机械结构,能直接暴露出大模型的空间想象能力和代码逻辑能力。

一天后,该用户补充发布了“更多测试”的结果。

“AiBattle”表示,在7小时的宕机之后,DeepSeek可能再次对模型进行了修改。在停机之前,该模型自称为V3版本。现在它又变回自称“最新版本”。SVG的质量似乎也变得更差,回到了以前的状态。

如“AiBattle”这样的开发者并不是少数。AI圈如同被DeepSeek“断更”,他们拿着放大镜,试图找到蛛丝马迹,以证明V4已在弦上。

例如,他们发现知识库截止日期可能悄悄延后了。有用户发现,DeepSeek不开启联网搜索的前提下,知道2025年美国选举结果,但对2026年2月的大事则一无所知,这使得外界推测新版本的知识截止日期可能是2026年1月。

例如,上下文token方面。2月11日,DeepSeek悄悄把现有模型的上下文窗口从128K扩到1M tokens,并将知识截止更新到2025年5月。社区很多人把这理解为V4相关基础设施正在上线前测试。

底层技术论文,往往是新一代大模型的预告片和说明书。

对比外界的推测和社区的测试,更确定的是自2025年年底以来,DeepSeek发布的论文和开源的项目。

2025年12月31日,梁文锋上传发布了一篇名为《mHC: Manifold-Constrained Hyper-Connections》的论文。

这篇文章解决了传统Hyper-Connections在大规模训练中信号指数放大(最高可达3000×)导致的训练崩溃问题,以及通过将HC的残差空间投影到特定流形,恢复恒等映射(identity mapping)属性,保证信息守恒。

论文中,梁文锋的名字出现在作者一栏中。

2026年1月,DeepSeek在GitHub上发布了一项名为“Engram”的研究成果,并同步上传了名为《Conditional Memory via Scalable Lookup: A New Axis of Sparsity for Large Language Models(基于可扩展查找的条件记忆:大语言模型稀疏性的新维度)》的论文。

这一研究成果,被业内称为“用哈希表替代大模型死记硬背”的神器。

这或许是梁文锋准备的三支利箭。

有的放矢,想要榨干硬件的每一滴性能

如今的大模型军备竞赛中,顶级AI公司发布底层技术论文,早就不是传统意义上的“秀肌肉”了。

这三支箭,自然也是有的放矢。

先看,mHC(Manifold-Constrained Hyper-Connections)。类似一个稳定的骨架,解决“练得出来”的问题。

当模型参数飙升到几千亿甚至万亿时,传统的残差连接会成为信息流通的“窄门”,但随意增加跨层连接又会导致训练崩溃。mHC通过将这些连接约束在特定的数学流形(双随机矩阵)上,保证了超大模型在极深、极宽的架构下依然能稳定训练。

怎么直白的理解?

这种新型的连接结构,就相当于花一点点小钱,换来团队高效率。就好像,在AI内部稍微调整了一下“部门间的沟通机制”,虽然增加了6-7%的沟通成本,但让整个模型在学习时再也不会出现“配合混乱”的问题,变得更稳定、更聪明。

而Engram(条件记忆模块),就像是外挂的硬盘,解决“记得住且够聪明”的问题。

基于mHC搭好的超大模型骨架,Engram开始对“大脑”进行分区。过去的大模型把所有知识都死记硬背在昂贵的神经网络权重里,导致“推理计算”和“记忆”抢占资源。Engram 引入了全新的稀疏性,把静态知识打包成哈希表卸载到廉价的CPU内存里,通过O(1) 极速查找,从而把极其宝贵的GPU算力100%释放出来,专门用于复杂的逻辑推理。

这种稀疏注意力,就相当于让大模型学会“一目十行”和“抓重点”的能力。原本让AI读一篇长文,哪怕是废话,也要逐字精读。当AI获得“一目十行”这一buff后,看长文的速度直接翻倍,计算压力大大减轻。

更直白的理解,这种知识存储,类似于把死记硬背变成了查字典。以前AI为了记住某本书是谁写的、某国首都是哪这样的固定知识,需要消耗大脑大量的算力去硬记。现在DeepSeek的做法是,把这些“死知识”拎出来单独做成了一本“字典”。AI 遇到这种问题直接去“翻字典”,不用再耗费脑力,把算力全省下来用在“逻辑推理”和“思考”。

这三项技术看似解决不同问题,但背后的技术信仰完全一致:不迷信算力堆砌,通过极致的解耦,榨干硬件的每一滴性能。

但,这与硅谷所信奉的Scaling Law(规模法则)并不一致。Scaling Law的核心就是“大力出奇迹”,更多更先进的芯片,烧出更聪明的大模型。

这一路径下,大模型越做越大,对算力的需求便是无底洞。这也是黄仁勋挂在嘴边的“The more you buy,The more you save(买得越多,省得越多)”,让人信奉的底层逻辑。

“算力溢价”的定价权是否会转移

2025年GTC大会上,黄仁勋将他那句“买得越多,省得越多”,升级为了“The more you buy, the more you make(‌买得越多,赚得越多)‌”。

这句话的精妙之处,在于直接用超市打折区的标语,消解企业花几十亿美金采购显卡的财务焦虑。在这套逻辑下,高昂的资本支出不知不觉成了极具性价比的投资。

但,如果奇迹不一定非要大力呢?

从行业惯例来看,过去几年,全球大部分大模型在发布前,通常会和英伟达、AMD等芯片制造商共享主要模型的预发布版本,以确保其软件在广泛使用的硬件上高效运行。

底层技术论文在先,不确定的不利消息在后,心痒要挠未挠,利箭将射未射。

对于英伟达这样体量的企业而言,自然并不担心少卖了几张卡。但,如果是开辟的路线被绕开呢?那关乎的是“算力溢价”的定价权是否会转移?如果DeepSeek V4真的把多模态和Agent的成本打到极低,甚至让手机或PC端侧推理成为主流,那么硅谷奉为圭臬的“云端算力霸权”就会动摇。

当然,V4一天未发,以上这些都只是建立在“如果”之上的推测。

商业世界的残酷在于,有想法有野心,并不意味着立刻就能铺平新道。V4一直未发布,或许也有这类原因存在。

 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  争议稿件处理  |  English Version