滚动资讯

当前位置：首页 > 资讯 > 业界动态 > 正文内容

梁文锋搭箭，黄仁勋难安

时间：2026-04-02 13:28:17 来源：饭盒财经编辑：快讯 IP：北京 发表评论无障碍通道

不发一言，全网却在时刻盯梢。

3月29日晚至30日上午，DeepSeek经历了一场大规模服务中断。据环球时报，29日22时开始，网页端与App全面卡顿，频繁弹出“服务器繁忙”提示，相关功能无法正常使用。至30日清晨，仍有用户反馈无法正常使用。

而后，“DeepSeek崩了”相关话题迅速冲上百度、微博、今日头条等多个平台的热搜榜前十。海外科技圈也在关注，除了媒体报道，更有不少专业用户进行实测，对比前后同一任务的执行结果。

对比外界的高度关注和推测，DeepSeek官方没有进度通报，也没有解释原因。3月30日上午，官网发布公告：DeepSeek网页/APP性能异常，服务状态显示“正常”。

3月中上旬，更是因为 OpenRouter上出现的一款名为Hunter Alpha神秘模型，而引发了猜测。当时，不少开发者认为这可能是V4的隐身测试版。后来，证明该神秘模型并非V4，是小米旗舰模型MiMo-V2-Pro的内部测试版本。而DeepSeek对该推测并未发声。

一动一静，微妙的张力来自梁文锋：“箭”已上弦，但迟迟未发。

2024年年底V3，随后的2025年年初R1发布，DeepSeek瞬间比肩OpenAI等巨头，登顶中美等国App Store榜首。产品技术之外，因极低的算力成本，引发美股半导体板块剧烈震荡。现如今，行业正屏息以待梁文锋的下一个大招——DeepSeek V4。然而，原本业内预期在今年一季度就会亮相的 V4，却一再推迟。

2月、春节前后、3月初、最早4月，外界对DeepSeek V4发布的时间猜测一路后移。除此，V4的定位、架构、性能、上下文窗口、定价、供应链等情况也在高度关注中，传闻不断。

其中，一条供应链相关的报道，更是在技术之外引发了各种猜想。据路透社报道，两位了解情况的消息人士表示，DeepSeek在即将进行重大模型更新之前，未向美国芯片制造商展示其即将推出的旗舰模型，这打破了行业标准做法。

短短几行字，透露的是一个“釜底抽薪”的链路。

英伟达能撑起这万亿市值，靠的不仅仅是GPU硬件本身，还有其打磨了十几年的CUDA软件生态。CUDA就像是给全球AI开发者铺好的一条路，沿着走总能“大力出奇迹”。但如真和上述报道透露的一样，DeepSeek要做的便是铺好了一条“绕过CUDA”的高速公路。

而更戏剧性的是，从2025年12月至今DeepSeek相关方面陆续发布的论文和开源项目来看，这些推测并非空穴来风。

拿着放大镜找变化

当地时间3月29日傍晚，X平台上，名为“AiBattle”的用户发了一条推文。

The DeepSeek model that they serve on the WEB/APP may have been updated again

The model does seem to consistently identify itself as V3 now

The zero-shot coding outputs I’m getting now also seem different in style from the ones I got a few days ago

It needs more testing to be completely sure

翻译过来，大概的意思就是：网页和APP端上，DeepSeek模型可能已经再次更新。现在，这个模型似乎始终将其自身标识为V3版本。做了一些测试，发现零提示能力大涨，输出的风格和几天前不太一样。但还需要进行更多测试才能完全确定结论。

配图则是两张鹈鹕骑自行车的前后对比图。

通过这张对比图，明显能看到其空间与图形代码能力大幅提升。在画面构图、色彩搭配以及元素逻辑上，肉眼可见地碾压一周前的版本。截至3月31日18:47，该条推文累计获得162.8K个Views。

用SVG（可缩放矢量图形）画一只骑自行车的鹈鹕，常被视为大模型空间与渲染能力“试金石”的极限测试题。

这道测试题，来自全球知名的开源开发者、Django框架联合创始人Simon Willison。他认为现在大模型刷榜的数据水分太大，而SVG本质上是由无数的坐标、曲线公式和颜色代码组成的纯代码。让一个没有真手真眼的“纯文本 AI”用代码去精确描绘“一只鹈鹕”的生物特征和“一辆自行车”机械结构，能直接暴露出大模型的空间想象能力和代码逻辑能力。

一天后，该用户补充发布了“更多测试”的结果。

“AiBattle”表示，在7小时的宕机之后，DeepSeek可能再次对模型进行了修改。在停机之前，该模型自称为V3版本。现在它又变回自称“最新版本”。SVG的质量似乎也变得更差，回到了以前的状态。

如“AiBattle”这样的开发者并不是少数。AI圈如同被DeepSeek“断更”，他们拿着放大镜，试图找到蛛丝马迹，以证明V4已在弦上。

例如，他们发现知识库截止日期可能悄悄延后了。有用户发现，DeepSeek不开启联网搜索的前提下，知道2025年美国选举结果，但对2026年2月的大事则一无所知，这使得外界推测新版本的知识截止日期可能是2026年1月。

例如，上下文token方面。2月11日，DeepSeek悄悄把现有模型的上下文窗口从128K扩到1M tokens，并将知识截止更新到2025年5月。社区很多人把这理解为V4相关基础设施正在上线前测试。

底层技术论文，往往是新一代大模型的预告片和说明书。

对比外界的推测和社区的测试，更确定的是自2025年年底以来，DeepSeek发布的论文和开源的项目。

2025年12月31日，梁文锋上传发布了一篇名为《mHC: Manifold-Constrained Hyper-Connections》的论文。

这篇文章解决了传统Hyper-Connections在大规模训练中信号指数放大（最高可达3000×）导致的训练崩溃问题，以及通过将HC的残差空间投影到特定流形，恢复恒等映射（identity mapping）属性，保证信息守恒。

论文中，梁文锋的名字出现在作者一栏中。

2026年1月，DeepSeek在GitHub上发布了一项名为“Engram”的研究成果，并同步上传了名为《Conditional Memory via Scalable Lookup: A New Axis of Sparsity for Large Language Models（基于可扩展查找的条件记忆：大语言模型稀疏性的新维度）》的论文。

这一研究成果，被业内称为“用哈希表替代大模型死记硬背”的神器。

这或许是梁文锋准备的三支利箭。

有的放矢，想要榨干硬件的每一滴性能

如今的大模型军备竞赛中，顶级AI公司发布底层技术论文，早就不是传统意义上的“秀肌肉”了。

这三支箭，自然也是有的放矢。

先看，mHC（Manifold-Constrained Hyper-Connections）。类似一个稳定的骨架，解决“练得出来”的问题。

当模型参数飙升到几千亿甚至万亿时，传统的残差连接会成为信息流通的“窄门”，但随意增加跨层连接又会导致训练崩溃。mHC通过将这些连接约束在特定的数学流形（双随机矩阵）上，保证了超大模型在极深、极宽的架构下依然能稳定训练。

怎么直白的理解？

这种新型的连接结构，就相当于花一点点小钱，换来团队高效率。就好像，在AI内部稍微调整了一下“部门间的沟通机制”，虽然增加了6-7%的沟通成本，但让整个模型在学习时再也不会出现“配合混乱”的问题，变得更稳定、更聪明。

而Engram（条件记忆模块），就像是外挂的硬盘，解决“记得住且够聪明”的问题。

基于mHC搭好的超大模型骨架，Engram开始对“大脑”进行分区。过去的大模型把所有知识都死记硬背在昂贵的神经网络权重里，导致“推理计算”和“记忆”抢占资源。Engram 引入了全新的稀疏性，把静态知识打包成哈希表卸载到廉价的CPU内存里，通过O(1) 极速查找，从而把极其宝贵的GPU算力100%释放出来，专门用于复杂的逻辑推理。

这种稀疏注意力，就相当于让大模型学会“一目十行”和“抓重点”的能力。原本让AI读一篇长文，哪怕是废话，也要逐字精读。当AI获得“一目十行”这一buff后，看长文的速度直接翻倍，计算压力大大减轻。

更直白的理解，这种知识存储，类似于把死记硬背变成了查字典。以前AI为了记住某本书是谁写的、某国首都是哪这样的固定知识，需要消耗大脑大量的算力去硬记。现在DeepSeek的做法是，把这些“死知识”拎出来单独做成了一本“字典”。AI 遇到这种问题直接去“翻字典”，不用再耗费脑力，把算力全省下来用在“逻辑推理”和“思考”。

这三项技术看似解决不同问题，但背后的技术信仰完全一致：不迷信算力堆砌，通过极致的解耦，榨干硬件的每一滴性能。

但，这与硅谷所信奉的Scaling Law（规模法则）并不一致。Scaling Law的核心就是“大力出奇迹”，更多更先进的芯片，烧出更聪明的大模型。

这一路径下，大模型越做越大，对算力的需求便是无底洞。这也是黄仁勋挂在嘴边的“The more you buy，The more you save（买得越多，省得越多）”，让人信奉的底层逻辑。

“算力溢价”的定价权是否会转移

2025年GTC大会上，黄仁勋将他那句“买得越多，省得越多”，升级为了“The more you buy, the more you make（‌买得越多，赚得越多）‌”。

这句话的精妙之处，在于直接用超市打折区的标语，消解企业花几十亿美金采购显卡的财务焦虑。在这套逻辑下，高昂的资本支出不知不觉成了极具性价比的投资。

但，如果奇迹不一定非要大力呢？

从行业惯例来看，过去几年，全球大部分大模型在发布前，通常会和英伟达、AMD等芯片制造商共享主要模型的预发布版本，以确保其软件在广泛使用的硬件上高效运行。

底层技术论文在先，不确定的不利消息在后，心痒要挠未挠，利箭将射未射。

对于英伟达这样体量的企业而言，自然并不担心少卖了几张卡。但，如果是开辟的路线被绕开呢？那关乎的是“算力溢价”的定价权是否会转移？如果DeepSeek V4真的把多模态和Agent的成本打到极低，甚至让手机或PC端侧推理成为主流，那么硅谷奉为圭臬的“云端算力霸权”就会动摇。

当然，V4一天未发，以上这些都只是建立在“如果”之上的推测。

商业世界的残酷在于，有想法有野心，并不意味着立刻就能铺平新道。V4一直未发布，或许也有这类原因存在。

更多>同类资讯

从湖南山村到中美晚宴C位：周群飞用三十年书写“玻璃女王”传奇逆袭

05-22

雷军放话挑战特斯拉Model Y：小米YU7虽暂落后，但坚信终有逆袭日

5月21日，小米汽车正式发布旗下首款纯电SUVYU7系列的全面升级款，包含售价38.99万元的YU7标准版与高性能旗舰YU7GT，和“再次挑战特斯拉ModelY销量”的YU7标准版车型，售价为23.35万元。…

05-22

小米YU7与Model Y十个月交锋八败两胜

在小米与特斯拉Model Y的激烈市场竞争中，小米YU7交出了一份有喜有忧的成绩单。雷军在小米发布会上坦言，过去十个月与特斯拉Model Y的正面较量中，小米YU7取得了八败两胜的战绩。不过，他对此表现出了豁达的态度，认为输给全球销量冠军并不丢人，只要持续努力、不断改进，未来仍有获胜的机会。

05-22

Anthropic二季营收或达109亿美元首盈利，成本优化领跑AI商业化转型

05-22

CapCut携手Gemini：AI创作工具深度融合，开启智能高效编辑新体验

05-22

估值110亿美元！智能戒指Oura冲刺IPO，引领可穿戴设备向AI预防医学转型

05-22

OpenAI深化企业级布局：ChatGPT接入PowerPoint 开启AI办公新场景

05-22

SpaceX“星舰”V3试飞临阵叫停马斯克：若修复或于5月22日再试

05-22

神舟二十三号蓄势待发，中国空间站第八次“会师”及多项任务稳步推进

05-22

致敬未知凭智能穿戴与垂直场景布局斩获2026星球奖“最值得投资企业”殊荣

05-22

SpaceX星舰V3发射取消：史上最高最强火箭新尝试或于近期重启

05-22

SpaceX星舰V3即将发射：高度与推力再创新高，航天探索新里程

05-22

网易Q1财报：游戏“挑大梁”，非游戏业务增长乏力待破局

05-22

雷军谈YU7标准版回归：少一款不利竞争，正学习特斯拉谋超越

05-22

AI盈利曙光初现：Anthropic用企业场景突破，大模型商业化迈出关键一步

05-22

点击查看更多 +

全站最新

上汽集团月底将迎全球第一亿位用户交付开启中国汽车工业新里程

东风汽车牵手Stellantis集团拟在欧设合资企业共推中国汽车品牌生态出海

赛力斯AI变革实践：从造车到团队，AI赋能组织跃升新高度

北京越野BJ40增程长续航版上市，以续航与性价比切入市场新赛道

标致2030年规划曝光：7款新车蓄势待发多能源战略全面铺开

斯巴鲁Uncharted进军德国市场运动设计+多样动力 36990欧元起售

热门内容

本栏最新

上汽集团月底将迎全球第一亿位用户交付开启中国汽车工业新里程

小米YU7对标Model Y十个月战况：八败两胜，成20万以上唯一赢过它的国产纯电车

2026深圳：第十六届世界CMF大会启幕，共探具身智能与机器人CMF新未来

雷军谈保时捷反超：祝贺对手破纪录，小米将持续学习并争取再超越

纽北新王登基！小米YU7 GT 7分22秒755破纪录，雷军畅谈伟大旅程新体验

小米5年豪掷千亿研发！雷军再立宏愿：未来5年超2000亿加码技术新赛道

本网站LOGO小熊标志受版权保护，版权登记号：鲁作登字-2015-F-025467，未经ITBEAR比尔科技官方许可，严禁使用。
声明：本网站是公益性科普网站，为网友提供科技类资讯内容，无障碍技术由太阳湾捐增，为阅读障碍用户提供内容听读服务。如本站内容侵犯了您的权利，请通知我们及时删除。
中国（山东）自由贸易试验区鲁ICP备11015305号-1 联系入口
Copyright © 比尔科技 2007-2024 ITBEAR.COM.CN All rights reserved.