ITBear旗下自媒体矩阵:

DeepSeek新动向:MODEL1代码现新架构端倪 或2月携新技术成果亮相

   时间:2026-01-21 08:51:07 来源:互联网编辑:快讯 IP:北京 发表评论无障碍通道
 

近日,人工智能领域关于DeepSeek的动态引发广泛关注。有消息称,DeepSeek计划在农历新年期间推出新一代旗舰AI模型——DeepSeek V4,该模型预计在代码编写能力上实现显著提升,为开发者提供更强大的工具支持。

在DeepSeek-R1发布一周年之际,开发者社区有了新发现。GitHub平台上的代码更新记录显示,DeepSeek对一系列FlashMLA代码进行了调整,涉及114个文件中的28处修改。这些修改中频繁出现一个未知的大模型标识符“MODEL1”,其与已知的DeepSeek-V3.2(即“V32”)模型在代码中被并列或区别提及,引发了技术圈的热烈讨论。

通过深入分析代码上下文,开发者推测“MODEL1”可能代表一个采用全新架构的模型。与现有“V32”模型相比,两者在关键技术实现上存在明显差异。例如,在键值(KV)缓存的布局设计、稀疏性处理的具体方式,以及对FP8数据格式的解码支持等方面,“MODEL1”都展现出不同的技术路径。这些差异暗示新架构可能在内存优化和计算效率上进行了针对性改进,以适应更复杂的任务需求。

值得注意的是,DeepSeek研究团队近期连续发布了两篇技术论文,分别介绍了“优化残差连接(mHC)”这一新训练方法,以及一种受生物学启发的“AI记忆模块(Engram)”。这些研究成果的公布,进一步加剧了外界对DeepSeek新模型技术方向的猜测。有开发者认为,正在开发中的新模型可能会整合这些最新技术,从而在性能上实现突破性进展。目前,相关技术细节尚未完全公开,但社区对DeepSeek新模型的期待值持续升高。

 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  争议稿件处理  |  English Version