近日,科技领域关于DeepSeek的动态引发广泛关注。有消息指出,DeepSeek计划在今年2月中旬农历新年期间推出新一代旗舰AI模型——DeepSeek V4,该模型在写代码能力方面将有显著提升。
在DeepSeek-R1发布一周年之际,开发者在GitHub上有了新发现。DeepSeek更新了一系列FlashMLA代码,在横跨114个文件中,有28处提到了未知的“MODEL1”大模型标识符。这一标识符与已知的现有模型“V32”(即DeepSeek-V3.2)在代码中并列或区别提及,引发了开发者的深入探究。
通过对代码上下文的分析,开发者推测“MODEL1”很可能代表一个采用全新架构的模型。它与“V32”在关键技术上存在明显差异,具体体现在键值(KV)缓存的布局、稀疏性处理方式以及对FP8数据格式的解码支持等方面。这些差异暗示新架构或许在内存优化和计算效率方面进行了专门的设计。
值得一提的是,此前DeepSeek研究团队已陆续发布了两篇技术论文。一篇介绍了名为“优化残差连接(mHC)”的新训练方法,另一篇则阐述了一种受生物学启发的“AI记忆模块(Engram)”。这两项成果的公布,不禁让外界猜测,DeepSeek正在开发的新模型很可能会整合这些最新的研究成果,从而带来更强大的性能表现。











