滚动资讯

当前位置：首页 > 资讯 > 信息流 > 正文内容

DeepSeek R1发布一周年之际，神秘Model1现身或为V4前奏？

时间：2026-01-21 17:43:35 来源：互联网编辑：快讯 IP：北京 发表评论无障碍通道

近期，开源社区因DeepSeek的一项新动向掀起热议。其FlashMLA代码库频繁更新，一款名为Model1的模型悄然进入公众视野，引发关于DeepSeek下一代旗舰模型的猜测。结合代码变更与社区分析，这款神秘模型的技术细节逐渐浮出水面。

在代码库的分支结构中，Model1与DeepSeek-V3.2并列存在，形成独立的技术路径。这一布局暗示其并非V3系列的迭代补丁，而是基于全新架构的工程版本。技术专家通过解析代码差异发现，Model1在核心参数设计上与V3系列存在显著差异，例如将MLA架构的head_dim从576维调整为512维。这种“标准化”回归可能旨在优化与NVIDIA Blackwell架构的算力匹配，同时提升Latent压缩效率。

硬件适配层面，代码库新增大量针对Blackwell GPU的优化模块。例如，api.cpp文件中出现的FMHACutlassSM100FwdRun接口，直接指向下一代GPU的核心指令集。根据运行环境说明，Model1在B200芯片上需CUDA 12.9支持，其Sparse MLA算子已实现350 TFlops的初步性能，而H800芯片上的Dense MLA吞吐量则高达660 TFlops。这种跨代硬件的针对性优化，进一步印证了Model1的旗舰定位。

算子创新是Model1最突出的技术突破。测试脚本显示，该模型同时支持Sparse与Dense两种解码模式，其中Sparse路径采用FP8精度存储KV Cache，计算时动态切换至bfloat16以保证精度。这种混合精度设计可显著降低长文本推理的显存占用，同时维持计算效率。社区推测，此特性或使Model1在处理超长上下文时具备优势。

代码注释中隐现的两大新机制引发关注。首先是Value Vector Position Awareness（VVPA），该技术可能通过增强位置编码的动态适应性，解决传统MLA架构在长文本中的信息衰减问题。其次是Engram机制，尽管具体实现未完全公开，但结合分布式存储相关的代码逻辑，其或为KV Cache压缩提供的全新解决方案，与Model1的高吞吐需求形成技术闭环。

目前，DeepSeek尚未对Model1的官方身份作出回应。但技术社区普遍认为，从架构参数、硬件适配到算子设计，Model1均展现出跨越V3系列的技术特征。按照DeepSeek的版本命名惯例，V3.2之后的架构代际升级，极有可能以V4命名。这款神秘模型是否会成为春节前后的技术惊喜，仍需等待官方确认。

更多>同类资讯

吴京深情讲述：以声音礼赞中国航天，共赴月背荣耀之约

在《登月》（第一部）中，我又看到这份精神最朴实的一面：总装师拧螺丝时屏住呼吸，飞控人员盯着数据眼睛一眨不眨，工程师在雨中毫不犹豫地奔向塔架，老师傅揪着徒弟耳朵说“别交学费，干就干到极致”……成千上万个普通人的…

04-22

神舟二十一号乘组第三次出舱成功张陆七次出舱创中国航天员新纪录

据中国载人航天工程办公室介绍，自3月16日圆满完成第二次出舱活动以来，神舟二十一号航天员乘组稳步推进空间生命科学与人体研究、微重力物理科学等领域实（试）验任务，持续开展站内环境监测、设备检查维护、物…

04-22

钛动科技获农行百亿授信！一张对民营AI科技企业的"信心投票"

04-22

04-22

04-22

04-22

04-22

04-22

资金动向 | 北水抛售阿里超10亿港元，加仓中海油近5亿港元

04-22

飞行近半世纪旅行者1号关闭最后科学仪器以“省电”续命

在太空中飞行近半个世纪后，旅行者1号探测器刚刚关闭了其仅剩的最后一台科学仪器，以尽力保存电力。目前来看，旅行者1号最近关闭的仪器只能让这艘航天器维持大约一年的寿命，但有一个计划可以让它发挥更多作用：喷气推…

04-22

春日浪漫来袭！4月23日凌晨天琴座流星雨极大，观测条件绝佳

该流星雨的辐射点位于天琴座和武仙座的交界处，活跃期为每年4月中下旬，ZHR（天顶每时出现率）约为20，因此也被称为“四月天琴座流星雨”。每年4月中下旬，我国大部分地区要到午夜过后，流星雨的辐射点才能攀升至较…

04-22

宇宙“渐行渐远”：超九成星系正滑出人类观测视野边界

现在的科学研究认为，在整个可观测宇宙里，大约有2万亿个星系，但其中98%的星系，已经彻底和我们失去联系了。这个过程带来的影响，不只是观测问题，还会影响我们对宇宙的理解。我们还能看到很多星系，还能观察到宇宙…

04-22

NASA“好奇号”火星新发现：含生命基础物质有机分子，来源待解

近期，“好奇号”在该区域启用了搭载的火星样本分析（SAM）仪器套件，该仪器专为寻找与生命相关的碳元素化合物、研究这些化合物在火星生态环境中形成与分解的机制而研制。 “这项实验及其成果是热爱与科研的结晶，”威廉…

04-22

学生主导实验：小型探测器助力暗物质研究，突破实验新限制

我们当时算是嵌入了MADMAX暗物质实验的研究团队中，该研究的作者之一、目前在汉堡大学攻读物理学硕士学位的纳比尔萨拉马解释道，MADMAX在更大、更复杂的规模上开展类似实验，我们从他们的专业知识和支持中获益…

04-22

神舟二十一号乘组在轨延长一月：技术验证、科学探索与资源优化的多重考量

从神舟二十号乘组遭遇太空碎片撞击紧急推迟返回，到如今主动延长驻留、从容规划任务，背后是中国载人航天工程全链条的成熟可靠：飞船应急发射能力、空间站在轨维护能力、航天员长期适应能力、地面测控保障能力，均达到世界先…

04-22

点击查看更多 +

全站最新

光库科技：第一季度净利润同比增长313% 收购武汉捷普100%股权纳入合并范围等所致

沪电股份：一季度净利润同比增长62.9%

拓斯达：一季度净利润同比增长1147% 工业机器人及自动化应用系统业务收入同比增长81.2%

法尔胜：2025年净亏损6767.31万元

美股异动丨阿里巴巴盘前直线拉升涨超2% 消息称其与腾讯洽谈投资DeepSeek 估值超200亿美元

美股异动 | 泰瑞达盘前涨3.3% 瑞银大幅上调其目标价35%至440美元

热门内容

本栏最新

FOCA MARKETS内地展业无牌照监管真空下投资者需慎防风险

爱德万测试与应用材料携手：强化芯片制造测试协同，加速半导体创新发展

钛动科技获农行百亿授信！一张对民营AI科技企业的"信心投票"

Q1业绩印证行业景气度，同标的规模最大的科创芯片ETF嘉实（588200）午后强势拉升，近一年累计上涨72.91%

ETF风向标 | A股重返4100点，通信ETF涨超5%，电网设备ETF华夏单日“吸金”10亿

中泰证券：全市场基金经理平均年龄38.4岁，行业资产呈显著“老中青”三代分布特征

本网站LOGO小熊标志受版权保护，版权登记号：鲁作登字-2015-F-025467，未经ITBEAR比尔科技官方许可，严禁使用。
声明：本网站是公益性科普网站，为网友提供科技类资讯内容，无障碍技术由太阳湾捐增，为阅读障碍用户提供内容听读服务。如本站内容侵犯了您的权利，请通知我们及时删除。
中国（山东）自由贸易试验区鲁ICP备11015305号-1 联系入口
Copyright © 比尔科技 2007-2024 ITBEAR.COM.CN All rights reserved.