ITBear旗下自媒体矩阵:

Mistral CEO称DeepSeek-V3基于其架构 网友扒细节反驳:到底谁“借鉴”谁?

   时间:2026-01-27 01:08:33 来源:互联网编辑:快讯 IP:北京 发表评论无障碍通道
 

欧洲某知名AI企业首席执行官近日在公开场合声称,中国公司DeepSeek的V3模型是基于其公司提出的架构开发而成,此言论迅速在网络上引发激烈讨论。网友们对此观点普遍持怀疑态度,甚至有人直言该说法荒谬至极。

事件的起因源于一场关于中国开源AI发展的访谈。该企业联合创始人兼CEO在回应相关问题时表示,中国在AI领域展现出强大实力,并指出开源并非真正的竞争,而是行业共同进步的基础。他特别提到,公司于2024年初发布的稀疏混合专家模型(MoE)为后续技术发展奠定了基础,DeepSeek-V3及其后续版本均采用了相同架构,且相关技术细节已完全公开。

然而,这一说法很快遭到网友质疑。有技术爱好者通过对比两篇论文发现,DeepSeek与该企业发布的MoE相关论文时间仅相差三天,但两者在核心设计思路上存在显著差异。例如,该企业的模型更侧重于工程实现,强调通过成熟技术提升模型效果;而DeepSeek则聚焦于算法创新,试图解决传统架构中专家知识重复学习的问题。

进一步的技术分析显示,两者虽均采用GShard风格的路由机制,但DeepSeek对门控网络和专家结构进行了重大改进。其提出的细粒度专家分割方法,在保持总参数量不变的前提下,将大型专家模块拆分为多个小型专家,从而提升了知识获取的精准度。DeepSeek还引入了共享专家机制,将通用知识与特定知识分离,而该企业的模型则未体现此类设计。

更令人意外的是,有证据表明该企业于2025年12月发布的Mistral 3 Large模型,在架构设计上与DeepSeek-V3存在高度相似性。这一发现进一步加剧了网友对其言论的质疑,有人调侃称“屠龙者终成恶龙”,暗示该企业已背离开源社区的初心。

尽管该企业为MoE技术的推广做出了一定贡献,但不可否认的是,DeepSeek在稀疏架构优化等领域取得了更广泛的影响力。其创新性的设计思路和透明的技术分享方式,赢得了更多研究者的认可。这场争论也反映出,在AI技术快速迭代的背景下,企业间的竞争已从单纯的技术比拼,延伸至学术声誉与行业话语权的争夺。

 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  争议稿件处理  |  English Version