在人工智能领域,两位知名创业者——DeepSeek创始人梁文锋与月之暗面创始人杨植麟,近期因技术路线的高度重合引发关注。2025年以来,两人已四次在核心技术创新上“不谋而合”,最新一次交锋聚焦于视觉理解能力的突破。
1月27日,月之暗面推出新一代模型Kimi K2.5,其核心升级在于强化视觉理解功能。该模型可解析用户上传的图片与视频内容,并据此完成编程或问题解答。同日,DeepSeek上线OCR-2模型,通过独创的“视觉因果流”机制,颠覆传统图像扫描方式,使模型能根据语义逻辑动态调整阅读顺序,更接近人类视觉处理模式。
技术路径的趋同并非偶然。行业分析指出,视觉理解能力是当前多模态模型发展的关键瓶颈。根据第三方测评报告,现有模型在医疗影像分析、自动驾驶等复杂场景中表现欠佳,图文信息融合准确率不足65%。突破这一瓶颈意味着大模型将从单一语言交互向全场景应用跨越,为商业化落地开辟新路径。
月之暗面的解决方案侧重工程化落地。K2.5采用原生多模态架构,通过15万亿token的联合预训练构建视觉智能体系统。该模型将视觉编码与编程能力深度整合,支持非技术人员通过截图录屏快速生成应用原型。配套推出的Kimi Code工具链,可无缝集成至主流开发环境,实现技能包的自动迁移与工作流重组。
DeepSeek则选择从技术源头创新。其OCR-2模型替换传统CLIP编码器,引入具备因果推理能力的DeepEncoder V2架构。该设计使模型能自主识别图像中的关键信息节点,在处理长文本图像时效率提升3倍以上。测试数据显示,面对贴有干扰标识的车辆图片,OCR-2的识别准确率较前代模型提高42%。
双方在注意力机制优化领域也展开激烈竞争。2月18日,梁文锋团队提出NSA架构,通过分层压缩与动态窗口技术降低长上下文处理算力消耗;杨植麟团队则发布MoBA架构,利用专家混合模型实现注意力模式的自主切换。两种方案虽路径不同,但均将长文本处理效率提升了50%以上。
数学推理领域同样出现技术路线重合。4月,DeepSeek推出具备自验证能力的DeepSeek-Prover-V2模型,月之暗面随即上线采用相同核心机制的专项模型。这种巧合背后,是双方对AI在科研、金融等领域落地价值的共同判断——数学推理能力直接决定模型处理复杂任务的上限。
值得关注的是,月之暗面在K2.5中首次实现Agent集群的规模化应用。该模型可动态创建上百个子智能体,通过并行处理将任务执行效率提升4.5倍。在演示案例中,系统仅用3小时就完成40篇学术论文的综述生成,较单智能体模式提速6倍。为实现这一突破,团队开发了PARL训练框架,通过分阶段奖励机制解决多智能体协同难题。
行业观察者指出,国内大模型在视觉理解领域仍落后于海外头部企业。测试显示,主流模型在处理贴有误导标识的图像时,误判率高达37%。K2.5与OCR-2的相继发布,标志着国内团队开始构建差异化竞争优势。月之暗面联创吴育昕透露,下一代模型将重点优化多智能体间的通信协议,进一步降低并行计算带来的上下文干扰。







