在人工智能领域,一个名为“DeepSeek时刻”的概念已成为行业内关键进展的代名词,自年初一款名为DeepSeek-R1的模型以破晓之势席卷全球科技界以来,人们对DeepSeek的后续动作充满期待。即便在OpenAI等科技巨头不断发布新品的情况下,海外用户对于DeepSeek-R2的关注热度依然不减。
8月6日,OpenAI、Google DeepMind和Anthropic在同一天发布了重大更新:OpenAI推出了性能接近GPT-4-mini的开源模型GPT-OSS,该模型甚至可以在高端笔记本上运行;Anthropic则带来了Claude Opus 4.1,重点提升了模型在任务执行、编码和推理方面的能力;而Google DeepMind发布的世界模型Genie 3,更是能仅通过一句话实时生成可交互的世界。
紧接着,OpenAI在8月7日(美国时间)发布了GPT-5。OpenAI的CEO Sam Altman形容,与GPT-4相比,GPT-5的能力提升仿佛让人从与大学生的对话跃升至与博士级别专家的交谈。
在这场AI巨头的激烈竞争中,一张自制图片在海外网络上引起了热议。图片上添加了DeepSeek-R2的元素,并附言“我们有好戏看了”,这无疑进一步加剧了人们对DeepSeek-R2的期待。
自DeepSeek-R1凭借其高性能、低成本和开源特性在全球范围内引起轰动以来,业界对梁文锋团队的新动作翘首以盼。然而,作为R1的继任者,R2的推出时间却成了谜团。
查阅杭州深度求索人工智能基础技术研究有限公司(简称深度求索)的官方渠道,包括微信公众号、官网等,均未发现DeepSeek正式公布过关于DeepSeek-R2的信息。大多数关于R2的消息都源自海外媒体。
早在今年2月,路透社就报道称DeepSeek内部正在加速推进R2模型的发布,原计划于5月初面世。然而,时至今日,DeepSeek-R2依然未见踪影。
根据深度求索官方微信号的消息,自2025年3月以来,DeepSeek的主要动向集中在DeepSeek V3模型和DeepSeek R1的小版本升级上。3月25日,DeepSeek V3模型完成了小版本升级,新版本在推理任务表现、前端开发能力、中文写作和搜索能力等方面都有所优化。5月29日,DeepSeek又推出了DeepSeek-R1-0528版本,新版本在改写润色、总结摘要等场景中的幻觉率降低了45%至50%左右。
从DeepSeek的官方信息来看,过去半年里,公司并未急于推出下一代模型,而是保持小步迭代的节奏,不断优化R1在复杂推理、创意写作和降低幻觉率等方面的功能。
关于DeepSeek-R2迟迟未能面世的原因,外媒The Information在6月的报道中给出了两点解释:一是梁文锋对新模型的性能表现不满意;二是受英伟达H20芯片禁售影响,DeepSeek在算力储备上出现紧缺状况。
尽管面临算力储备的挑战,但DeepSeek并未停止技术创新的步伐。据不完全统计,自今年2月至7月,DeepSeek团队和梁文锋共发表了两篇论文,分别介绍了与硬件对齐且本机可训练的稀疏注意力机制NSA,以及提升通用奖励模型在推理阶段性能的方法。
与此同时,DeepSeek还在海内外加快了人才招聘的节奏。无论是国内的“产品&设计”、“深度学习研发工程师”等岗位,还是海外的前端开发工程师、全栈工程师等职位,DeepSeek都在积极招募中。
据悉,DeepSeek的面试流程中,候选人甚至可以直接与创始人梁文锋对话。公司不设KPI考核,采取扁平化管理模式,每位核心算法人员都能与梁文锋直接探讨问题。这种氛围更像一个大学的研究团队,而非传统公司。