在七月的尾声,上海这座城市沉浸在一种既疲惫又亢奋的氛围之中。刚刚落幕的世界人工智能大会(WAIC)以其前所未有的规模,吸引了全球的目光。此次盛会不仅见证了参展商数量的激增,达到了60%的涨幅,还意外迎来了从未在中国露面的AI领域传奇人物辛顿的亮相,使得大会门票价格一路飙升,单日票价甚至被炒高至千元。
大会进行到一半时,竞争的白热化已初现端倪。不少大模型企业在深夜仍灯火通明,紧张地调试模型参数,以期在最后一刻发布突破性成果。据现场参展企业向媒体透露,今年的WAIC吸引了众多外国观众,其中包括专业外媒人士,这对于中国的大模型企业来说,无疑是一个难得的展示机会,他们渴望能够复制DeepSeek的辉煌。
然而,在这场技术盛宴的背后,一个不容忽视的事实逐渐浮出水面:技术的复制或许相对容易,但真正的颠覆性创新却难以模仿。许多参与者试图沿着DeepSeek的足迹前行,但这条路远比想象中艰难。
就在外界对DeepSeek的未来充满质疑之际,海外传来了一则令人瞩目的消息。英国《自然》杂志网站报道称,中国人工智能模型Kimi发布的K2模型引发了广泛关注,被视为“又一个DeepSeek时刻”的到来。K2模型采用了经过精心设计的万亿参数混合专家架构,尽管激活参数仅为320亿,但其总参数量却高达1.04万亿。业界很快发现,K2在架构上与DeepSeek-V3有着诸多相似之处,如减少了多头注意力的头数,增加了MoE的专家数,从而在提升上下文效率的同时,也提高了token使用的效率。
面对外界的质疑,Kimi的一位内部员工坦诚地表示,在启动K2训练之前,他们进行了大量的模型结构实验,结果发现,当时提出的所有与DeepSeek-V3不同的结构,都无法真正超越它。因此,他们最终决定放弃为了与众不同而选择没有优势的结构,而是在相同的架构下,将参数推至极致。考虑到Kimi作为一家创业公司资源有限,K2所实现的结果已经是他们所能承受的算力上限。
尽管K2并未达到爆炸性的关注度,但它在海外确实迅速吸引了大量关注。数据显示,Kimi K2的调用量与马斯克新发布的Grok4一同登上了增长榜前列,日调用量超过100亿token,而其API价格仅为Claude Sonnet的五分之一。这一成绩无疑为Kimi在海外赢得了极高的声誉。
紧随其后,智谱也推出了其迄今为止最大参数的开源模型GLM-4.5。虽然彭博社援引知情人士的话称,该公司正试图在全球范围内挑战OpenAI,但同样走开源路线、希望在海外引爆的思路,也透露出其重走DeepSeek之路的决心。
在此之前,无论是Kimi、阶跃星辰还是MiniMax,都纷纷表态将坚持基础模型的研发。这与DeepSeek创始人梁文锋追求通用人工智能(AGI)的理念不谋而合。当前,整个AI行业似乎都在沿着DeepSeek开辟的道路前进,无论是coding Agent还是大参数的MoE模型,都深受DeepSeek-V3架构的影响。
然而,下一个引领浪潮的人究竟是谁?目前仍是一个未知数。或许,连DeepSeek和梁文锋自己都在期待着下一个能够与o1相媲美的对手的出现。随着GPT-5发布日期的临近,业界对于这一全新AI模型的期待愈发高涨。作为GPT-4的迭代升级,GPT-5不仅将在技术上进行全方位跃迁,还将从多个维度重新定义AI的可能性。
OpenAI CEO山姆·奥特曼在社交媒体上透露,他正在测试公司最新的大模型,该模型能够对他提出的一个自己都不太理解的问题给出完美回答。这一消息无疑进一步加剧了业界对于GPT-5的期待。而外部用户也陆续捕捉到GPT-5的早期迹象,有人甚至断言,即将到来的风暴将无人能预料。
DeepSeek自成立以来,虽然在大众层面上一直较为低调,但在行业内却享有极高的口碑。它没有融资需求,鲜少对接投资机构,甚至没有专门的公关部门。梁文锋本人也几乎不在公开场合露面,但他的理念和成果却深深影响了整个行业。如今,越来越多的企业开始走上开源之路,试图成为下一个DeepSeek。在这场AI的竞赛中,每个人都在期待着下一个颠覆性创新的到来。