在这个夏季,沉寂已久的大模型竞技场再度沸腾,各路豪杰纷纷亮剑,争夺技术巅峰。
世界人工智能大会(WAIC)成为了这场战役的最新战场。其中,阶跃星辰、智谱以及阿里巴巴成为了最为引人注目的三方势力。7月25日,阶跃星辰率先推出了最新的多模态推理模型Step-3,而阿里巴巴紧随其后,发布了通义千问3推理模型Qwen3-235B-A22B。仅仅三天后,智谱也不甘示弱,推出了最新一代基座大模型GLM-4.5。阿里巴巴更是火力全开,在同一天内还开源了通义万相2.2,涵盖了多种视频生成模态。
这场竞争的火药味十足。阿里巴巴在发布通义千问3时,便冠以“全球最强”之名。然而,三天后,智谱的GLM-4.5便以新王的姿态,在综合性能榜单上夺得了全球第三的位置,将通义千问3挤到了第九。智谱的一名员工透露,算法团队在紧张地关注着通义千问的更新,直到GLM-4.5在多个测评集中取得优异成绩,大家才松了一口气。
WAIC上的硝烟只是这两个月以来六小虎模型混战的一个缩影。早在6月,MiniMax便在为期五天的发布日中,推出了在上下文长度和工具使用场景中领先的推理模型M1,以及创造了海外爆款视频的视频生成模型Hailuo 2。而仅仅一个月后,月之暗面的新开源推理模型K2便以横扫之势,夺得了24项开源模型的SOTA。
在这场激烈的竞争中,转型后的百川智能和零一万物却选择了沉默,缺席了WAIC以及新一轮的模型混战。自DeepSeek V3、R1发布后,六小虎中的这两家公司在市场上已经沉寂了近半年。高管离职、人才出走也成为了常态。据脉脉的一份报告显示,截至7月初,六小虎中有超过四成的员工都在寻找新的机会。
在后DeepSeek时代,这场战役对于六小虎能否重回舞台中央,甚至关乎其存亡。这份成绩单将极大程度影响公司后续的资本操作和商业化进展。更重要的是,在经历了市场口碑下滑、内部军心涣散的半年之后,六小虎急需一场胜利来向内外证明自己仍有留在大模型牌桌上的实力。
然而,后DeepSeek时代的模型战役依然充满挑战。DeepSeek R1的掀桌之举证明了,要想一鸣惊人,不仅性能要好,还得抢占先机。K2的训练从2024年末便开始筹备,本计划在2025年中旬发布,然而R1的抢先发布却抢走了本可能属于K2的荣光。为了防守,月之暗面不得不先释出带有遗憾的版本K1.5,但市场反响并不如人意。不过,K2发布后的好口碑,也在某种程度上抚平了被DeepSeek抢先的创伤。
同样主打Coding和Agentic能力的智谱也感受到了K2带来的压力。为了打赢推理模型的SOTA之战,GLM-4.5的训练花费了将近三个月的时间。智谱甚至在多智能体任务上放弃了一贯的Dense路线,改用了MOE架构。然而,月之暗面的保密工作做得太好,智谱在K2发布当天才知道其技术细节。智谱在最后一个月紧急加训,硬是把GLM-4.5的Coding和Agentic能力在测评集上提升到了与K2相当的程度。
如今,赛场上几家大模型公司针锋相对,重回了舞台中心。与2023年行业“重参数、搞闭源”的普遍风气不同,如今的中国模型已经更加注重技术口碑。自DeepSeek起势后,开源和放出技术报告成为了六小虎发布模型的标配。开发者成为了模型的第一批用户,开源成为了大模型触达开发者的关键。如今,开发者都聚集在Hugging Face、GitHub等平台上,模型厂商只需将开源链接发布在这些平台上便能吸引大量关注。
即便经历了动荡的半年,六小虎依然拥有远超普通创业公司的资金和人才储备。在这一轮模型混战中,六小虎虽然没有收获碾压性的成绩,但各有各的亮点。MiniMax坐稳了视频生成的头部位置;Kimi K2和GLM-4.5先后夺得推理模型的SOTA;阶跃星辰的Step-3则领跑了多模态这一小众赛道。虽然没有绝对的赢家,但经历这一轮模型混战后,六小虎在全球模型战场上几乎都拥有了姓名。
模型开放平台OpenRouter的统计显示,Kimi K2在全球模型调用量排行榜上位居第六,而GLM-4.5在发布当天就冲上了第二十的位置。MiniMax发布Hailuo 2后,其下载量也猛增。点点数据显示,Hailuo AI在7月22日的单日下载量达到了11万。
上岸的四小虎获得了继续游戏的续命符。MiniMax在连续五天发布模型和产品后,传来了筹备IPO的消息。阶跃星辰在发布会上也宣布了一笔来自上海国投等机构的超5亿美元融资,以及年营收目标达到10亿元。然而,模型之战还远未决出胜者。在“中国不需要这么多的基座模型”这一共识下,六小虎在模型之战中尚未走到可以安心的时刻。新一轮的淘汰赛才刚刚开始,大厂可以轻松All in多个模型方向,而六小虎却难以兼顾。