2024年的中国AI圈,Kimi曾是聚光灯下的焦点。凭借10亿美元融资、概念股涨停潮以及号称支持200万字输入的模型,这家初创公司一度被贴上“技术颠覆者”标签。然而,行业很快发现,这个实验性模型单次运行成本高达三位数,根本无法支撑大规模应用。技术圈对此嗤之以鼻,但Kimi凭借“长文本”概念成功抢占用户心智,在商业宣传战中占据先机。
转机出现在2025年7月。当多数企业还在模仿DeepSeek的“深度思考”模型时,Kimi突然发布K2模型,将战略重心转向Agent能力开发。这个能自主调用工具、编写代码的模型,被英国《自然》杂志誉为“中国AI领域的第二个DeepSeek时刻”。Anthropic联合创始人Jack Clark在博客中指出,尽管K2比美国最前沿技术落后数月,但其工具调用能力已达到实用水平。
商业价值随之爆发。K2.5发布后20天收入超过去年全年,被估值3500亿美元的编程工具Cursor套壳使用,全球最大独立AI搜索Perplexity将其作为唯一中国开源模型引入。英伟达更是在GTC大会上连续两年将Kimi模型作为新一代芯片的演示标杆,CEO黄仁勋直言这是“重新定义推理性能的标准”。
资本市场的态度发生180度转变。2026年3月,Kimi完成180亿美元估值融资,份额遭机构疯抢。据内部人士透露,公司当前最大瓶颈是算力不足,现有GPU资源仅能满足十分之一的市场需求。这种“有多少卡就能转化多少收入”的困境,反而成为投资机构加注的理由——某大厂为在编程工具中接入Kimi模型,甚至需要提前三个月预购算力额度。
回看2025年初的至暗时刻,Kimi的逆袭并非偶然。在被唱衰期间,公司秘密研发的Moonlight小型MoE模型,验证了二阶优化器技术的可行性,最终成为支撑万亿参数K2模型的核心架构。这项突破促使行业弃用沿用十年的Adam优化器,包括GLM-5、DeepSeek Engram在内的新模型纷纷跟进。
中国AI双雄的竞争格局正在重塑。DeepSeek凭借MLA注意力机制和极致能效比路线,在2025年证明非硅谷路径的可行性;Kimi则通过Agent能力突破实现弯道超车。两家公司不约而同地选择挑战神经网络底层架构——DeepSeek的Engram模型正在测试动态稀疏激活技术,Kimi的注意力残差机制已引发学术界大规模复现研究。
这场持续三年的AI革命远未结束。当行业还在争论Chat与Agent谁代表未来时,中国公司已经用代码和论文给出答案:从优化器到注意力机制,从训练范式到推理架构,每个技术层都存在重构空间。正如Kimi创始人杨植麟在英伟达大会上的宣言:“我们正在拆除深度学习时代的脚手架,为真正的通用智能重建地基。”








