科技圈近日因马斯克的一条社交平台评论掀起波澜。这位以直言不讳著称的AI领域意见领袖,罕见地对一家中国初创企业的技术成果给予公开肯定。被点赞的并非某款热门产品,而是一篇关于深度学习架构革新的学术论文,其核心突破直指现代大模型的基础组件。
引发关注的论文出自月之暗面公司Kimi团队,该研究提出用新型注意力机制替代Transformer架构中沿用近十年的残差连接。传统设计通过将每层输出与输入简单相加的方式传递信息,这种"平等加权"模式虽能维持深层网络训练稳定性,却导致早期信息随层数增加被稀释。研究团队将其类比为微信群聊:所有成员发言权重相同,群主需逐条阅读才能掌握全貌,重要信息极易被淹没。
针对这一缺陷,研究团队设计了分阶段解决方案。初期尝试的"全注意力残差"方案虽能实现动态权重分配,却因需要存储所有层输出导致显存占用激增。经过优化后的"块注意力残差"将网络划分为8个模块,模块间采用注意力机制选择性聚合信息,使内存占用降低90%以上。实验数据显示,该设计在保持推理延迟增加不足2%的同时,使模型性能达到等效1.25倍计算量的传统架构水平。
这项突破在学术界引发连锁反应。论文通过结构化矩阵分析证明,自2015年ResNet提出残差连接以来,包括Highway Networks在内的所有改进方案本质上都是线性注意力的变体。Kimi团队的方案首次在深度维度引入非线性注意力机制,为解决"PreNorm稀释"问题提供了理论依据。测试表明,采用新架构的480亿参数模型在科学问答、数学推理等任务中全面超越基线版本,各层输出幅度和梯度分布更趋均衡。
马斯克的点赞恰逢月之暗面融资关键期。这家成立仅三年的企业正以惊人速度扩张:2025年底完成C轮融资后估值达43亿美元,次年2月C+轮融资后突破百亿美元,3月中旬估值已飙升至180亿美元。其主力产品Kimi K2.5模型发布首月收入即超2025全年总和,个人订阅用户支付订单数连续两月环比增长超百倍,跻身全球支付平台Stripe榜单前十。
高速发展伴随争议。公司近期推出的Kimi Claw云端部署服务因数据安全设计引发OpenClaw创始人彼得·斯坦伯格公开质疑。该产品将用户数据传输至月之暗面服务器进行处理,与OpenClaw"本地优先"的设计理念形成直接冲突。斯坦伯格在社交平台指出,安全文档未作为强制阅读项展示给用户,这种做法可能增加数据泄露风险。受此影响,部分海外技术社区用户表示将暂缓使用该服务。











