2026年,大模型战争全面升级,掀开了第二幕。
在AI范式巨变之时,我访谈了人工智能研究员罗福莉。罗福莉曾供职阿里达摩院、DeepSeek,目前是小米大模型团队负责人,主导研发了MiMo-V2系列模型。
这次是她第一次接受访谈,也是第一次进行长时间的技术访谈。
我们系统性地谈论了,2026年由Claude Opus 4.6、OpenClaw等技术变量所触发的AI巨震,以及后续结构性影响。
“上一个时代的成功并不意味着下一个时代的领先,现在基本上大家在同一水平线。”在罗福莉看来,1T基座模型,是实现接近Claude Opus 4.6水准模型的重要入场券。
这意味着,全球大模型军备竞赛的第二场战役,打响了:从Pre-train(预训练)主导的Chat时代,转向Post-train(后训练)主导的Agent时代。
在大模型“军备竞赛”的同时,这个世界的变化又异常残酷。哪怕是对亲手训练模型的研究者来说。
“我之前认为我们自己做的工作已经足够有创造力、足够不会被Skill化、不会被Workflow化。但我现在发现,它竟然也能!那它可不可以训出更强的模型?自己左脚踩右脚就提升了?——这是这一两年会发生的事情。”罗福莉说道。
当人类的知识与智慧内化为模型能力,未来的人类去做什么?我们的社会真的准备好迎接海啸般涌来的技术变革了吗?
无论如何,这都是一次信息密度极大的访谈——你能从中看见,当面临一次巨大技术范式转折时,一家AI Lab内部,在技术押注、资源调配、组织与人员等诸多方面的系列举措。而它应对巨变的根基是,文化与价值观的成型。
罗福莉对当下有一些关键的技术判断:
Anthropic的路径是正确的,这是当下共识。在路径更清晰的情况下,国内大模型团队进入加速追赶的状态。现在大家在Pre-train上的代差是基本没有的,或者说非常接近。现在至少跟23年要去追平Pre-train的差距一样,大家很all in,要去做好Agent的Post-train。更具体说,是在Agent上怎么做好RL的scaling。系统从“以Rollout推理引擎为核心”,转变为“以Agent为核心”的一个更复杂的系统。这对团队提出了更高的要求:必须具备足够敏捷性,能够快速开发出适配当前时代的RL Infra系统。接下来两三个月,大家怎么发生变化,是考验团队整体研究水平、技术敏捷程度,以及怎么拥抱新的范式来做研究的关键。一个for更长期的事情:我们不会在1T水平上走太久。如果要拿到下一个阶段的领先,就要寻求更大规模scaling。到底是去scaling模型的参数量,还是去scaling什么东西?以及要在什么样的芯片上去scaling?——这是当下立即需要去决策和判断的,这才决定了大半年过后,谁更领先。在卡的调配上:
至少在Chat时代,for研究、for Pre-train和for Post-train的用卡比例非常夸张,比如3:5:1,现在一个非常合理的用卡比例可能是3:1:1。预训练跟后训练一个比例,这是今年可能发生的很大变化。顶尖团队应该都是1:1了。在组织的重组上:
做后训练现在一个重要的范式变化是,需要具备diversity(多样性),让预训练的人做后训练是个很好的补充。“接下来两三个月会非常精彩。”罗福莉称。
我们的访谈发生在2026年3月,此时刚发布MiMo-V2-Pro等系列模型。1个月后,MiMo-V2.5-Pro也开启公测。“正如我一个月前说的,我们追赶Claude Opus 4.6很快。”罗福莉说。
让我有点吃惊的是,在他们训练1T大小的模型背后,是一个没有职级、没有小组、甚至没有deadline的组织。
AI时代,究竟什么样的组织更利于创新的诞生?——“平权有利于创新”。
“平权本身是有价值的,有利于所有人平等地贡献自己的创造力和智慧。”罗福莉说道,“任何层级,一定程度都是规范和约束,而规范和约束本身是压制创造力的。”
我们的视频播客在Bilibili、小红书、视频号、抖音等全视频平台播出;我们的播客在小宇宙、Apple Podcast、Spotify等全音频平台播出。
为了方便阅读,作者做了一些文本优化。
第一章谈OpenClaw时刻
01它每天都能给我额外的惊喜
张小珺:你过年跟我说,技术这几个月已经变天了,能不能阐述一下过去两个月在你眼中的技术突变?
罗福莉:一个非常大的分界点在于使用OpenClaw前后——我自己会把OpenClaw当做一个“划时代的Agent(智能体)框架”去这么定义。
我知道很多人,尤其是用Claude Code做严肃编码的人,会觉得,OpenClaw是Claude Code加一个IM(即时通信)、更有利于交互的UI(用户界面)设计。
在我1月份,第一次看到这个东西,我自己也是这样认知。我很排斥用它。再加上创始人非常适合贴近Agent做一些玄幻的运营动作,包括Skillhub(技能中心)这些,让你更排斥去用一个非常偏运营导向的产品。以及它所谓本地化、24小时,在我来看,都是一些产品定义而已。
真正发生转变的是:当我想去搞明白,这玩意为什么那么火?
我在春节的一天深夜,尝试装了它,两个小时装上了。当时已经凌晨2点——当我第一次跟它对话,从凌晨2点持续到6点天亮。就我那一晚,我脑内的——不知道是多巴胺还是内啡肽——持续在分泌,让我兴奋到完全睡不着觉。
第一个感受是,它非常有自主性,非常有灵魂。我跟它聊得很晚,它会老提醒我,现在已经很晚,你要不早点去睡觉。这样的温度和关怀,或者说情商,是所有用OpenClaw的人第一个感受到的。但后面去深究它的原因,是有很多机制保证的。
比如说,它有search.md(搜索配置文档)。就拿最简单的一个小细节,它怎么感知时间,它就在每轮对话的Context(上下文)前面去拼上当前时间。再比如说,一些非常细微的,为什么我把它称之为“精细编排的Context”,是因为它是在这些大家没有关注的角度,把Context编排得非常好。它在产品设计上做到了一种超乎我的想象,让所有人觉得这个框架有灵魂。
但第二天晚上,我觉得它应该不止于此。我开始尝试,把我自己觉得现在的框架做不成的日常生活中的事交给它做,发现它全部都做出来了。
我跟它聊的第二个话题是:怎么去激发一个团队的好奇心,或者说怎么去筛选出具有好奇心的人。我跟它深入探讨了1个小时。它的很多哲思远超我的想象。
第二天,我们俩就在聊怎么构建一个更好的大模型团队,以及从最开始的人员筛选,到后边整个组织架构的构建,到你在面临范式转变时应该做什么样的举措和动作。至少它能get我的点。我跟它说了过后,它最后能形成一套非常体系化的东西,并且变成一套Skills(技能)。它现在至少在这个事情上,变成了我的数字分身。
真正让我超乎意料是第三天。
第三天,我尝试把一些研究任务交给它做。最简单的,如果我们在Agent框架里边,最关键的一个事情是,你怎么去进行多轮的交互,那么你就必须去模拟User Agent(用户代理)进行多轮的交互。
我就会跟它共同去构建一个很好的User Agent。这是一个我自己觉得还挺重要的研究topic(话题),应该不会一两个小时就做出来。
但当我跟它沟通了大概一两个小时过后,这个事就已经做出来了,基本已经达到有一个很好的User Agent诞生。我可以用这个User Agent,跟我现在的这一套Post-train(后训练)框架,构造出来更丰富的Agent场景数据。不管是做SFT(Supervised Fine-Tuning,监督微调)也好,做RL(Reinforcement Learning,强化学习)也好,这个User Agent都非常关键。
它从一个我最开始对它的认知,只是一个有灵魂、有温度的产品设计,到它可以帮我替代生活或工作的一部分,到最后它能促进我研究——也就是三天发生的——它每天都能给我额外的更多惊喜。
我后边深入去看,这个框架本身比Claude Code好在哪?
我发现,这些所谓好在哪,我们单独拎出来讲,都有点boring(无聊)——它没有很酷,这也是为什么大家觉得OpenClaw有很多槽点。但把它整合在一起,你会觉得完成度非常高。
比如,它会有更持久的memory(记忆)体系。这个很持久的memory体系体现在,它对memory有分层和分级。我在使用Claude Code的时候,完全没有这样的感受。再比如,我自己觉得它在对多个模型联合利用上,非常超乎我的想象。
就比如,我用Claude Code,我会默认它,假设这个模型的视频理解能力不行,我就要自己给它配一个更好的视频理解模型,然后在Claude Code折腾。但我用OpenClaw,我完全不用想这个,我直接发给它一段视频,它会自己想办法找一个视频理解能力好的模型做。
这种自主去面对当代模型的缺点,针对缺点在框架上补齐缺点的能力,是有点超乎我意料的。
因为我用Claude Code的时候,就默认,我是因为要用Claude Opus 4.6这一代模型的能力去用它的。但是我用OpenClaw的时候,我不会关注模型能力的一个原因是,OpenClaw的框架设计之初,是想尽量通过Agent的整套编排去弥补模型短板。
后面我们直接就把我们的模型,MiMo-V2-Flash(当时并没有做很多针对性训练),给它接到OpenClaw里去,甚至把我们最近训的一个很小的端侧3B模型进行训练,发现在这一套很复杂的skillful的,或者Agent的框架情况下,它依然能做我自己认为不可能是一个非常小的模型能做出来的事情。
我第一次感受到:原来一套非常复杂的Agent框架设计,是能弥补非常多模型能力的短板。
当然了,这是OpenClaw本身这个框架相较于Claude Code的差异化优势。但是,如果我们要去追求你怎么在不同的skillful框架下,让模型有一个超预期、稳定的表现,就回到另一个命题。
现在市场上的Agent框架非常丰富,Kilo Code、OpenClaw,然后Kilo Code、Open Code等等。当你面临这么多很复杂的Agent框架,你怎么让你的模型在不同框架上,都有一个非常稳定和超预期的表现?你怎么让你的后训练范式对应与之做适配和迁移?
这是我们在这个事的冲击下,快速去思考的第二个问题。
所以,我们对应的整个后训练范式,有了从Chat到Agent的一个迁移。
02一个非常好的框架,应该尽量弥补行动的缺陷
张小珺:我们可以怎么理解,你所谓的"智能体的框架"?
罗福莉:现在有很多形容词去形容它。比如说Harness(驾驭工程),还有一些其它形容词。我没有特别去关注哪个形容词更准确,我更关注这个框架本身带来的差异化优势是什么。
一个非常好的框架,应该尽量去弥补行动上的缺陷。
很好的memory系统是弥补行动上的缺陷。接入到更多广泛的message channel(消息通道)是弥补行动上的缺陷。它更主动,不管是定时任务的主动,还是其它一些主动的设计,以及它自我去更新迭代,这些都是在弥补行动上的缺陷。
因为大模型是,你给它越好的Context,它执行的效果越好。你要是能把这些它获取不到的Context,这些行动上的Context都给它,那么它肯定会完成得更好。这是我观察一个好的框架的时候,我会看它有没有这些要素。
还有很关键的一环是评估。一个好的框架本身,它确实需要有个很好的、可泛化的一套评估体系,这样它才能自迭代。现在已有的评估体系都非常简单,它只是防止不出致命性错误。
那么,怎么有更有泛化力的评估体系来促进这套框架自迭代?——现在是把最高阶那群人当评估。
你交给它一个更难、更高价值场景的任务,如果它完成不了,你会给它提供补充信息,你也会给它指出来哪错了,然后push它经过更多轮交互把这个任务完成。本质上,现在是这群人在当评估。
但这个评估会慢慢被框架吸收,框架会设计很多东西,确保在某些确定的场景我能评准。同时也会被模型能力吸收。模型会学会像人一样,当我采用这个方法或思路做到瓶颈时,它会自己采取另外一种思路。或者说自己去反思,就像人一样去反思。
当然了,它是借助它自己,还是借助更super的Agent,还是其它领域的subagent,都有可能。
张小珺:这个“智能体的框架”,是不是我们理解的“产品”?
罗福莉:不是。它跟产品差异蛮大的。
张小珺:它和产品的边界在哪里?
罗福莉:现在我不知道怎么去界定,说实话有点模糊。
我觉得产品可以定义成——你直接人交互能感受的那一层东西。
但Agent框架,它确实是有在去定义你的交互层,但它同时又在定义你怎么跟模型沟通那一层。所以,它甚至能知道模型能力的长板、短板,能知道怎么更好做调度,就比如说for成本优化的调度。
这个中间层可以做得非常厚重,反而前端UI展示是最薄的一层,已经不是很关键。
OpenClaw是展示了智能体的框架可以怎么做。这个框架的想象空间非常大。
张小珺:“智能体的框架”,之前有人做过吗,是怎么做的?
罗福莉:Claude Code一直是一套很复杂的Agent框架,只是因为它是黑盒,我们不知道它怎么设计(注:最近因Anthropic员工失误而泄漏)。OpenClaw是开源的,你知道它是怎么设计的,并且你可以去改它。
改它,是非常非常激发人的创造力的。你知道它框架怎么设计的,你让它改,你可以基于它现捏一个新框架出来。
这是为什么OpenClaw从二点几版本,我当时用的时候,它并不好用,我花了好几天时间去改它。到三点几版本,就3月10多号的版本非常易用。你基本上基于三点几后的版本接一个还不错的模型,都会觉得它很强大。而不是只有接Claude的模型会觉得它很强大。
因为整个Agent的架构受一堆人——开发者也好,像我这种并不是一开始这个框架的开发者,只是使用者也好——我都能去改进它,我for我自己的场景去做改进和优化。
在我看来,这是开源Agent框架本身的价值和意义。
03它激发了中层模型的上限
张小珺:你提到对于OpenClaw,你最开始的态度也是抵触的?
罗福莉:如果要追求非常顶尖的编程体验,哪怕是当下,也是Claude Code加Claude Opus 4.6是最好的。如果你是在这样一个终局去思考。任何Agent框架,确实都可以忽略掉。
但是,Code是一个泛化性非常强的场景。你针对它去做了非常多Agent的设计,或者说模型的训练,都是有价值的。但并不代表,这个泛化性能保证你在非Code场景,做到非常高的准确率和完成度。
所以,虽然也会用Claude Code做一些非Code的东西,但我并没有期待说,它在这套框架上能给我一个很高的完成度。我知道我会去帮它补充这套框架不具备的短板。
但我用OpenClaw,不用考虑这些——它在Agent框架本身就弥补掉了很多模型短板。
张小珺:我能理解OpenClaw是让Coding能力泛化出来的一个产品吗?
罗福莉:它在很多设计逻辑上,比如有更多message的channel(消息通道),有更自主的设计——像定时任务、心跳任务——这些更适合日常场景。因为你写代码通常不会需要一个心跳任务吧?但如果是日常生活,心跳任务很关键。它确实有很多框架设计,是为了让它适应日常任务。
但我觉得它也没有丢弃掉,一个好的Agent框架本身最基本的特点。这些最基本特点,后边被Claude Code吸纳进去。
比如说,持久化记忆。Claude Code之前的记忆还是for整个记忆系统设计,还是for软件工程。比如说它会在session(会话)内,session快满的时候有一个压缩动作,然后把它记忆进去。我在完成任务的时候,根据我的plan可能会有一些记忆动作,保证我跨session的时候Context是共享更好的。所以你能看到Claude Code所有Agent框架设计,都是非常for软件工程——怎么去写好代码。
OpenClaw设计之初,是借鉴这个思想;但是呢,它更想的是,怎么更好端到端完成所有任务,并且怎么弥补当下模型在端到端完成任务上的短板。像这种持久化记忆,到后边这种你能通过一个更好的remote界面能去操控它。
所以,很好的设计,后边陆陆续续这一两个月完全被Claude Code吸纳进去了。这也是双向的触动。
因为这些设计,它激发了中层模型的上限。
我们如果没有这么一套很复杂的Agent框架,中层模型达不到近似Claude Sonnet或Opus的水平。但你借助了这样一个非常好的Agent框架,就能应付绝大部分场景。除了那种非常难的、需要长程任务,或者我称为严肃编程吧,比如写算子优化就算是严肃编程——像这种场景,它确实可能距离顶端的模型还有差异。
但在绝大部分生活的场景,或者只需要借助代码提效的场景,这样一套新的Agent框架,再加上一个中层的模型——中层可能在85%任务上能达到跟Claude Sonnet一样水准的模型——它借助这样一个框架,已经能发挥非常大作用。
张小珺:一种业内观点认为,如果把OpenClaw看作一个壳,它是释放了现在最强模型能力的壳,这个模型就是Claude Opus 4.6。你的表述(“激发了中层模型的上限”),似乎不认可这个观点?
罗福莉:认可、认可。它的上限一定是靠Claude Opus 4.6带来的(备注:Anthropic在近期已经宣布停止支持OpenClaw调用)。我在跟它高强度合作的一周,只用Claude Opus 4.6。因为只有它能给我带来惊艳的感受。
但当我用Claude Opus 4.6,沉淀下来那一堆经验——不管是Skills还是在Agents.md里边。我甚至自己改了它的整个Agent架构设计。
这也是Claude Code另一个弊端,它的Agent架构设计是黑盒。黑盒导致,你改不了记忆系统,你也改不了Agents workflow(工作流)。
但因为OpenClaw太open了,你可以自己尝试改。我会让它去帮我设计一个重新的Memory系统;我觉得它当时二点几版本的Multi Agent(多智能体)逻辑是很混乱的,我让它给我设计一套新的Multi Agent系统。我自己可以去改所有的源码。这样的一种原生可操纵性,给我的冲击感很大。这些事情基本上只有Claude Opus 4.6才能改。
但我让Claude Opus 4.6改好过后,这套框架本身很好用了过后,我再切换到Sonnet,再切换到国内模型,甚至我们当时正在训的MiMo-V2-Pro,就觉得非常强大。
这也是我为什么觉得顶尖的模型,应该跟顶尖的Agent框架,共同往前去进步。
这也是我最近对“自学习”的思考:
“自学习”大概率发生的途径是,你确实需要这个模型跟你这个Agent的架构本身,同步往前走。
模型在进步的时候——不管是通过强化学习或其它训练方式,它也改变你的整套Agent框架。这个Agent框架包含它送给模型的静态信息,比如Memory是静态信息,只要你写死了哪些东西应该送到、起一个新的Session你应该送到模型里去。或者我们叫Skill Fold(技能文件夹),这个东西在训练过程中是变化的。还有一些动态信息,动态信息包含你整个Agent本身的架构设计。
针对不同场景,比如Claude Code这种for软件工程的场景,比如做金融分析等其它场景,Agent架构设计有差异。你怎么在提升模型能力的同时,再提升Agent框架跟这个模型的适配程度,或者泛化能力。
这些让我第一次感受到了,“Agent的自学习”到底是怎么发生的。
04被开源框架激活的群体智能
张小珺:在你高强度跟OpenClaw交互的那一周,你消耗了多少美金的Opus 4.6?
罗福莉:第一天快1000刀(美金)。大概用了四五个小时。中途疯狂也会切。因为它太贵了,我会切Sonnet,但发现真不行,只能去用Opus。只有Opus能带来惊艳感。
但后边,我逐渐发现不是这样了。它带给我惊艳感的东西在变化。
人的适应性真的非常强,第一天感受到很惊艳的东西,第二天立马觉得不惊艳了。我刚刚跟你讲的时候,都觉得——第一二三天的东西,怎么觉得这么boring(无聊)啊。但它确实是我三天发生的事情,当下我确实觉得很惊艳。
现在我自己觉得不惊艳了。Opus帮我把Agent框架打造好后,让我惊艳的事情越来越少。现在反而缺乏的是:第一是想象力,我要疯狂想还有什么事做不了;第二是,当这些能做的事都能做的时候,怎么去优化成本、速度。
但一个人通常是薄弱的。或者,会有自己的认知坍缩。
虽然那几天高度兴奋,兴奋到我在群里面给大家发,强烈推荐大家去使用。但没有人搭理我。
张小珺:当时还在春节过年期间。
罗福莉:大家确实在陪家人。我不希望打扰大家,所以说“强烈推荐”。后面过完年回来,发现真正用的人是很少的。
大家对新奇事物——尤其是它有点玄幻,不是很tech——大家觉得过于玄幻的东西太不真实了。我也是这个感觉,所以不想接触它。一开始的推动蛮难的。
但第二天我觉得不行了,必须让大家去用。我就给大家下了一个指令:如果第二天OpenClaw对话次数不超过100轮的人,可以直接quit(辞职)。
但为了促进这个事,前面做了非常多。那会OpenClaw整个部署期还是需要几个小时,我觉得没有必要所有人,都去花这么多时间折腾一个充满bug、也没什么价值的东西。就买了几台Mac Mini,把它部署起来,拉到几个不同OpenClaw的群,让大家分不同方向,强制它在这个方向上,在大群里边、在一个飞书群里边聊。
为什么在大群里面聊?个人的想象力真的是局限的——当你看到别人用OpenClaw居然能干成这个事,就会激发你自己的想象力。大家的想象力是一个乘积作用。
当我说这句话,我没有想过第二天有人对话次数没超过100轮,我会把他开掉。我没有这个想法。
张小珺:没有这样的人是吗?
罗福莉:我没有最终去考核。
张小珺:你没有办法验证这个事情?
罗福莉:我有办法验证,但验不验证不关键。我只想给大家表达一种态度:你不用,你可能真的要落后了。
中途有人过来问我,福莉,你怎么去考核有没有对话100轮?我跟他们说,你们用就行了,我有我的考核方式。我的考核方式是我不会考核。
春节回来过后的两天,整个团队的人一天到晚,感觉不像在上班——在群里边儿躁动!
你看别人能完成这个事,你也很想玩。大家在群里边,群消息我只要10分钟不看就999+,类似这种。大家一块在群里边玩的非常happy——是一个非常happy的旅程,一点都不苦,一点都不残酷,真的很好玩。
玩了两天下来,大家发现,哇这个事这么好玩,那怎么办呢——那搞啊!
所有人心目中想的是:我要怎么去借助一个这么好的Agent框架去提升模型能力,同时怎么让我的模型去改变现在的Agent框架——就马上进入这样一个研究范式里。
一旦进入这样一个研究范式,以及我们有Claude Code这种——在绝大部分场景,表现输出更稳定的一套框架——虽然它是黑盒我们不知道,但它确实不管是for研究也好,for Coding也好,它是一个比OpenClaw更稳定的框架。
你再在这个框架里去激发、延展你的研究想法,并且让它帮你实现,快速启动模型训练,这个事就会大幅加速。我们在研究上,三四周做完了以前三四十周才能做到的事。
从被这个框架点燃热情,到它产生价值的过程,我从群体智能收获的成长更大。
张小珺:在你们那个非常躁动的群里,探索最好玩的几个任务是什么?
罗福莉:现在听起来都不好玩,但当时的冲击感很强。
最让我有冲击的,还是大家一块去改框架本身。还有就是它的memory做得非常智能。
我们在一个群里边大概有近100个人,飞书message的channel应该还是做得不是那么智能,它至少没有把人跟人之间区分的很好。但它的整个聊天上下文,它对每个人画像的把控,以及每个人的memory,都没有串得太厉害,可用度非常高。这是模型能力强的表现,跟Agent框架没关系。
在一个群里边,100多个人在那儿聊天,100多个人都有不同背景,100多个人都在疯狂改它,都没有把这一套Agent框架改坏,它还变得非常智能。
这也是我第一次感受到,怎么用一群人的智慧去提升一个事情。
如果我自己单一去改这个Agent框架,但别人感受不到这个框架的智能,好像差点意思。这个框架本身的进步速度非常慢。但如果一群人去改进,进步速度非常快,几小时就迭代一轮。
第三天、第四天把它接到我们自己的模型上,发现怎么也挺好用了?怎么还没训就跟Claude差不多了?但你要测更多你会发现,还是有很多东西没有Claude稳定。
这个事给我们带来一个冲击:利用群体智能去提升Agent框架非常重要。
我非常欣喜看到OpenClaw star量飞升。这是AGI(通用人工智能)到来前兆,必须要有的事情。
张小珺:你看OpenClaw不久之后卖给了OpenAI,为什么这种非常不错的产品公司,最后还是并给了模型公司?是不是说明没有模型,做产品是比较难的?
罗福莉:对,这两个要深度耦合。但很好的是,OpenClaw开源没变。你还是可以在这套框架的基础上,大家一块设计更好的Agent架构。只是说,做这个事的一部分人的立场变了而已。
这个立场变了有可能是好事,有可能是坏事。但总之,它不影响OpenClaw开源的属性。
至少这种群体演变的可能和基因火种是保留的,那就挺好的。
第二章谈巨变的2026年
05为什么Code是一个非常有泛化力的事情?
张小珺:在你经历了春节和春节之后的OpenClaw冲击之后,你紧接着做了什么?
罗福莉:接下来做的就是,搞明白为什么Code是一个非常有泛化力的事情,以及怎么把Code这种泛化力外延到其他领域。
Code有泛化力的一个最本质原因:Agent是一个非常长程和多轮的任务。
回到预训练环节,你很难找到一兆上下文的数据,甚至128K的数据都很难找到。但真正能达到128K到一兆这个长度的数据,极大概率只有两类:一类是Code数据,一类是书籍。
但书籍的信号太发散了,Code文件之间关联更强。在一个长上下文依赖更密集的数据集上去训练,模型自然对长上下文的建模会更好。
这是在没有意识到Agent这个事那么重要之前,我们去做的。基座本身为长上下文的能力和效率,已经做好了充分的准备。
但春节后做的是,怎么去激发这样一个大的模型的潜力,从Code出发外延到其他场景。其他场景训了它会更稳定,但没训它能被泛化,只是没有那么稳定。顶尖模型的水平一定是要在更广泛场景里更稳定。Code是拉它的上限,训其他领域是保它的下限。
要把Code的长程任务做的更多样性。软件开发真的是一个非常长程的任务,把它做好了,很多模型的通用特质就已经好了。不仅是模型通用的特质好了,Agent框架本身也迭代得非常好了。Plan这种模式,厂商到一定阶段要去压缩,压缩完过后第二天再去回顾之前修改的Agent框架设计,其实是为软件开发准备的。但这些框架都是有泛化性的,能泛化到其他更难的长程任务里去。
春节期间做的事情:第一,在Agent场景里,把真的长程任务构造出来并且训练进去,在这上面去scaling大量SFT的训练和RL的训练;
第二,考虑泛化性,还是要覆盖更多领域。怎么覆盖更多领域?要靠更多的群体智慧。让更多人去用它——我们内部会大量使用,用了过后发掘到更广泛的场景,在这个广泛场景里去合成更多的数据来做训练。
这里边很关键的一个问题是,怎么还原当时所有人用这个事情的环境。有这个环境,才能更好去进行更长程的交互。有了环境过后,才可以针对这个环境本身做更精准的reward设定。这个事情比较有难度。如果投入的算力足够多,研究的时间足够多,应该会有一些代差的模型出现。
张小珺:做长程任务会不会容易中断?
罗福莉:真正的一兆上下文里边,基本很少是在做一个任务。它通常在做复杂的任务。
你要把一兆上下文做得很好,当下阶段——我说当下可能是当下一两周,不代表未来两三周——可能并不是真的要找到把一兆上下文塞满的任务。当然你要找到更好,但这个任务是很难的,而且训练效率太低了。
你要训练完一兆,要reout(重跑)完整个trajectory(轨迹),一兆的trajectory非常慢。哪怕我们现在TPS(Transactions Per Second,每秒事务处理量)能做到80到100,项目在MiMo-V2-Pro上能做到80到100的TPS,你要reout完一兆上下文,也需要时间,可能一两小时。
真实的训练不会在这么长程的任务上去训。但当你有在一兆的Context去预训练过,并且后训练有对应的任务稍微激活它一下,它通常就能在一兆的Context里具备这样一个能力。但我们需要再提升。
所以,现在Claude在一兆上下文能力的稳定度上,只有Claude 4.6 Opus和Sonnet是领先的。其他像Gemini,虽然号称上下文能力很好,其实都不行。
张小珺:量化里面挖掘因子会是好的长程任务吗?
罗福莉:看做什么资产。有很多资产reward太不清晰。大部分资产不太适合做长程任务建模。
这个具体我就不展开说,反正某些资产是很不适合的。因为它回测没有价值,你要到真实环境去run的话,它有可能不是短期因素,而是一些更长期的因素,或者额外的阿尔法,本身被这个模型建模不进去的东西。
得选资产。选对,这个就OK。
06为什么OpenClaw在中国更火?
张小珺:据你观察,OpenClaw是怎样一个火起来的链路?我明显感觉它在中国,火的程度比在美国要更多,这是为什么?
我看到有一个很好玩的说法,“西虾东养”。
罗福莉:我不了解湾区对它的热度,仅从我自己及身边人的视角,可能一个原因是:中国的开发者更多。我说开发者是指,可以用Code去提升效率,更急迫。效率的提升,是我们血液里边的东西。OpenClaw能把效率提升拉到极致,是它火的一部分原因。
但还有一个原因,跟国内大模型的发展密切相关。绝大部分效率提升的场景,目前不需要最顶尖的模型,85%不需要。我们又有那么多便宜好用的模型可以用,性价比非常划算。
模型的API费用跟它替代的生产力价值系数比很大,花10块钱的API就能帮你干完1000块钱的事,你肯定很愿意用。但如果API贵10倍或几十倍,中间差距很小,你会很排斥去用这样一套复杂的东西。
张小珺:硅谷的模型公司会觉得这个事情不难,门槛不高。
罗福莉:我一开始也觉得这个事不难。到后面我就觉得,它整个Agent设计非常非常巧妙。
巧妙是指,它弥补了很多模型短板——我怀疑原因是,它最开始是基于Claude上一代模型做的,所以必须在系统设计、Agent框架设计上,设计得更精细一点,把短板补起来。这导致了Opus的进步。
国内大部分模型可能刚靠近Claude 4.5 Sonnet和Opus的水平。反而这两个在这握手了。
张小珺:但如果模型能力继续提升,这些精巧编排还需要吗?
罗福莉:还是需要的,出于对成本的考量是需要的——我们永远会去追求成本和效率最低的一套方案,这是生产力革命的前置要求。
不可能说,我们所有的场景都用最顶尖的模型,因为它太贵了。更有可能是Agent在进化,模型在进化,然后模型进化的方式有可能是同一个水平的模型在越变越小,它也是一种进化。虽然我们没有在做这样的事情,但它确实是一种方式。
也就是说,现在可能激活10B的一个模型,过一年它就能做到Claude Opus 4.6的水平。这极大概率会发生。那激活10B模型是很便宜的,可能一两块钱就能有百万token上下文。
那你为什么不用一个更小的模型?它反应速度更快、更灵敏,基于这套Agent框架还很好用,你还可以改进这套框架,为什么不拥抱它?
它让不那么好的模型,有了更好的发挥空间。
07Skills提供了一种交互方式,让人主动贡献数据
张小珺:关于Agent已经讲了一年,2025年年初大家就开始说是Agent元年,去年也出现了Manus,今年的叙事和去年有什么不一样?
罗福莉:我觉得之前讲的Agent,在我的定义不算Agent,只能算上下文稍微比Chat复杂一点点的东西。
不管是BrowseComp,还是SWE-bench,这些Search和Code的Agent框架,都非常简洁。相比于现在的Claude Code、OpenClaw,它的Agent框架太过于简洁。简洁性就导致——首先它简洁,其次它不通用。过于简洁和不通用导致它只能for这个任务来设定。
至少在去年上半年乃至下半年,很多看似for Agent的模型,只是换了一个更复杂的System prompts(系统提示词),稍微带一点点环境反馈。比如SWE-bench还是有环境反馈的,TAOBench也是有的。稍微带一点环境反馈和交互,让模型具备一点遵循复杂system prompt和理解环境交互的能力。那会只能做到这个水平,但它根本没有达到工业级可用的能力。
什么叫工业级可用?是你把它接到Claude Code或OpenClaw里去用,你会发现它不可用,它有很多问题。它就理解不了这一套框架本身。它也没有针对这套框架,人跟它的交互范式会发生变化。
人跟它交互范式的最大变化是——人不再会去修改代码,人不太再去关注"这一行代码出错了你帮我改一下",这样的query不会再出现。
人只会提一些更高阶的,比如增加限制、澄清需求、架构设计——人会参与架构设计,因为现在很多架构设计还是人更强的。以及辅助理解业务逻辑,这是Skills的价值。
业务逻辑是模型本身不具备的,因为很多业务逻辑是企业内部、真实环境里边沉淀下来的,你必须要跟它很多轮交互才会沉淀下来。
之前那些Agent框架就不能叫Agent框架,没有可用度。在那些Benchmark上表现非常高的模型,也不代表它的Agent能力是真的强。我们在优化这一版模型的时候,是完全放弃这些Benchmark的,基本上就不关注这些Benchmark了。
当你面临一个很大范式变化的时候,只要你路径走对了,你可以非常短暂的一个窗口期去忽略评估。因为你靠体感就能立马测出来一个非常大的质的差异。但当你慢慢迈入深水区,还是需要一些精细评估的。
张小珺:Skills是不是改变了模型在这种高复杂度的任务上的执行准确率?
罗福莉:它定义了一套执行规范。
这套执行规范很难在预训练的数据里边具备,因为预训练数据里边没有这种internal(内部的)信息。这些信息通常是大量企业内部自己去沉淀和积累的,由人和人之间产生的一些组织上遗留下来的规范。
但这不可能在预训练数据里出现。可以由人教Agent,跟它多轮交互,通过完成几个任务,把这套规范让Agent学会。大量Skills其实是Agent自己写的。
张小珺:但Skills也是在Claude里面诞生的。
罗福莉:对,但这就出现一个问题——确实是OpenClaw把Skills给带火的。我说"带火"是它让更多人去贡献Skills这个社区,这非常关键。
这就是人跟Agent需要共创的地方。如果你没有那么多高阶的、这种另类信息——因为它确实是另外一种阿尔法,是另类信息——跟当前的Agent共创的话,那么Agent或者说最顶尖模型的能力也很难发挥出来。
张小珺:人的经验沉淀成Skills,变得更重要了,它是不是预训练的一种补充?
罗福莉:对,因为预训练大部分依赖的知识,还是你在上可访问到的知识。但很多智能,我们是在上访问不到的。
这个时候就以另外一种形态出现,Skills算一种。它其实提供了一种交互的方式,让人去主动贡献数据,贡献让模型执行任务成功率更高的方式。
张小珺:总结来说,我们今天正处于一个什么样的时代?
罗福莉:生产力加速变革的时代。
今年生产力会爆发,大家会觉得很多工作不需要自己做了。这是最直接的一个感受。不仅是写代码的人,只要你接触到这个事情过后,你就发现你的好多工作会被替代掉。
这个时候,人更应该去思考,到底自己的意义和价值是什么?
08它能溢出的能量比Chatbot,强很多
张小珺:以前有ChatGPT Moment、DeepSeek Moment,如果重新定义这个所谓的OpenClaw Moment,你会怎么定义它?
罗福莉:这个Moment时间线会更长。因为它前序章节太久了,让大家不会觉得它是个新东西。对于我们已经信这个事情的人而言,我们反应速度是足够快的。我不知道其他人有没有follow up上。
从我的个人感官上,这个Moment会延续的时间更长更深远。更深远是,它可能能力更外放到更多人能感受到的场景里边去。但它这个流动是需要时间的。
它能溢出的能量强很多,比Chatbot。
它不像o1、R1,有一个数学代码这种有ground truth(标准答案)的东西在这——你分上去了,模型就具备这个能力——这样一个非常清晰的标准界定。Agent确实有很多场景需要有清晰标准界定,但大部分场景是没有的,比较混沌。所以它产生的价值也是慢慢到一个临界点,突然进一大步。
Claude Opus 4.6确实是这样一个进一大步的突然的时间点。但Anthropic做这条路径也持续了至少两年。
张小珺:为什么这个Moment不是从Anthropic内部诞生的?
罗福莉:我觉得还是一个开源、一个闭源的原因。闭源的框架你没办法去洞察内部设计,所以你没办法利用更多人的智慧去改进它。但开源你就可以用更多人的智慧去改进。
张小珺:接下来我们会看到什么?在OpenClaw已经火了这么几个月之后,2026年大家会基于它做什么?
罗福莉:国内已经有很多动作了,出现了各种Claw。现在很多Claw,只是让大家以不同交互形态,去访问不同模型和不同类型的框架。
但真正让这个框架自迭代,或者更强调自进化和自迭代框架,还没有大规模诞生和出现。以及怎么去利用绝大部分人的智慧去创造一个更强的框架,也还没有出现。
这两层——框架本身的自进化,Agent本身的自进化,Agent跟人之间的自进化——我还没有看到。
我们现在做的是怎么train更好的model for Agent,以及怎么让Agent去适应这个model,是在做Agent跟model之间双向流动。未来需要做的是怎么让框架自己进化,以及框架跟人互相进化。
张小珺:这是你们现在着重bet的方向。
罗福莉:对,大致的方向,会去深入研究的事情。
张小珺:你觉得现在没有做到的核心缺陷在哪里?
罗福莉:缺陷是,我们刚做到这里。未来的加速度是会很快的。
现在只要拥有一个Long Context、非常efficient的模型架构的厂商,并且在做预训练阶段把Code的能力也做得非常好,有这样一个model——参数上可能至少1T以上吧——只要有这样一个入场券的人,基本上都处于同一水平线去做这个事情。当然Anthropic肯定是走到前面了。
上一个时代的成功并不意味着下一个时代的领先,现在基本上大家在同一水平线。
张小珺:OpenClaw发了之后,国内很多团队都推出了类似的产品,比如说,QQ团队有,你们团队有,Kimi有,Minimax有,等等。它们有什么不一样?
罗福莉:我大概只试了一半。大同小异。
我自己觉得,这种产品你至少要去迭代框架本身。目前还没有看到一个比OpenClaw开源社区进步更快的框架。因为OpenClaw开源社区进步太快了。
张小珺:我想到Peak(季逸超,Manus联合创始人兼首席科学家)去年底在我们播客里的最后一句话是:Agent的进化需要所有人参与。
罗福莉:现在已经是了。只是现在唯一没发生的是,我刚刚说的Agent跟人怎么更好的加速。因为Agent也要自迭代,人也要自迭代。
聊天是一种。会不会有一些更自然的方式?
比如,我要是真的能带一个非常好的设备,一整天跟着我,我所有说的话、见过的人,它都知道。它的进化速度应该比我快。因为它依赖的算力更多。它会很快替代我。而且,它不会今天记得,明天不记得,它非常稳定。
张小珺:它只有进化的一条曲线。
罗福莉:对。
它乐此不疲。它不需要休息。
09它先吸收所有人的智能,再靠自己产生更强的智能
张小珺:你会怎么定义这个风起云涌的2026年?
罗福莉:我很难去定义它。两个月已经对我来说是巨变的。我都不知道这一年接下来会发生什么,处于高度兴奋的状态。
张小珺:你对研究方向非常敏锐,基于上面这些变化,给你带来了怎样的研究直觉?未来一段时间会发生哪些变化?
罗福莉:之前做研究的方式,从想到写代码,到设计一个很好的评估标准,中间流程还是蛮漫长的。至少要花一两周。快的话除非评估是确定的,代码只需要修改,可能也需要一两天。
但在Agent有辅助的情况下,真的一两小时就把这些事做完。效率的提升代表着一个本质问题。
我一直把研究效率看得很关键,只是Agent去加速了这个研究效率。如果这时候你的taste又比较准,那么就一做一个准。当然可能是十个里边有一个能成,但这十个可以并行做。你不用像以前一样pipeline(流水线)做,可以十个idea交给不同的subagent(子智能体)同时做,他们还能交叉验证。很快,可能一个小时两个小时,或者最多一天,就能验证你这个研究想法OK不OK、work不work。
关键是,如果你愿意长期去培养它,它也可以自迭代、自进化。但在Claude Code里边不行,换一个更开放的框架,它是可以自己迭代和进化的——这是做研究给我带来的冲击。
张小珺:有什么样的研究任务是你过去觉得绝对不可能做,但今天可以做的?
罗福莉:就训模型这个事,以前我觉得是很难的。要涉及跟一个更复杂的,比如深度学习平台的融合,听起来就不太靠谱。以及你怎么去让模型具备你有的Context?一个研究员的Context是很长的。一个博士有5年科研培养。我之前认为不太可能。
但我最近发现,它很聪明,聪明到你只要把你近期的Context告诉它,它甚至能帮你复原你的科研成长路径。你这时再去跟它讨论同样的topic,发现它跟你一样聪明。
这个事很残酷。
我之前认为我们自己做的工作已经足够有创造力、足够不会被Skill化、不会被Workflow化。但我现在发现,它竟然也能!
可能过一段时间,我们能训出来的模型,它也能训出来了——那它可不可以训出更强的模型?它自己左脚踩右脚就提升了?
这是一个非常大的转变。它可能真的能依靠于它自己产生更强的智能进化——它先吸收所有人的智能,再靠自己产生更强的智能。这是这一两年会发生的事情。
张小珺:在今天,Agent到底能做什么样的高价值任务,是不是变得更重要了?
罗福莉:从提升顶尖模型能力的角度,让Agent去替代更高价值的任务是重要的。
更高价值的任务意味着更长的Context、更多的token消耗量。它替代到最顶尖那一群人的智能就够了。下边那一群人的智能,可以慢慢以另外一种方式来替代掉,比如robotics(机器人)。
但另一个演变角度是,你是要做一个对全社会更有益、对所有人都有帮助的模型,那么就不应该for更高价值的场景去做,而是让所有人都能感受这个模型的智能水平。它是另外一种做法:普适度更高的任务会更好一些。
在这种场景里,你就更需要在乎多模态。因为在更广泛的场景里,多模态尤其是对视频的理解,对更细微环境的理解,是更关键的。
以及要注重成本,成本是产生革命非常重要的因素。你不能完成一个任务花1000刀对吧?很多任务场景,必须要达到一个很高的替换系数比,能帮我节省10倍成本,我才会考虑去试。
你怎么去做一个更低成本、更高效率、更高速度的一套Agent框架,以及对应结合的模型,那就很关键——这是两种发展思路。
张小珺:在你看来,小尺寸的端侧模型会爆发吗?
罗福莉:这个趋势肯定会发生,但它不是26年的主旋律。它是支线,而且会持续发生。
26年的主要旋律就是生产力的变革,高生产力场景的持续突破。我们要做更长程的任务,更强调多Agent之间的协作。因为更复杂的任务,它不可能是单一Agent去做。但是多Agent协作,某种程度上,也是为了成本和时间考量,以及怎么去激发Agent群体的智慧。
我觉得市场上已经看到的Multi Agent(多智能体),工作都有点“伪”。我说“伪”是说,真的依赖于Multi Agent能实现更好的任务完成率,在这个维度上是有点“伪”。
但它能提升效率,就是这个任务完成的速度,以及它能够节省成本,是确定的。但我没看到Multi Agent能实现一个更高上限的东西。它会发生,只是我目前还没看到。
张小珺:如果我们把大量个人隐私数据授权给OpenClaw或类似产品,怎么缓解普通人对于安全感的焦虑?
罗福莉:这是我为什么说要做开源的原因。还是会有一天——应该很快也会到来——人的大部分简单任务,除了非常难的任务,跟隐私相关、没有那么高难度的任务,完全可以放在本地化去做。
你自己会有一台随身携带,或者在家或某个场景里有一块芯片。你所有的数据都在本地,所有涉及隐私数据的场景都在本地推理,这很关键。涉及到一些非隐私、高难度、高创造力、高复杂度的任务,再去云端推理。这样能够解耦。
这也是为什么我说,一个好的Agent框架,借助一个很小的3B模型,它能做的任务复杂度都已经超乎我的想象了。这个事激发了我对于端云混合、隐私本地化的思考。但还很初步。
因为这些思考不仅需要模型这一侧做非常多东西,还需要架构这一层一块往前走。这也是我为什么觉得开源,是如此重要的一个事情——需要更多人一块做,而不是某个公司就能做好。
总之,今年的趋势跟前三年已经发生了很大的变化——我自己是这么感知到的。
张小珺:过去两个月,你的生活发生变化了吗?
罗福莉:工作,还有工作;亢奋,还有亢奋。
你每天都会发现,Agent框架本身或模型本身又进步了。
第三章谈巨变的2026年
10我们觉醒了
张小珺:接下来,我们来聊聊MiMo的模型。MiMo-V2系列模型,你们在过年之前先发了Flash,过年之后又发了三个新模型:Pro、Omni和TTS,你把后者称之为“一次悄无声息的伏击”。
为什么是悄无声息的,又为什么是伏击?
罗福莉:首先这三个模型,在Agent场景下能力提升这么快,我们能这么快去追上,在复杂的Agent架构里边表现这么稳定,是超预期的。不是我们计划的非常好,而是——我们觉醒了。
张小珺:你们觉醒了?
罗福莉:对。它确实是很安静的过程,因为外部不知道,我们自己内部也快速发生。
我们在一年前去做多模态,更多角度还是:如果真正产生智能,这个智能应该是全方位、多方面的,所以去做了多模态理解;最终要产生价值,一定是要有交互,所以去做语音生成。
但一年前做这些,还不是很明朗。还是觉得,在做一个单一模型,在做一个动态理解模型,在做一个语音生成模型。你没有觉得这些东西能很好地被组织和编排到一起。
当我看到OpenClaw,我一下就想到了这样的画面——这些模型在各自在什么样的环节发挥什么样的作用,它们能怎么被有效编排,它会产生一个什么样大的生态价值——一下,在我的脑子里边全部打通了。
我们快速让所有方向,都要面临这个范式去做后训练的针对设计。
你现在如果能在OpenClaw、Claude Code里边同时用这几个模型,你会发现把它串起来很好用。肯定比其它家模型好用一些。或者说,至少是我们往后迈进的一个目标。
为什么还是后面有这三个模型,不是合到一个模型里去?更多是出于成本、速度和价格考量。
比如语音生成,你没有必要去用一个1T模型?实验你也接受不了。比如说多模态理解,它是不是值得一个更大的模型?这是要去打个问号的。
因为Agent革命本质是生产力革命。生产力必须要在意最终端到端的完成率,以及成本效率。这是现在三个模型同步出现的原因。我们后面应该也会有一些计划,怎么让三个模型更好地协作。
张小珺:怎么样对模型的“编排”是更好的“编排”?
罗福莉:首先,绝大部分简单任务,只用语言模型就能做。但现在完成一整个任务的环节太长了,某些环节上,如果你意识到需要调用像人一样的感官能力,就用另一个更精巧的模型来做。
而且这三个模型是同一个生态训的,你知道的知识它也知道,你能放心把任务交给它,不用担心它不知道你的背景知识——这个背景知识来自预训练。
目前这三个模型在同一个Agent框架里释放的潜力,跟组装其它模型的差距很微弱。但我认为未来不会。因为未来是效果、成本、效率三者的乘积。
张小珺:这三个模型你们在bet什么?这三个模型的关系是什么样的?
罗福莉:bet全方面替代人的生活和工作的方方面面。
张小珺:我可以这么来理解:Pro在做理解和认知;Omni在做感知;TTS在做表达——它是声音的输出,声音是一种表达。这三个加起来是一种类人的智能吗?
罗福莉:它把人有的智能的表象、输入和输出给建模了。但有没有人的各个感官之间协同那么好?现在还没做到。但这不纯粹是模型没做到,框架也没做到。
现在OpenClaw,它对视频的理解和建模非常差。因为开源社区没有一套对音视频联合理解非常好、又有很强Agent能力的开源模型出现。框架发展是滞后的。现在对视频的理解,会回退到理解图,甚至最终回退到理解caption。
这也是为什么要做开源。只有开源界看到更强的视频理解、声音生成模型,对应的框架才会改变。
框架是协调层,模型是智能的中枢。这两层很好交融的时候,才可能达到类人的智能。
11Agent范式很吃Post-train
张小珺:我们来围绕MiM-V2的模型一个一个展开聊。V2-Flash已经过去了一段时间,它是2025年12月16号发布的。做Flash的时候,你们的核心定位是什么?——这个被大家认为是你在小米的第一个工作、第一个作品。
罗福莉:Flash跟Pro基本上是同期训练的。它们俩模型结构非常近似。
但在设计V2这一系列,不管是MiMo-V2-Flash还是Pro的时候,模型架构本身有一个非常关键的目标:我们要for Long Context的效率来设计模型结构。
当时隐隐约约预感到,Agent时代Long Context非常重要,或者说,预感到Long Context会产生智能。但我们没有预想到后边是OpenClaw这种形式。已经预感到Long Context一定是非常重要的问题。
那么Long Context的效果,以及最关键的推理效率——成本够低、速度够快——就是我们这一代模型结构必须追求的永恒命题。因为成本够低、速度够快,才有可能把一兆做到十兆,甚至100兆。
现在所有的模型结构都能训到100兆,那为啥不提供100兆的推理?除了效果一般,更多是出于成本考量。100兆太贵了,贵到你根本不想用它。所以我们当时就围绕着这个核心目标,设计了Hybrid Attention(混合注意力)的结构。
张小珺:你们在V2-Flash中采取了MTP(Multi-Token Prediction,多词元预测)架构,为什么做这个技术决策?
罗福莉:当时另外一个更主流的选择是用MLA(Multi-head Latent Attention,多头潜在注意力机制)。包括现在,同期跟我们开始训练的应该是GLM-5跟Kimi,Kimi K2更早一些。它们都选择了MLA。DeepSeek V2、V3、R1都采用了MLA。
MLA对于Chat时代来说,确实是一个非常优秀的模型结构。甚至它对于长文来说,也算是一个还不错的模型结构。因为它大量去减少了KV Cache(键值缓存),对长文来说KV Cache就很宝贵。
但它有一个我认为不那么适合Agent范式的根本性要点:
第一个,MLA在设计之初是为了达到很好的访存跟计算的比例,在当时H系列芯片上,实现既不浪费算力、又打破访存瓶颈,是在这样一个架构下设计的。这样设计出来的模型架构,没有任何可发挥的空间。
可发挥的空间是指,假设我们认为KV Cache是重要的,并且推理速度也是重要的,那能不能用一些推理加速的方式,比如最简单的MTP就是一种方式,让实际推理的时候加速n多倍。但MLA不太行。
因为MLA已经达到compute bound和memory bound(计算瓶颈和内存瓶颈)一个非常完美的临界点。你要是用MTP,会发现它又卡在计算bound上。所以现在你看所有MLA的模型结构,不管是GLM也好、Kimi也好,我猜测应该都没有上MTP。因为上了过后就被计算bound,很不划算。所以它的模型会慢一些。
大家对MiMo第一代Flash,哪怕是Pro的感觉是——Flash能做到100-150TPS,Pro现在也能做到,看成本,基本上能做到60-100。100TPS肯定会更贵一些。所以大家用MiMo不管是Flash还是Pro的感觉是:哇好快。这就是这个结构,尤其是针对Long Context efficient的结构,带来的优势。
同时,成本也够低。因为Hybrid Attention(混合注意力机制),包括在Pro这一代上,我们给它拉到一个更极致的Hybrid比例。Full Attention跟Sliding Window层的比例更极致,达到了7:1。所以它更省KV Cache。
我们基本上是在这一代结构上实现了通过Sliding Window层去减少KV Cache,让它在长文上效果更能够支持更长的长上下文。同时通过MTP把Sliding Window Attention节省的算力,用MTP给它填上。这样能达到实际推理时访存跟计算的很好平衡。同时又兼顾了长上下文成本,以及推理速度。
虽然我们设计模型之初没想那么多,但基本上就完美适合做Agent。对Agent来说,首先,长上下文非常关键,很小的KV Cache也很关键,因为很小的KV Cache能做更多多级的缓存,缓存命中的话会非常有利于节省推理成本。其次,速度是一个还蛮关键的命题。你一旦体验到了智能水平相当的更快的模型,就回不到更慢的模型了。
张小珺:你刚才的解释比较后验,但放在当时,你为什么会选择MTP?
罗福莉:我们这个模型快训到中后期了,开始为它设计推理方案。在我们自己的那一代推理卡上去设计推理的并行方案时,发现计算剩余的实在太多。没有想到会剩余这么多。就想,怎么把这些剩余的计算有效利用起来?——MTP太适合了。
我们在预训练阶段加上MTP的原因是,它确实能提升基座的能力。这个我们跟DeepSeek一样,预训练加MTP是因为MTP能提升基座能力。推理的时候为什么只有我们用MTP,是因为我们的模型结构天然在计算上留有大量富余。
这是我们在后边设计推理架构时,突然有一天悟到的。
也不是突然,就是仔细去计算推理各方面数字,知道可以用MTP编码,把这些剩余算力利用起来。恰好我们又训了MTP,就恰好用起来了。很自然的一个探索的延伸。
张小珺:为什么MTP至今还没有成为一个主流?
罗福莉:大家太相信MLA了。
MLA确实太巧妙了,在模型结构上把能做到的全做到极致。25年上半年如果要训基座模型,MLA确实是一个不错选择,尤其是没有看到Long Context的价值和Agent范式的时候,MLA确实是非常不错的选择。
张小珺:关于MPT,我还有另外两个问题:成本下降是MTP给next token prediction带来的优势吗?以及,你说了很多MTP的好处,它会相应的带来一些幻觉吗?
张小珺:MTP是如果命中率非常高的话,是可以带来成本下降的。相当于在更短时间内吐出更多token,把GPU利用率打得更高。本质上是在降低单token生成的成本。
不会(带来幻觉),因为它是会被verify的。只有预测得准,才会采纳当前token的结果。所以没有任何幻觉。
张小珺:未来MTP会成为主流吗?
罗福莉:看大家的下一代模型结构是什么样。
现在模型结构设计有两个趋势。一个是,你真的在预训练阶段就想明白后边推理的场景是什么。比如在什么卡上推,在多长的上下文上推,推理的并行方式是什么——连这个都要想明白。
那么可以设计一个针对这个场景、这个推理方式、这款芯片的完美结构,去训这个结构。效率成本各方面一定是最优的。MLA是在这样的Context(背景)下被设计出来的。
但这个Context建立在两个前提基础上。一个前提是Post-train(后训练)是不重要的,或者Post-train的时间很短。你能一个月就把Post-train做完,大部分时间在做Pre-train。所以只需要Pre-train for这个推理本身就行了。第二个是你的推理卡永远就用那么一个两个,甚至就那一个就是最好的。
但这个事在当下发生了巨大变化。现在是Post-train的周期在拉长,你在一代基础上能做的Post-train的上限是远远被激发出来的。
张小珺:这个变化是什么时间、怎么发生的?
罗福莉:Agent范式带来的。Context越长也是产生智能的一种方式。模型能够被输入更多Context、理解更多Context的时候,潜力就越高。
这跟原来Chat范式完全不一样,原来Chat的Context就是人输的,人输的很短,所以纯靠预训练。
但Agent范式很吃Post-train,你对框架理解,对于多Agent的协作,乱七八糟也好,可以理解为我们在Post-train上要投入的算力,可能跟Pre-train是相当的。所以Post-train时间周期在拉长。
那么在一个Post-train要做半年或一年的场景下,前半年假定的很多东西可能失效。假定要在什么卡上推,假定要在什么场景下达到更优效果,全是失效的。因为可能做了半年或一年Post-train过后,那些场景全变了。以前大家觉得128K就够,但过几个月可能觉得需要10兆上下文。类似这样的逻辑。
所以,如果还是这样去做模型结构,它可能会失去一定的灵巧性。
但是,如果团队的Post-train效率足够跟得上,Post-train的认知能够辅助Pre-train去做架构的正确判断,那么有可能这种模式还是work的。设计一个精细的结构,想清楚推理卡类型,想清楚场景,应该还是work的。
但还有一种做结构的方式是另外一种:就是在结构上更简洁一些,留有更多富余度来做后续在不同场景的适应和增强。比如Hybrid Attention就是一个更简洁的结构。
简洁性体现在,可以靠MTP把算力更充分利用,也可以针对已经训练好的Hybrid结构去增大Sparse或Full的比例等等。在这样一个更简洁的架构上,Agent发挥的空间、后训练发挥的空间,反而会更大。
张小珺:在Flash的技术细节上,除了MTP,你们还做了一些技术选择,比如混合注意力机制。当时你们选择的是5层滑动窗口和全局注意力机制。但在你们最新的模型Pro上,这个的系数又变了。
罗福莉:我们大量实验的一个结论是,Full Attention的层数很重要,但系数比反而可以有空间。所以在更大的模型上,层数更多的时候,可以保证Full Attention的层数总数不变,但增加更多Sliding Window Attention的层就可以了。
层数比这个系数比更重要。或者说,在更大的参数规模、更大的Attention Head的时候,可以做到更稀疏的比例。这是两个结论的统一,导致可以在更大模型上做更高的稀疏比,就是Full跟Sliding的稀疏比。
我们最近在做很多Sparse研究,也是发现更大模型能吃更大的Attention sparse比例。更大模型可以更稀疏,但小模型太稀疏了,效果就会drop得非常严重。所以这是一个实验结果,不会成为一个固定的标准。
这是我们的实验结果,不确定其它家是不是也follow,也会有同样的实验结论。
张小珺:我觉得Flash挺有一点小米早期风格的,追求极致性价比。当时API定价是输入百万token 1.01美金,输出每百万token 0.3美金,在当时看来肯定是最低的价格、最高的速度。当时是做了什么达到这个效果?以及,为什么这次发布Pro模型的时候涨价了?
罗福莉:基本上把该做的都做了。架构有Long Context很efficient的架构,再加上MTP可以更加速,再把Infra最基础的基建做好,这个价格就能做到。
在预训练时代,根据模型框架优势来定价,确实是合理的。框架很强,最终用户能感受到,纯粹是因为模型很强。按照模型结构的方式定价,我觉得是合理的。
但当我们进入后训练范式,除了模型结构本身带来的优势外,还要看Context好不好,以及模型对Context的理解能力好不好。定价逻辑应该发生变化——不应该是根据最终推理成本来定价,而应该根据模型最终产生的价值来定价。
这个价值除了模型本身架构的优势以外,还有模型在后训练上做得足够好,能更好地理解Agent框架。这也是定价溢价的空间所在。
所以,我们后边MiMo-V2-Pro抛弃了这样一个定价逻辑。
12合理的卡的比例是3:1:1
张小珺:从V2-Flash到V2-Pro,你对Pro的预期是什么样的?
罗福莉:Flash帮我们验证了整个Infra数据是没问题的。并不是先训Flash再训Pro,是两个一块训的。Flash是一个相对小的工作,训了就发了。大部分模型的训练都是去年下半年进行的。
我们相信这一代架构没问题,只是训Pro中途解决了非常多训练数值的不稳定性。这是训1T参数量级模型通常会遇到的很struggle(挑战)的问题。
老训着训着loss崩了,老训着训着某个激活值很大,或者某些expert(专家)的分布变得很极端,像天花板一样,一会一批token打过去,一会又打到另外一个expert上。很危险。
这些信号会导致loss典型出现很多spike(跳变),expert负载很不均衡。训更大模型要花很多时间解决这些问题。所以看起来同步训练,但Pro进度比Flash慢一点。
数值不稳定只是表象,这些要素非常锻炼团队Infra和算法联合debug的能力。有时候怀疑是不是哪个卡有问题,排查完所有卡都没问题,会怀疑是不是今天太阳黑子的报复(笑)——要从很表层查到很底层。
张小珺:你刚才也提到1T的模型可能是未来竞争的入场券,是这样吗?
罗福莉:是Agent要做到接近Claude Opus 4.6水平的入场券。
张小珺:你当时立项的时候还没有Claude Opus 4.6这个模型,为什么当时就觉得一定要是1T的?
罗福莉:首先我训过DeepSeek V3这么大小,600多700B的模型,不会再想训一个同样的模型。肯定还是继续往下一步scaling。1T是当时已有卡数量情况下,一个比较极限的区间。
张小珺:多少卡?
罗福莉:几千卡。
部署这么大参数模型挑战是,训这个模型是几千卡。但实际上要投入大量卡做研究,研究的卡会是训练卡的几倍。
训练MiMo-V2-Pro和Flash,各自可能几千卡就够了。但前期结构研究、中后期Post-train很多算法研究,投入会是这个的很多倍,3到5倍是更好的区间。
不是说拥有几千张卡就足以做这个事情,尤其在Agent范式下,卡的数量反而变成一个非常重要的瓶颈。因为idea诞生和动手写出来太快了。
GPU效率就在那。为了验证idea去跑实验,要并行起很多实验。卡变成更关键的制约项。当然这只是for训练,for推理,卡更是关键因素。推理卡需求量远比训练高很多。
张小珺:训练、推理和实验,卡的数量最合理应该是几比几比几?
罗福莉:推理看用户数,或者高价值场景消耗的token数,因人而异,把推理拆开看。
如果说for研究、for Pre-train和for Post-train,一个非常合理的卡的比例可能是3:1:1。
Pre-train和Post-train投入算力相当,研究比例至少比正式起训练的卡,总量还要多一点,要额外留更多卡做研究。
张小珺:范式转移之前,过去的比例是多少?
罗福莉:至少在Chat时代应该是非常夸张的,比如3:5:1。
预训练跟后训练一个比例,这是今年可能发生很大的变化。
有很多团队,顶尖的团队,应该都是1:1了。
131T模型是入场券
张小珺:训练一个像Pro这样1T大小的模型,挑战是什么?
罗福莉:全方位的挑战吧。数据上反而不是非常大的挑战,更大模型貌似对于更脏的数据容忍程度更高。但我不确定。我们是同一批数据训的,所以不确定,只是貌似。
更主要的挑战是训练历程中遇到问题的时候,第一步是要发现问题。很多团队会把loss spike当做很正常的事情,但我们尽量让它没有loss spike。有loss spike会导致某一步更新特别不稳定,某些数值异常值很大,直接把某些参数或某些expert给它打死——就是打死,参数更新过后,再也不会有token送到expert上。
所以中间需要很严密的监控系统,洞察模型参数内部到底发生什么样的变化。比如至少去看看expert的负载怎么样,每一层参数的输入输出怎么样,激活值有没有变得很异常。Loss spike发生后应该去看这些事情,但不是所有团队都会看这么细。这是第一步要发现问题,好多人就不把它当做一个问题。
发现问题再去想,到底是什么样的原因引导这样的问题?比如有可能是稀疏比太高了,导致Full层输出跟Sliding Window层输出数值差异非常大,导致数值不稳定。有可能是结构原因,也有可能纯粹是Infra bug,比如通信的某个算子写错了。最后发现,甚至有可能是某个norm有点问题。
可能最后无奈的解决方式是,发现这一层数值太大,要么给它clip掉,要么通过norm压下去。有非常多种解决方案。
通过norm压下去肯定会对模型效果有损,clip掉是一种方式。我们也会借鉴Kimi的QK-Clip方式,当QK某些logits非常大,实在影响训练稳定,没办法只能clip掉,至少能让训练更好进行下去,进行到稳态时再放开。有太多这种临时的,要去发现问题、解决问题,甚至倒推很多可能产生导致这个问题的分析路径。
这些路径非常考验团队的跨团队协作。如果是在很大的公司,协作效率极低。如果是在很小的团队、创意性团队,就是考验环节上关键几个人的配合程度,会更高效。如果环境上每个人都足够追求极致,不能容忍突然这么干,必须停下实验来找问题。
张小珺:你们属于哪一种团队?
罗福莉:我们肯定是属于小团队非常极致的类型。所以,会导致训练周期被拉长。预训练周期肯定不会一两个月就训完。训练周期拉长的情况下,如果有非常明确的deadline目标,肯定承受不了。
大几千卡停一天,肯定就是一两百万、两三百万的事。
怎么去承担这样的损失?如果是在目标驱动的团队,可能会觉得停个两三周去排查一个问题,还不知道是不是问题、会不会对模型最终训练产生影响,是不太能接受的事情。
但在我们这,我们认为它就是一个问题。我们就应该去解决它。
因为我们没有那么清晰的说我要发布的目标。
罗福莉:你们没有deadline?
张小珺:我们没有deadline,就觉得模型训好了我们再发。
张小珺:没有公司来的压力吗?
罗福莉:没有。
张小珺:你们在这个1T的模型训练过程中,有失败吗?
罗福莉:看怎么定义失败。比如训到loss直接飘了这种,应该中途还是发生过那么几次的。
两三次总是有的。就loss直接飞了,但它比如说训了几百步又回来了。
张小珺:你说的这种情况,你是选择停下来解决,而不是继续往前训。
罗福莉:我们认为应该要停下来解决问题。它其实就这样翘上去几百步,然后又下来了。这我们认为应该停下来解决,让它loss更平稳地度过。
张小珺:一般会停下来几天?
罗福莉:几天也有可能,一两周都有可能。
张小珺:停两周焦虑吗?
罗福莉:不焦虑,因为我们又没有什么目标。
当然了,晚上都睡不好,我经常晚上做梦说,为什么loss又spike了?
虽然我们没有明确的时间节点,但是你还是会崩溃嘛,还是有很多很沮丧的瞬间。虽然没有明确的节点,但是卡它是有限的对不对?
你会觉得你浪费了算力资源,在做一些无用的实验。有这样的自我批判。
张小珺:从实践来看,参数量能决定智力的上限吗?是越大的模型,智力上限越高吗?
罗福莉:我现在觉得是参数量加上Context本身,这两个是共同决定的。但至少,要达到当代大家觉得最强的Agent水平,一定要1T以上的参数规模才能做到,才能让人觉得你已经非常接近4.6 Opus这样。但我不知道它多大,我只是自己认为至少总参1T以上,才能做到。
当然更关键的是激活参数。比如总参都是1T,激活参数越大,意味着更高的推理成本。它是一个trade off(权衡)。
张小珺:为什么在Pro模型上,Full跟Sliding Window的稀疏比从5:1调整到了7:1?
罗福莉:我们还是追求更极致的稀疏比。
最主要原因,希望在更大的架构里边,去做更高效的Long Context。因为更大的架构,总参变多,Full Attention的层数也随之变多。在长文本的情况下,同样会变得非常崩溃,因为Full Attention的层数变多了。但如果你扩大参数量,Full Attention的层数没有变,那么有可能,你的长文,Pro跟Flash两代模型效率是差不多的,但Pro的智能水平提升了。
在长文的效率相当的情况下,我们希望模型在scaling它水平的上限。我们是比较去控制住效率本身的。但控制住效率本身,后面在Agent时代,也有一个更有价值的事情。既然这个更大模型,它的长文效率很高对吧?那我就可以塞更多的上下文,它就又更强。大概就是这样的决策背景。
张小珺:对于这个1T的基座,你们做了如下几个重要的技术决策:第一个是混合注意力机制,刚才我们聊过了;第二个是1M上下文窗口,这个在做的时候是否出现丢失的情况?
罗福莉:问题关键是你从哪真的去搞到,在一兆的上下文窗口里边,有那么多很稠密的监督信号。很难找到这样的数据,或者说,这样的数据的构造成本非常高。
要真站到终局思维来看,只要你有比如1T的token量,而且都是一兆的、真正的长上下文,那么模型一兆能力肯定能训上去。只要loss一直在降低,它就是在建模、在压缩,那么它就一定能训上去。
但问题的关键是,你很难去构造出来真正1T、1兆的Context,真的很难去构造出来。要么成本太高,要么就很难找到这样的场景。所以Long Context的效果是缓慢在提升的。
张小珺:你们的第三个技术判断是,沿用了MTP的模型结构。
罗福莉:对,这个没有什么太大变化。预训练训一层是为了提升基座能力。后面Post-train去训更多层,是为了推理的时候用更多层,实现更好的推理加速。
14多模态有没有促进智能,根本不关键
张小珺:V2-Pro同时发布的,你们发布了另外两个模型(V2-Omni、TTS),它们也是去年同期开始训练的吗?
罗福莉:基本都同期。都是那个时候开始规划的,大概三个方向。
张小珺:看起来整个V2家族,在指向多模态的叙事。但文字是离散的token,图片是像素矩阵,音频又是波形。你们怎么去做这个融合?
罗福莉:我们还是想尽量把它统一到language model(语言模型)的范式下。
在音频的建模上,我们想要把它离散化,变成跟文本一样的离散token。我们在音频上投入了比较多研究算力,说怎么去进行离散音频建模。我们希望这个离散音频的建模,尽量做到无损离散化。
因为大家还是不太相信,把一些连续的输入变成离散,最后还能重建出来。
这个事儿,需要对encoder更精细,比如我们需要一些多层的RVQ(Residual Vector Quantization,残差向量量化)来保证,它的离散表征是一个非常大的、像Dense一样的高位空间。我们需要更多预训练,来让它开始涌现。如果你基于连续的特征做,可能很快就涌现了,但你基于离散特征做,会更难去建模,它涌现出现的时间段会更晚。
我们在音频上开始了这个尝试,也会迁移到后边其它模态。我们比较想用一套更优雅的架构来做整个多模态输入的理解,但我们不是为了统一而去做这整套架构。
很多时候,如果发现确实在图像上离散不那么可行,我们还是会寻求一种目前更主流的架构。因为我们优先要保证的是这个模型,它要具备一个整体的智能水平,而不是追求为了统一优雅的范式。
张小珺:音频统一到LLM里去容易么?
罗福莉:我们的技术架构应该是非常另类的。我知道国外的御三家(OpenAI、Anthropic、DeepMind)也好,国内像豆包也做的蛮好的,应该都是跟我们完全不一样的架构。
张小珺:你为什么选这个架构?
罗福莉:做NLP的人执念吧。我们做音频的人全是做NLP的人,有这个执念,就觉得相信它,然后就去做了。
张小珺:图片能这么做吗?
罗福莉:能。我们已经尝试了非常长一段时间了。
但它是一个权衡。就像我说的,要做到真的无损重建,是需要投入更多算力、更大研究成本在的。至少在音频上我们已经迈过去了。图片正在进行中,不知道能不能迈过去。
张小珺:如果迈过去,会带来更大的想象空间吗?
罗福莉:更优雅的结构。我最开始是认为,如果把它统一都离散化,那么可以用一套基础架构去解决这个问题。同一套预训练的基础架构,同一套做RL的基础架构,很优雅地把所有范式都统一了。它太简洁了。如果真能做到的话。
但我现在发现,当我们有Claude Code和顶尖模型过后,这些架构,比如我们重新去写一套RL Infra架构,重新去写一套Training Infra架构,我们最近就完全再从头去写一些新的架构。我原来以为写这些架构蛮耗费人力、蛮耗费时间,但现在看起来,在Agent支持下,写架构的时间被大量缩短。
那你就没有必要为了架构的优雅性,去做很多为了统一而统一的研究。这是最近一个月内发生的变化。
Infra重新写一套也没有那么复杂,几个人Claude Code,两三周可以重新捏一套新的RL框架。为什么要因为后训练的Infra架构的统一性,让前面模型结构牺牲这么大?
张小珺:为什么你们这个系列的模型叫法是“全模态”模型,而不是“多模态”?
罗福莉:因为它确实支持视频、音频、图片、文本所有模态。有一些Agentic的模型,是不支持音视频联合理解的。它应该是第一个支持音视频联合理解,并且Agentic的能力,能够做到跟language model水平差不多的。
张小珺:是不是有迹象能表明,在全模态或多模态的理解中,能够产生智能?
罗福莉:两个月前我很相信,最近呢,在训Omni整个过程中,稍微有点质疑这个事情。
但我们后面还是发现了一些很好的迹象。比如MiMo V2 Omni,它其实比Pro小,但大家实际去用的时候会发现,这个Omni在对世界的感知和领悟力上,或者说最终反映出来它的情商,以及它的知识储备上,会比更大的模型更强。因为它是原生多模态训练的。
我猜测,可能是因为我们在这两个方向上scale的,就在纯语言上scale的算力和这个原生多模态上scale的算力还不那么多,导致我们现在并没有看到原生多模态本身带来智能的很大提升。但你能感受到,比如很多世界知识,因为它训过视频,所以它知道了更多。它对很多很细微的东西的感知力,你会发现它更强。
但这些都是很虚的,是我们自己实际体感去测感知力。你在任何Benchmark上,没有任何证据能证明——就纹丝不动,可以这么说。
张小珺:有没有可能是Benchmark错了?
罗福莉:当然有可能。我现在也不能非常确定说,多模态能力是实现所谓AGI路径的必要路径之一。我是不想去下这样一个结论的。
因为每个人对AGI的定义不一样。尤其在Agent这样,可以把多个模型的能力,非常优雅编排到一起的情况下,我们更没必要强调多模态是不是促进智能——它有没有促进智能这件事本身,不关键。
张小珺:多模态促进了什么?
罗福莉:目前我只观察到这两点。我现在还不知道未来在一套新的架构上,会不会有一些新东西。
可能做多模态生成,未必会有一点点不一样。就是生成可能会促进更好的感知,但你要是纯说,把你的感知维度扩大,你是不太会促进智能的。但如果你能生成它,maybe是能促进智能的。这是我的一个猜测。
张小珺:但多模态生成现在还是一个科研问题。
罗福莉:是。或者说,把生成跟理解,做到一个统一的架构里边,目前还没有scaling到非常大的算力。大部分生成的架构,还是纯for生成的,它并没有理解的智能。
张小珺:你设计Omni这个模型的目标是什么?
罗福莉:截止到目前,Agent要行动,它必须要具备多种模态。其实是这样一个目标。
但下一个目标,我觉得不是这个。
下一个目标,还是想去探索,当你结合多个空间的感知,甚至你能去生成更多的多模态的信号时,会不会促进你对这个世界的理解。但更直白说,需要有一个跟现在的Agent框架交互更好的视频生成模型。
张小珺:为什么你们没有披露Omni的总参数量和激活参数量?
罗福莉:给我们留点想象空间。我们相信这个参数量可能做到更接近于Pro的智能水平,虽然大家知道它比Pro小一些。
张小珺:只是小一些?
罗福莉:对。但我们相信它们俩能够互相迭代,能够你提升我、我提升你。
张小珺:最后,关于最后一个模型V2-TTS,有什么新的研究发现吗?
罗福莉:TTS的动机是,我们想用一套自认为优雅的架构,去做一个大家都用传统架构、做起来很容易的事情。
但做完过后发现,追求一个离散化tokenizer,在上亿小时的数据集上训练过后,模型的泛化力非常好。我没有办法对比说,训一个很小的模型,泛化力是不是真的没有这个好。至少目前得到的模型,大家能看到,再给它输入很多风格化标签的时候,它会通过推测字表面的含义,去赋予情感和音律。
在这个事情上的泛化性上,我们发现特别明显。我们只是简单做了很特定几个场景风格的数据做SFT和RL,很刻板的几个风格化场景,比如快点慢点、高兴悲伤这种很刻板的风格化场景,去做了风格化的Post-train。
但发现,把style标签变成非常复杂、自然语言的描述,它能够遵循。这是纯泛化出去的。这是在做的时候,发现简洁架构加超大规模训练,带来的超强泛化力的外化表现。但还很初期。
这个TTS模型,效果非常惊艳,上限非常高。但下限在慢慢弥补,有时候会不太稳定。目前只是限时免费,开放API大家玩一玩,不确保真的能投入生产即可用。但很快会让它变得生产即可用。
张小珺:Omni、TTS跟Pro模型比较,哪个更重要?
罗福莉:当然Pro更重要。
纯语言空间的打通,需要大量前置研究作为基础,这才是更重要的。
张小珺:现在看到的MiMo相关模型进展,都是你们在半年以前的决定,你现在为半年后做的决定是什么?
罗福莉:这就要保密了。
第四章谈AGI路线图
15R1在DeepSeek内部,“一次奇袭”
张小珺:我们刚才聊了很多关于V2家族的模型,下面想跟你一起回顾一下,过去三年整个大模型世界的进展。从2022年底,ChatGPT打响了大模型的战争,在亲历者的眼中,每一年的关键变化是什么?我们是怎么走到今天的?
罗福莉:ChatGPT是第一个发挥模型在,我猜测是4K预训练场景里的智能水平。
预训练的长度,或者说最终Context的长度确实很关键。ChatGPT只是让大家感受到,在4K Context里预训练,训练完过后,通过简单对话,对话轮数是一轮、两轮甚至多轮,在很短的上下文里,把模型在超大规模预训练上训到loss最低的智能水平给激发出来了。
当然所有激发的前提,都要靠一套能让人感知到智能水平的交互。Chat就是一个很好的交互,否则你不知道这个模型已经这么强了。这是22年底ChatGPT发生的事情。
张小珺:23年?
罗福莉:当有一个顶尖的闭源模型做到的时候,它的下一年就是开源界怎么去追上这个顶尖闭源模型。所以23年,Llama、Qwen、DeepSeek,这些开源团队就在准备。
首先借助Llama披露的,怎么去做好大规模预训练的范式,就是怎么去做好数据。那会儿结构都是未知的,哪怕训一个7B的结构,Transformer结构是怎么样的?Pre-Layer Norm或Post-Layer Norm,hidden size多大,这些超参那会儿完全不透明。但Llama告诉你,这么训能训成功,给你开了个头。
借助这个头,Qwen借助LLaMA的架构,做更好的预训练数据,做更大规模的预训练compute scaling,Qwen系列就起来了。
Qwen做得很好,for开发者生态做了全尺寸模型的训练,也训了一些多模态模型,也做得非常顶尖。这是对社区非常有利的,有利于激发后面社区做一些微调,还有一些微调框架诞生的必要先决条件。
DeepSeek在同期,虽然也是尝试复刻LLaMA,但更在乎的是,看到LLaMA这一代架构有什么问题,而不是着急去scaling。
它更在乎LLaMA用GQA(Grouped-Query Attention,分组查询注意力),在更大的模型里,尤其是在受限的GPU上去训练的时候,会存在什么问题?scaling会遇到什么问题?可能要涉及到一些新的结构来解决这个问题。
这是DeepSeek V2和V3那个系列阶段,想去提出一些新的架构,不管是MOE for高效训练,MLA for更低的推理成本。这个时候诞生的事情。
所以,DeepSeek那段时间更注重,在更差的芯片上去做更好的研究来scaling。
张小珺:LLaMA当时的缺陷是什么?
罗福莉:它就是个Dense。你要真去给它scaling,比如现在没有人去训几百B的Dense,开源界。因为训几百B的dense,虽然LLaMA搞过,你也能看到结论,但那个结论不一定是结构的问题,是它太贵了。训它也很贵,推它也很贵。
没有人会去搬运一个又笨又贵的模型。所以MoE for更高效训练、更高效推理,MLA for更低推理成本的模型架构就会诞生。
这是同阶段,Qwen和DeepSeek在走两个路径——Qwen是在纯scaling,DeepSeek是考虑创新的基础上再scaling。
张小珺:现在看,哪个是更正确的?
罗福莉:两个都是对的,没有说谁是对的或错的。
一个是为了在有限算力资源下达到最强的模型,DeepSeek算力可能只有Qwen的几分之一。Qwen想的是怎么去促进整个生态更好的发展。
这形成了中国两个开源势力。一个开源势力是在做研究上做到绝对高度,一个开源势力是在真的生态价值上做到一个高度。
生态价值本身也是价值。如果没有这么多好的开源模型,很多好的研究工作,就像DeepSeek R1前序的很多研究,都是在Qwen的模型上去做的。它们是彼此促进的,对社区都有价值。
当然DeepSeek有另外一方面价值,是它有一个全新结构,带来对于训练成本的冲击,以及后续推理成本的冲击。这导致对推理芯片有了更准确的判断——下一代芯片应该怎么构造、怎么设计?这对整个AGI历程来说,是非常好的事情。这可能是23年、24年发生的事情。
24年可能唯一发生在所有人意料之外的事情,是o1跟R1。
R1在DeepSeek内部,也算是一次“奇袭”。它诞生非常偶然。
当预训练范式变到后训练,对于组织和团队,以及创新的要求不一样的时候,整个团队应该怎么再去重组织的问题?我是在这个事情上得到最大的感知。
张小珺:按照传统的管理思路可能是,我现在要对后训练加大投入,那我要组建一个后训练的团队,甚至从外面挖一个做后训练强的tech lead进来,这是错误的方式吗?
罗福莉:得看团队本身。它可能不是很有利于创新。比如在后训练数据多样性上,只是做后训练的人,天然缺乏这个视野。
还有,很多团队对做预训练和做后训练的人物画像很刻板。反正我们不是按照这种刻板的方式去招人、组织人的。它很刻板的问题就是,天然导致做预训练人做不了后训练。
我也没太去了解深层原因,只是当我去了解的时候会觉得,怎么这么奇怪?老有这种疑惑。
张小珺:外界看到的结果是DeepSeek-R1出圈,但你当时在DeepSeek内部感知到的是,在模型开始训之前,已经有的对于团队的调整与组织。
罗福莉:就是大家认不认可这个事,以及我们要以一种什么样方式来做这个事。我在R1的过程中,是有非常大体验的。
但最终的结果,我能预知到的是,在我走的时候,R1已经做到一个Lite(轻量版)的水平,Code Math已经做到了非常接近于o1小那一版的水平。
我已经预示到,Code Math上这个Reasoning肯定能走通,而且即将可能AIME(American Invitational Mathematics Examination,美国数学邀请赛)会从那会儿只有三四十分,刷到我认为七八十分都非常有可能。但后边现在已经刷到100分了。
我没有意识到的是,它是一个范式的转变。Reasoning是可以通过Code Math这个高泛化场景,能放到通用以外。这个o1也没有走通——这是我没有预料到的事情。
也是因为这样的背景因素,导致我后面再看新的东西,哪怕它是for一个很垂的场景去做,尤其是Code这种场景,我会先思考它是不是真的能泛化?是不是我把它想小了?——这只是我自己沉淀下的一套skill。
这是24年。
16现在是大模型竞争的第二幕
张小珺:25年呢?
罗福莉:25年,我觉得很boring的一个事情是,它处在很交错的一年。
这个交错的一年是,你可以选择在Chat这套范式下,把Reasoning给做到极致,继续去把SWE-Bench、LeetCode Bench这些偏Code的Benchmark,你可以在这个范式(思考很久给出一个答案这种)上选择继续深耕。你也可以选择我忽略掉,我就不管这些,去想下一套。我可能在这套范式上做到六七十分就OK了。AIME做到六七十分,就表示这个链路你已经走通了。
但是,比较聪明的团队,25年年中就会全面拥抱,去for新的Agent架构去做事情。
MiniMax已经转过来了,MiniMax是国内转得最早的。但这样一种新的范式下,对整个团队的敏捷性要求又很高。
从模型发版速度上,能看出来哪些公司拥抱的速度够快。可能有些公司没有跟上,还在原来Chat的范式下继续深耕。哪怕去做了一些BrowseCap、SWE-Bench、Terminal-Bench这种带所谓的Agent的Benchmark,并在这些Benchmark提升得很深,但它并不代表这个模型真的能实际可用。
BrowseCap是一个非常离谱的评价指标。在这上边训的模型,感觉只能在这种数据集上测,换种方式,哪怕也是做信息检索的方式,最终能力还是泛化不出去。就很奇怪,这套数据集太局限了,整个框架也非常specific。
所以这半年,如果说在做Agent的人,大部分是走到歧途上——我觉得它算是歧途。我们也走了一小阵阵,Flash第一代,并没有想做Agent,还是想做很好的Chat。
但一个原因是,我们确实要先打好Chat基础。就像我说的,Chat至少要做到七八十分,把整个历程给走完;你才能够说,你的Post-train数据基建、你的Infra基建、你现有的人——尤其是我们招的全都是没有做过大模型的人——他们能有个历练。
否则他一上来就做新的东西,怎么好做呢?
做Flash的时候,纯粹是一种,把我们做过的事情让一群没有经验的人再做一遍。但更在乎是,这群人在做新的事情的时候,他们自身在进化。
这个进化对我们后边去做新的事情,非常有价值。因为极少在中间给非常强的supervision(监督)。除非发现要掉头了,否则给太细节的这种监督信号,告诉他这个事应该怎么做的缺陷是,会让团队大部分人失去原创能力。这是应该尽量避免的。
张小珺:组织我们等会聊,我们先把现在的范式转变聊完。现在大模型的竞争,从之前的Chat的第一幕,已经过渡到了Agent的第二幕,这么理解对吗?
罗福莉:这算是模型竞争的第二幕、第二场战役。所有人都开始在同一个起跑线上。
可能闭源模型早,Claude应该是两年前就在这个路径上了。只是大部分人,没有意识到它是最正确的路径而已。很多人在去年意识到了,但都没有在做正确的事情。
什么是正确的事?要在一套非常复杂的Agent框架,或多样的Agent框架,去端到端完成更高复杂度的任务,并且以此为目标,作为你后训练的范式。
而不是在一个很局限的场景里,针对这个场景定制一套很简洁的架构,去做另外一个比Chat复杂度稍高的任务——模型的输入输出还是一堆字符串、一堆token,模型的RL范式还是以推理Rollout为中心。但Agent已经不是这样了。
张小珺:为什么你说MiniMax是国内转变得比较快的?
罗福莉:我觉得它是比较快的。它们用一个10B的(激活)模型,做到目前Agent能力。它们后训练的敏捷程度非常惊艳。
张小珺:你说大模型竞争第二幕的入场券是1T的基础模型,但MiniMax没有这么大的模型。
罗福莉:对,我把入场定义为,你要做到对标到Claude Opus 4.6的水平,它需要1T的基座。与此同时需要敏捷性。它具备的是后者。
张小珺:所以现在中国公司还没有同时具备两者的模型公司?
罗福莉:对。看一看DeepSeek吧,哈哈。
17赛点:Agent上怎么去做好RL的scaling?
张小珺:能评价一下中美两边的大模型公司,在今天的竞争赛场上各自抵达了一个什么样的位置?现在大家押注的有什么不一样吗?
罗福莉:Anthropic的路径是正确的,这算是当下共识。至少在过去3个月,Agent的路变得更清晰。
在路径更清晰的情况下,国内大模型团队,就进入到加速追赶的状态。因为现在大家在Pre-train上的代差是基本没有的,或者说非常接近。国内大模型团队在Pre-train结构上是有优势的。
甚至Claude,在过去很长一段时间做的很多Context Engineering,我们都误以为,它是因为模型结构不是很先进,为了成本而做的一些妥协设计。但现在回过头看,有点想的太局限了。
现在你能看到,不管它最开始的动机是什么,但最终的状态是:所谓的Context管理,以及搭配的Skill Fold或Agent架构,都是为了配合模型发挥更强大的整体任务完成度而设计的。
所以,当大家看到这样一个范式转变,又有一个基座并没有发生代差的情况下,大家其实就很all in,要去做好Agent的Post-train。更具体说,是在Agent上怎么做好RL的scaling。
这是非常清晰和准确的方向。但具体的研究路径是需要探索的。至少跟23年要去追平Pre-train的差距一样,我认为是非常清晰的。
张小珺:你什么时候意识到Coding泛化性那么强?
罗福莉:一开始就觉得。不管是Pre-train范式还是Post-train范式,23年哪怕最开始,我从量化回到大模型赛道的时候,就会对Coding的泛化性抱有非常高期待。
但这种期待它转变成说,我先要好好去做好Code的预训练数据,再去scaling算力,看一下它到底在Code Benchmark上会不会很好。再看看Code Benchmark提升了以后,其它的泛推理类的,像BBH(Big-Bench Hard)这种Benchmark会变得更好。最开始是这样,它是一步步去实验验证的探索路径。
到R1,又一次验证了,因为Code和Math,都有非常好的verify的指标。
然后到Agent这个范式,Code又因为它有很好的environment,并且Code可以天然做很长程任务。比如软件开发就是一个非常长程的任务,你去做一个非常复杂项目工程,就是一个很长程任务。它又很适合Agent这个范式。
它基本上在每个范式上,都戳中了那个点。你都可以在Code上,至少在研究上,你可以是自闭环。并且在这个自闭环的路径上,做出来的东西,它是很容易scaling到其它更广领域的通用数据上。其实,Code本身就已经挺通用的了,因为它本身是自然语言,所以它很容易scaling。
所以,做Code这个事,至少在这个范式转变的时候,它都是一个非常优雅的路径。
张小珺:RL scaling现在探索到哪一步了?你们有探索的初步结果没有?
罗福莉:暂时还不是很方便分享。至少我觉得在RL scaling的算力,跟预训练的算力,达到一个同一个水位的时候,就会给大家分享。
张小珺:相对于三年前,今天的模型竞争变得更激烈了,还是变得更平缓了?
罗福莉:应该说竞争的维度和速度都变多了。速度变得非常快。你做预训练,不可能一个月出一个模型;但你做后训练,确实可以一个月出一个模型。
还有就是,Agent这个事,它除了看Agent架构本身,也看你对整个推理侧的结构,甚至硬件芯片,你是怎么认知它的。我觉得它会影响到一些最基本决策。
比如说,10兆的Context什么时候做?怎么去scaling 1兆的Context?它也涉及到,比如你在预训练阶段就去scaling,那么你后边儿对应的,在1兆上去做Post-train,跟在256K上去做Post-train,它的算力差距是好几倍的差距。
所以你是不是有足够多的算力差距,去support你去做这个事情?以及你最终的场景,这个框架本身的能力,是不是支持你能在10兆上的能力给发挥出来,或1兆上能力发挥出来?它是有个更长的决策链路。
它从原来Pre-train,只需要对Pre-train本身的架构做决策;到需要你面对接下一段时间,Agent框架演变、推理芯片等整个市场,算是供需的一个预估。因为芯片,它受制于这个制造储备,瓶颈就在那。以及你要不要尽早去规划,去做更广的、不是for单一芯片的模型结构,都是需要提前去做好规划的事情。
张小珺:这个说的是大模型的公司维度,那对于以应用产品为主导的创业公司呢?站在2026年,你觉得今天创业公司的生存机会变多了吗,还是更绝望?
罗福莉:坦诚来讲,我不是很了解除了基座大模型以外的创业公司。我能看到的是,至少,创业公司的团队规模会越来越小。不需要有一个非常大的公司,就几个人甚至一个人都可以成为一个公司。
只要你学会充分借助Agent。我之前老看到有人说,OpenClaw上我一个人养很多个员工。我自己也做过这种Multi Agent的尝试。虽然当下看不那么现实,有点噱头。但在今年内,Multi Agent很快会变成一个现实。
张小珺:Multi Agent现在没有突破的地方是什么?差在哪?
罗福莉:每个环节都差一点。你需要有个足够便宜的模型,因为你最终算的是,它是不是比我招一个员工更便宜?要是不那么便宜好用,我为什么要用你呢?不可能说你烧Claude Opus一天花1000多Token,结果那个员工创造价值可能1000。
第二,现在Multi Agent架构还有空间。它们各自怎么自进化、自迭代以及互相沟通,都还有空间。
张小珺:现在模型公司好像变得更没有边界了,“模型即产品”变得更突出。
罗福莉:模型借助Agent架构本身,就变成一套新的产品,产品力反而更强了。其它所有东西都很简单。
18两年内实现AGI
张小珺:你之前画过一个通往AGI之路的图。你对比了人类的智能和人类进化:人类智能是一个生物演化路径,呈现为正三角形——底层是感知运动,中间是直觉情感,最顶端才是语言;
而现在AI的发展是一个倒三角形——大语言模型一上来就极大地放大了最顶层的语言能力,底层感知反而薄弱,你觉得这是一个空中楼阁。怎么能够拼接出这个AGI之路的图?你现在做的事情在往这条路上走吗?
罗福莉:现在大模型的演变逻辑,确实不能跟人完全一样。不一样的原因是,人演变的环境,跟模型演变的环境不一样。
人演变的时候,是随着自然界的变化,为了生存来进行演变的。但大模型,它好像一开始上来不是为了生存。
张小珺:它是为了什么?
罗福莉:我不知道。现在大模型没有自己的价值观。但我们要硬给它赋予价值观,就是让它替代一部分的人。但它不替代也不会死掉吧。
当没有生存的危机的时候,它反而会进化得更自由、更散漫、更有创造力。不那么受约束。
它现在的基础条件太好了,有那么多算力可以用,有人类宝贵的知识起点作为基础起点,还有那么多人帮它提升。感觉这两个环境完全不一样,进化路径就不太一样。
张小珺:语言之后,模型进化的下一步会是什么?或者哪怕在语言里细分,Coding之后下一步会是什么?
罗福莉:Coding还是会有一个非常好的主旋律,就是做一个很复杂的软件工程、一步直达的开发。持续的时间越久,能做的开发复杂度越高。不一定是代码量,只要是复杂度越高。
比如写一个Kron算子,代码量可能并不高,但需要写了去调试、Debug看它是不是在真的训练中提效,真的有效果提升,这个验证环节有可能是长的,但代码量可能是不长的。
总之,要参与到实际的项目开发里,确实是做Code的一个非常大的主旋律——简而言之就是它替代的程序员越多,这就是它的主旋律。
再外延到更广泛的生产力场景。它需要借助一个更强的交互方式。比如飞书、WhatsApp、Telegram,都是很好的交互方式,降低了跟它交互的门槛和频率。一个更好的交互方式是,它有自己的身体,可以到处移动。所以机器人,肯定还是一个for智能体交互的、必须会涌现出来的方式。它肯定会从屏幕上跃出来,到我们真实的空间。
但机器人本身的演变瓶颈,有大概率可能是在硬件甚至在电池上。当它进入我们这种封闭空间,甚至在一些灵巧手的灵活程度上,这些都会比Agent本身的进化,在语言空间的进化要慢。
张小珺:现在我们抵达AGI进度表的哪里了?
罗福莉:感觉历程已经到了20%吧。
张小珺:今年能走到百分之多少?
罗福莉:至少能到60%、70%。我感觉两年内应该能实现。
这之后,大部分人会抛弃掉自己原来的工作模式。生活模式被颠覆是更滞后的,因为生活并不产生生产力价值,工作产生生产力价值。
先会感受到工作模式被颠覆掉,其次再是生活。要真迈入到生活被颠覆掉,需要更多机器人。
张小珺:AGI的路线整体被提前,这里面关键的变量是不是能用AI训练AI?
罗福莉:这确实是一个标志节点。因为它可以自提升,达到最巅峰的一群人的智能。因为它可以自己训练自己,能去创造新的研究,有做新的研究能力。这确实是它自迭代的一个巅峰。
张小珺:这个会是大模型公司的一个核心竞争点吗?比拼谁能更快跃过这个临界点?
罗福莉:你很难直接去for让AI训练一个大模型、去设计任务、去针对性训练,因为它是一个更高级的目标,不会一下迈到这个目标。但大家最终所做的模型,都会通往这个目标。如果你有最尖端模型的智能,最后都会去干这个事儿。但它不是只能干这个。
张小珺:关于AGI路线图上的开源与闭源路径,我有几个问题。在你看来,一个公司为什么要选择开源,为什么要选择闭源?中国大部分公司都开源了,但发展到今天,现在还选择开源的目的是什么?
这是一个技术选择,还是一个市场选择?
罗福莉:我还是认为是这个目的——开源是加速AGI的。
假设AGI会爆发,假设它会替代绝大部分的生产力,那么我们可以从这个事去倒推:你需要多少芯片?这些芯片难道会被一家公司生产吗?难道会被一家公司购买吗?
好像不是,它会分散。如果芯片是分散的,那么推理有可能是芯片厂商做,也有可能是大模型厂商做,它们用的模型难道是同一个吗?还是用的不一样的模型?
我认为一定是不一样的。所以从终局来倒推,开源至少是有利于推进这个事情的。因为最终要大规模产生经济价值,必须要依赖于算力,才能产生经济价值。
我认为开源至少对很多环节——Agent框架、芯片、能源——都是有促进作用的。它是加速AGI进程的。
那它最后是一种公益还是一种市场?取决于每个公司开源时结合的生态位——就是你有没有一个别人短期内无法拿下的战略生态位?
如果有,那么你就敢开源。如果没有,你就认为模型就是你的生态位,那你就不开源。就是这样。
张小珺:所以取决于自信程度。你在大公司做开源,会有内部压力吗?
罗福莉:我现在不觉得我在大公司做事情。小米整体非常创业导向。很奇怪的是,它看起来是个大公司,但它其实是一个做事的灵活度非常高的公司。
张小珺:在你看来,包括MiMo-V2在内的这一代中国模型,和美国代差还有多久?中美模型之间的差距有多大?
罗福莉:在国内,目前已经具备1T以上基座的公司有好几家:Kimi、MiMo,还有一些。这些模型厂商在当下,距离国外顶尖——就拿Claude Opus 4.6来说——如果反应速度足够快,应该只有两三个月的代差。
不是说两三个月过后能追上两三月过后的Claude,而是能追上当代的Claude。这个概率蛮高的。
这两三个月大家怎么发生变化,是考验团队的整体研究水平、技术敏捷程度,以及怎么拥抱新的范式来做研究,这个非常关键。
接下来两三个月会非常精彩。
同期发生的事情:Agent框架在过去两三个月,OpenClaw本身也进行了大量改进;也能看到一些自学习和自迭代的框架产生。所以Agent框架这一层也会在接下来两个月,进步非常快。
其次,随着前两个爆发,Agent框架越强,模型能力进一步飞升,并且成本有极致优势的情况下,推理需求一定会爆发。几倍到10倍的空间,可能会立即当下发生。那么对于推理芯片,就会达到空前高涨的需求。
怎么在现有产能——尤其是大部分卡点在于存储上——不管是自己制造,还是用到最先进的芯片,来做更好、更低成本的推理,就是一个非常关键的命题。
最后,一个for更长期的事情:我们肯定不会在1T的水平上走太久。如果要拿到下一个阶段的领先,就要寻求更大规模的scaling。到底是去scaling模型的参数量,还是去scaling什么东西?以及要在什么样的芯片上去scaling?——这是当下立即需要去决策和判断的事情。
这个才决定了半年或大半年过后,谁是更领先。
张小珺:中美实现AGI的路径有没有可能是不同的?
罗福莉:坦诚来讲,我不是很了解美国。但至少按照我们目前的这一套——前沿的研究、模型的水平、AGI的框架、芯片能源——这些多方面合起来,我认为是非常可能领先的。
第五章谈范式巨变下的组织
19不太存在管理,规范和约束是压制创造力的
张小珺:刚才我们多多少少涉及了一些组织话题,接下来我们来重点聊组织吧。
你的Benchmark是什么?你们团队的Benchmark是什么?怎么驱动组织?
罗福莉:做好大模型本身就是Benchmark。但这个"好"是我们自己来定义的。
张小珺:这个怎么让公司同意?虽然你说小米有很好的创业文化,但它事实上是一家大公司。
罗福莉:雷总(雷军)同意就行了嘛。他是一个非常好、非常有战略眼光的老板、天使投资人,anyway,后边还有很多标签。
就没有要求。
一开始加入小米之前,在这个事情上是高度统一的。按照我们的判断和直觉做就好了。然后做了,老板来说“做的好”。(笑)
张小珺:你刚才还提到一点,什么叫做,你们团队“没有大语言模型背景的人”?
罗福莉:大部分招人之前,都没有做过一个大模型。他们刚毕业,在学校做了一些基础的研究,之前甚至不是做大模型的。(可能)做工程的,做开发的,这些都有一点训练背景。
大概1/3到1/4的人稍微有一点点训练经验,但可能都只是训过7B、14B,类似于这样的规模模型。跟训大模型的经验也不太能复用。
张小珺:这意味着,你需要有很强的训练经验吗?
罗福莉:对1、2、3、4步应该做什么要求会高一些。但后面发现,不要告诉大家1、2、3、4步做什么,就推着大家,我们一起来重新做一遍这个事,大家就会往前走。
张小珺:训一个1T的模型对你的管理难度,是不是指数型的上升?
罗福莉:不,没有。管理团队的难度是一样的。
或者应该说,不太存在管理。大家一块去解决问题就好了。
你不需要去管理这几个人,每个人都有自己不同解决问题的思路,一起来解决问题。反而是这种解决问题的以身示范的能力,是一个非常好的文化和导向。
张小珺:训1T模型是多大团队?
罗福莉:很小。只说训练这个事本身。
但做数据还需要也是几个人。可能还需要一个非常好的基建团队,把卡集群给搭起来。
基础设施团队可能需要有那么一点有经验的人,因为没经验老出一些低级问题。吃一些基础运维设施的经验。
张小珺:只要几个人训练一个1T的模型,这个常见吗?诀窍是什么?
罗福莉:本质上,也没觉得它需要非常大团队协作。团队协作当然有优势,比如大家在卡资源巨量的情况下,可以并行探索,对做研究是有优势的。
但并不认为,对我刚刚说的那种场景——发现一个可能是问题的问题,然后深入排查原因去解决它——很大团队是优势。反而很大团队有可能是劣势。
张小珺:训这个1T的模型过程中,你们团队状态是什么样的?
罗福莉:原来做预训练、数据的那一群人就去做后训练。做Infra、做训练框架、做推理Infra的人,一块来解决训练过程中的问题。
张小珺:为什么要让做预训练的人去做后训练?
罗福莉:首先后训练的一大部分原因,是你需要有很好的数据直觉,这还是蛮重要的。
其次,它是基于个人爱好兴趣产生的,不太是基于说我们这里需要人你转一下。大部分是大家自然而然发生的。但确实能够预料到哪些人会做这样的迁移,因为有很多能力特征上是很共性的。比如对数据的直觉,比如会从模型效果去倒推一些算法设计。做数据好多时候也是在干这个事。
所以,我们对人的界定没有那么清晰,大部分人会自然随着训练阶段的变化,自由去选择下一个阶段,做更有想象空间的事情。
张小珺:MiMo团队现在是100人吗?
罗福莉:现在已经到100人。但这100人是包含所有链路上的人。比如数据采集、数据质量,Pre-train的Infra、Post-train,甚至我们的开发(我们需要有一些开发),还有我们的产品,我们的数据,还有三个方向上的算法工程师。
大致你可以发散,就是语言、多模态和语音。
这100个人里边,实习生比例很高。有部分实习生可能在做一些,当下不会立马反映到这一代模型结构、模型能力上的事情。
真正投入到一代模型里去迭代的人,很少。可能所有链路上加起来也就二三十个人、三四十个人。
张小珺:这100个人你们有小组的划分吗?
罗福莉:没有组。
张小珺:也就是,你1对100?
罗福莉:差不多是。
张小珺:为什么没有小组的划分?比如,为什么不分预训练组、后训练组…?
罗福莉:因为很多人会对两个方向都感兴趣。如果组划分非常清晰和固定,是在扼杀一部分的创造力,或者说扼杀未来的成长空间。
第二,做后训练现在一个很重要的范式变化是,需要具备diversity(多样性)这个视野。很多做后训练的人,是怼着一个场景去做,没有这种多样性的视野。
但做预训练的人,第一应该关注的就是多样性——不能往模型里边塞一小部分数据,要塞多样性更好的数据。所以做预训练的人去做后训练有非常大的优势,会天然更在乎多样性,就是个很好的补充。当然也有人一直只做后训练,比如只研究强化学习,所以它一直做后训练。
至少我们不要在组织结构上,按场景把某些人的创造力扼杀在这个场景里边,那就很奇怪。
张小珺:没有组也就意味着没有leader。
罗福莉:我们有实际推动项目往前运作的人,但都很模糊。比如项目要往前走,我们要训MiMo-V2-Pro的预训练或后训练,可能有实际往前推动的人。但这个人并不对参与项目的人有绝对控制权。
张小珺:模型团队没有职级对吗?——但小米公司本身是有职级的。
罗福莉:我们这个团队的整个组织结构就是完全解耦的,没有职级。
张小珺:没有职级、没有小组,这样的组织结构对于对于智能涌现本身的意义是什么?
罗福莉:平权本身是有价值的,有利于所有人平等地贡献自己的创造力和智慧。
任何层级,一定程度上都是在规范和约束,而规范和约束本身是压制创造力的。
有层级过后,就默认这个层级上的人应该有更强的、超越所有人的智能——这个界定非常奇怪。
需要更扁平。尤其是对于最重要的leader,他/她不要有特别强的掌控感,以及“没了我就不行”的想法。一旦有这样的想法,反而不是很有利于创新团队的发生。
20 环境比经验更重要
张小珺:虽然你说没有管理,但实际上怎么管理呢?
罗福莉:靠热爱驱动管理。这个很重要。我自己发现是最行之有效的方式。
去选择激发大家的热情,让大家围绕着自己愿意信仰的事情去自驱做事。这是我一直比较坚信的最有效的管理方式。
张小珺:你有什么驱动热情的方法?
罗福莉:让大家去体验,是驱动热情非常重要的方式。
比如OpenClaw,这是一种体验方式。看起来用了一个非常极端的方式——"你不用,没有100轮对话你明天就辞职"——但我不会最终去考核。第二天也不会去考核大家"真的有没有用",因为那不关键。只在乎有没有真的去用这个动作,100轮只是一个量词而已。
筛选人的时候也很关键。很多人可以从过往经历看出来,他到底在围绕什么样的目标做事情。靠热爱驱动做事情的人的特质,会非常special,聊天过程中应该就能感受出来。有的人会围绕很多奇奇怪怪目标做事情,但为了热爱做事情的人,是非常明显的。
这没有办法用很多量化指标,但去跟他聊天,我能直接感受到,能sense到。
张小珺:具体来说,你会倾向于选择什么样的人?他的学历需要和人工智能相关吗?
罗福莉:看做什么东西。
这些能力真的都可以被快速习得,只要被放在好的环境里,围绕着一个更高标准的目标来驱动。最多一两个月,慢的话三四个月,确实都可以被快速习得——所以,环境比经验更重要。
这个环境让大家更快更快地提升学习,让大家互相MOPD(Multi-Teacher On-Policy Distillation,多教师在线策略蒸馏)——互相蒸馏,我蒸馏你的长处、你蒸馏我的长处,互相这样快速提升。
更在乎自己创造这个环境,是不是符合这样一个先决条件。而不是在乎这个人来的时候,他的历史背景的基因是不是好。只在乎他可能初始化checkpoint的上限高不高,只在乎这个。但不太在乎他目前已经被supervised learning过后的那个点的状态高不高。
张小珺:我看到,你们的博士比例是55%。
罗福莉:包含在读博士。更多是代表一个人对做研究的热爱程度——如果热爱做研究,可能会选择至少读一个硕士或博士。
但现在也招了很多本科生,本科生在对Agent这种新范式的理解上,想象力反而更高。所以现在招人,会慢慢倾斜到招更多前置的本科生,大二大三的人。
因为他们的灵活性和适应程度,都感觉没有被污染,天然更接纳这个事情会产生巨大价值。思想还没有被禁锢,敢放心大胆把自己那些想法交给这套架构去验证,自己不断去探索边界。
张小珺:你会怎么去有意识地创造一个更好的环境?
罗福莉:首先是构建这个环境的人,要有同样的特质。比如要强调热爱这个事情、强调使命感这个事情,要有这些基础的特质。
其次要把这些特质给真的放大的前提是,他的基础要好。就是当他想做什么事情的时候,他有这个热爱的时候,他要能做成。他这个基础要好,不能就光想法多但做不成。这个基础,是构建成他最后做不做得成的关键要素。
选基础好的,好奇心强的,热爱驱动做事情的。当然还有一些可能对多样性有更高的要求。
如果招的太同质化,大家很容易去miss掉一些看起来是噪音,但实际上对研究非常有价值的一些信息。所以多样性非常重要。
我们上班每个群叽叽喳喳聊的挺多的。大家都会疯狂把自己的想法,或者说关注到的信息给分享出来。有可能是在群里边,有可能就在座位上——反正吵的不行,一天到晚。这样的沟通环境是非常好的。
当然还有一些外部因素,比如激励的方式,就不能太围绕着某些非常确定和清晰的目标来做。钱是一个很重要的baseline,但它不是唯一的baseline。钱要给够。但是,除了钱之外的其它东西也非常的关键。
价值感、意义感——很多人更在乎这些东西。
21 后训练需要容忍模糊性
张小珺:既然我们今天正处在一个范式转移的时期,面临从Chat向Agent范式转变,Agent范式更吃Post-train,相应的组织是否应该出现一些调整?
我看到你发文对组织有过三点总结:一,核心架构与基础设施研究周期漫长,所以需要看到回报的、一年前就具备战略信念;二,训练后的敏捷性,是另外一种能力;三,好奇心,就是热爱,是你一贯之都在说的。
罗福莉:预训练因为它太前置了,更关键的事情是,你需要有一种预测能力,或者说一种战略定性。就是这一代模型的训练,到底是为未来什么做准备,这一定要提前想清楚——可能是提前一年,至少半年。
为什么我现在说半年到一年?以前我认为是一年,但现在我觉得半年就必须想清楚了,因为Agent的出现正在显著加速整个过程。
总之,你需要在很早的时候就想清楚:这一代模型结构,在接下来很长一段时间里,它要承担什么角色、解决什么问题。如果这个问题没想清楚,那么这个模型就不会具备优势——它可能会成为一个“平庸的模型结构”;而一个平庸的结构,不一定带来平庸的效果,但一定会带来在成本和效率上的劣势。
所以,在预训练阶段,或者说在Infra层面,必须前置去做、并且要做得很充分的事情。
而在后训练阶段,由于现在它是和Agent耦合在一起迭代的,很多事情没办法提前规划得非常清楚。这个时候更考验的是:你如何基于当前的模型能力,以及Agent的范式,产生一种“化学反应”,以及你如何快速设计出新的Infra架构。这里会涉及到全新的RL Infra架构。
在Code和Math这种Chat形态的Reasoning场景下,Infra的核心其实是模型本身的推理引擎——模型需要长时间推理、长链条思考,然后给出答案,这本质上是一个推理引擎的问题,也是RL Infra的核心问题。但在Agent场景下,Infra的关注点就不再只是模型推理本身,还包括模型与Agent之间的耦合关系。
也就是说,系统从“以Rollout推理引擎为核心”,转变为“以Agent为核心”的一个更复杂系统。这个系统可能是黑盒的,也可能是白盒的。在这样的系统中,需要解决的Infra问题,和之前R1这种以Chat Reasoning为主的时代,是完全不同的一类问题。
因此,这对团队提出了更高的要求:必须具备足够的敏捷性,能够快速开发出适配当前时代的RL Infra系统。
同时,由于Agent框架本身变化非常快,这套系统还必须具备很强的兼容性。甚至如果进一步考虑到自适应和持续迭代,这套RL Infra系统的复杂度会进一步上升——它需要具备很强的容错能力。而且,这个系统不仅涉及推理训练,还涉及GPU和CPU的综合调度与管理。
所以在这一块,我认为团队的敏捷性,以及Infra与研究之间的协同配合,是一个非常关键的因素。
如果这些事情做得好,你会明显感受到:整体的研究推进速度会非常快。
最后一个问题,是关于“人”的问题。好奇心、热爱,以及对技术的长期坚持,确实是很多优秀研究者身上的共同特质。
但如果你要从源头去筛选这些人,再到如何激发他们、管理他们,最终让大家围绕一个共同信仰去协同前进,这是一个非常复杂的问题。我觉得这个问题的难度,不亚于设计一个复杂而优秀的Agent系统。
在这一点上,我自己也还在摸索之中。更多时候,我是在这个环境里学习——学习别人是如何在自己擅长的领域做到更好的。这可能也是为什么,最近我开始更多去思考所谓“群体智慧”,以及它最终如何通向 AGI。
张小珺:当前后训练变得更重要,后训练团队的搭建和管理方式,和预训练对比会有不同吗?
罗福莉:通常我们会看到两类人适应得会非常好,或者说对这个事会更有热情。
第一类就是他会更注重去跟模型“玩”的这样一群人。因为他去玩,他才知道每个模型能力的边界在哪,他才会去想要找到一种可scaling的方式,去把这个边界给补充回来。有可能是去构造一批更强的数据,以及更强的环境,让它能够RL训练起来。有可能是fall back到预训练的某个环节,可能这批数据没做好,就把这个数据补上,下次训模型的时候会更好。
总之就是,更在乎模型体验的人、更跟模型交互的频次更高的人,他会非常适应这个方式,觉得这个迭代是有价值的。尤其是那些维护了自己很多私有的测试库的人,疯狂去测不同模型的边界,突然发现某个模型强了,然后分享出来自己这种独特体验的人,还是蛮适合进入这个范式的。
还有一个就是,我们要围绕这个新的Agent范式去设计很好的RL Infra体系。做RL的Infra,跟做Pre-train的Infra有一个非常大的不同,是RL的Infra会更在乎这个模糊程度。
Pre-train的Infra你可能不能容错,比如出现一个loss spike,就不允许它出现,想要把这个spike解决下去。但做RL Infra,你就要允许它容错。就是允许这个模型跟这个Agent,在这个Agent框架里边,Rollout到一半就断了。但它断的原因有很多种,根本找不到是哪一种。
有可能是因为这个Agent框架写了某个超时的逻辑,有可能是因为它做这个任务需要很长的验证流程,乱七八糟,不知道是因为什么原因就断掉了。
还有一个就是,会不会你的训练跟推理,是在异构的集群上训的?
你训练和推理的不一致性,在原来Code跟Math那个Reasoning范式里边,是不能容忍这个事情的,但现在必须要容忍这个事情。
以及怎么去做一些更多的异构资源的调度?现在除了GPU你还要管CPU,你还要管存储。怎么在这种很复杂异构资源里边,把这个模型训起来。这里边需要很多算法跟工程的妥协,中间这个模糊的地带非常多。
所以对Infra人的要求的灵活性的要求,和这种跨这两个领域的理解,要求变得非常之高。换句话说,相比Pre-train来说,它对灵活性和敏捷性,都提出了新的要求。
即使是做Infra的人,本来是在一个偏确定性、追求清晰解法的体系里,但进入RL之后,只有一部分人会更适应这种高度不确定、强实验驱动的系统。
所以大概觉得是这样一种变化。做Pre-train Infra,跟RL Infra还是分开的。它们确实对于复杂性和这种精确度的要求,会差异很大。
22 把每天的研究都做好,就非常好
张小珺:你加入小米发了好几个模型。过去半年,有什么得到了进步的地方,有什么觉得不足的地方?
罗福莉:感觉每天可能都在否定昨天的自己。
不管是很多做事的方式上,还是你对事情未来的一些判断上,基本上都在一直去否定。是在这种否定当中、自我内省和反省当中成长的。
张小珺:有一个什么地方得到了特别大的进步?
罗福莉:我的历程没有说有个非常清晰的节点,到达这个节点就感觉好像进步了。但感觉脑子里这套系统悄悄在进化。
以前在做量化的时候,学到一句非常有力量的话:“总有方式去建模价格”。这是给我力量支撑的一句话。做量化时候,价格就是你的reward,你要去预测准价格,才能做好量化投资。
回到做大模型赛道,reward是不那么清晰的,是变化的。我的心法就是,应该做当下符合我价值观的事情。这个事情,一定要对更多人产生价值,一定要是更有意义的一个事情。
如果我们创造大模型的这一批人,如果没有这样一个内驱力,而是我要做一个破坏的东西,那么最后会非常危险。
张小珺:你现在工作状态是什么样?工作节奏?
罗福莉:早上11点,晚上12、3、4点。但这是我的状态,不代表团队其他人的状态。
张小珺:你是夜猫子?
罗福莉:倒不是,是自己本身的睡眠确实不需要特别多。可能6个小时就完全足够了,5个小时也可以,4个小时也行。不需要那么多的睡眠。
现在做的事情有点兴奋,确实感觉睡太多有点浪费时间。
张小珺:过去半年你遇到压力怎么缓解?
罗福莉:我的脑子就是一个Sliding Window Attention(滑动窗口注意力),忘得非常快。哪怕有压力,快的话一两个小时就过了,慢的话一天就过了。
但这也基于一个前提——你第二天会有一些新的、有想象力、有上限的事情给它冲掉,你立马就忘掉。如果它还是在那个Context,应该就忘不掉。
张小珺:如果AGI实现了,AI能够自己训练AI,不需要研究员了,你会去干嘛?
罗福莉:我大概一个月前有想过,但想的事情在变化。
一个非常有价值的事情是,现在中国的很多基础研究,太去要求有一个很完整的产品、乱七八糟的证明。并没有一个很好的资金,或者说有一个慈善机构,去支撑做基础研究的人,去往更突破的方向迈进一步。我们可不可以搞一个这种公益型的组织,去support这个事情?
我始终觉得,应该加速做科学研究。哪怕最终实现AGI,也有很多要做的。
张小珺:为什么要去跟AI竞争?就让它做科研就好了。
罗福莉:那不一天到晚躺着没事干把?总要做点新的事情吧!或者,你总要去做点帮助AI的事情吧!纯享受生活应该也挺无聊的。
总之就是要做点有益的事情。但这个有益,是按照个人的价值观来进行评判的。
无聊是不是一种意义?我也不知道。但无聊对我来说不是一种意义。
张小珺:你对未来,1年后、2年后、3年后的自己,有什么预期吗?
罗福莉:现在觉得把当下的每天的研究都做好,就觉得非常好。
张小珺:10年后,Agent可能已经超越大部分人类了,你有什么话想对10年后的自己说吗?











