作者|冬梅
Alexandr Wang 带队,
meta 新模型深夜来袭
沉寂了 9 个月后,这位让扎克伯克花了 143 亿美元挖来的天才少年 Alexandr Wang 终于交出了首个作品。
昨夜,meta 正式发布新一代模型 Muse Spark,代号 Avocado,就是外界传了很久的“牛油果”。这是其内部 AI 组织 meta Superintelligence Labs 在战略重组后的首个落地产品,也被视为这家科技巨头迈向“个人超级智能”路线图的起点。
Alexandr Wang 甚至激动地在 X 上连发九条推文介绍该模型。
与此前侧重语言能力的模型不同,Muse Spark 从一开始就被定义为“原生多模态推理模型”。它不仅能够处理文本,还能理解图像、环境信息,并在此基础上进行推理、调用工具,甚至与其他智能体协同完成复杂任务。
这种能力组合,意味着 meta 正试图将 AI 从“对话工具”升级为“行动系统”。
Muse Spark 的发布,并非一次单点技术升级,而更像是 meta AI 战略的一次整体转向。
过去一年,meta 在 AI 领域经历了明显的路径调整。从开源导向的 Llama 系列,到如今强调“超级智能”的闭环系统能力,核心变化在于:不再单纯追求模型能力本身,而是强调“模型 + 工具 + 环境 + 多智能体”的系统级协同。
Muse Spark 正是这一思路的首个成型产品。
官方披露,为支撑这一方向,meta 正在对整个技术栈进行重构,包括模型训练、数据管理以及底层基础设施。其中,名为 Hyperion 的新一代数据中心被明确点名,成为未来大规模模型扩展的关键支撑。
性能媲美 Gemini Pro 和 GPT 5.4
在能力层面,Muse Spark 的核心突破集中在“多模态推理”。
meta 在官方博客中表示:“在过去的九个月里,我们彻底重建了人工智能堆栈,速度比以往任何开发周期都要快。这个初始模型的设计初衷就是体积小、速度快,但却足以应对科学、数学和健康领域的复杂问题。这是一个强大的基础,下一代模型已经在开发中。”
据介绍,meta 还发布了“思考模式”,该模式可协调多个智能体并行推理。这使得 Muse Spark 能够与 Gemini Deep Think 和 GPT Pro 等前沿模型的极限推理模式相媲美。“思考模式”显著提升了 Muse Spark 在挑战性任务中的能力,在“人类最后的考试”任务中取得了 58% 的完成率,在“前沿科学研究”任务中取得了 38% 的完成率。
不同于传统视觉模型仅能识别图像内容,Muse Spark 被设计为能够将视觉信息与推理过程深度融合。例如,在 STEM 问题、物体识别与空间定位等场景中,它不仅能“看见”,还能“理解并推导”。
这种能力使其可以直接参与实际任务。例如:
通过摄像头分析家电状态,并用动态标注辅助用户排查故障
根据视觉输入生成互动内容,如小游戏或教学演示
在复杂环境中进行实时决策辅助
更关键的是,Muse Spark 支持“可视化思维链”(visual chain-of-thought),即将推理过程以可视形式呈现。这一设计不仅提升了可解释性,也为复杂任务的人机协作提供了新的交互范式。
meta 此次特别强调了 Muse Spark 在健康领域的应用潜力。
据介绍,meta 与超过 1000 名医生合作构建训练数据,使模型在健康推理上具备更高的专业性与可靠性。基于这一能力,Muse Spark 可以生成带交互界面的分析结果,例如:
食物营养结构的可视化拆解
运动过程中肌肉激活情况的动态展示
个性化饮食建议(结合用户健康状况)
这类能力的本质,是将 AI 从“信息提供者”升级为“决策辅助系统”。
在技术层面,meta 把另一个重点放在“扩展效率”上。
官方披露,在过去九个月中,团队重构了预训练体系,包括模型架构、优化方法和数据管理流程。结果是:在达到相同性能的前提下,Muse Spark 所需的训练计算量(FLOPs)相比上一代模型(如 Llama 4 Maverick)下降了一个数量级以上。
这一结果具有明确的行业意义。
过去两年,大模型竞争很大程度上依赖“堆算力”。而 meta 此次强调的,是通过工程优化提升“单位算力产出”。换句话说,其试图证明:性 能增长不必完全依赖指数级资源投入。
提示:你能把它转换成一个我可以在网上玩的数独游戏吗?
技术实现细节完整披露
在官方技术博客中,meta 详细介绍了他们如何从三个维度研究和追踪 Muse Spark 的扩展特性:预训练、强化学习和测试时推理。
预训练。在预训练阶段,Muse Spark 获得其核心的多模态理解、推理和编码能力——这是强化学习和测试时计算的基础。
meta 重构了预训练堆栈,改进了模型架构、优化和数据管理。这些改进共同提升了其利用每一单位计算资源所能达到的性能。为了严格评估新方案,meta 研发团队对一系列小型模型拟合了一个扩展定律,并比较了达到特定性能水平所需的训练浮点运算次数(FLOPs)。结果显而易见:与之前的模型 Llama 4 Maverick 相比,他们用少一个数量级以上的计算资源就能达到相同的性能。这一改进也使得 Muse Spark 比目前可供比较的领先基础模型效率更高。
强化学习。经过预训练后,强化学习 (RL) 利用计算能力可扩展地提升模型性能。尽管大规模强化学习历来容易出现不稳定,但 meta 的新技术栈能够带来平稳、可预测的性能提升。
下图展示了扩展 Muse Spark 的强化学习 (RL) 计算能力(以步数衡量)所带来的益处。左图显示,在训练数据上,pass@1 和 pass@16(16 次尝试中至少成功一次)的数值呈对数线性增长。这表明强化学习在不影响推理多样性的前提下提高了模型的可靠性。右图显示,在预留的评估集上准确率的增长表明,强化学习带来的收益具有可预测的泛化能力:Muse Spark 在训练中未遇到的任务上也表现良好。
测试时推理。强化学习训练模型在回答问题前进行“思考”——这一过程被称为测试时推理。要让数十亿用户拥有这种能力,就需要高效利用推理令牌。为此,研发团队依靠两个关键手段:一是思考时间惩罚,用于优化 token 使用;二是多智能体编排,用于在不降低响应速度的前提下提升性能。
为了在每个 token 上实现最高的智能水平,强化学习训练在增加思考时间的前提下,最大化正确率。在诸如 AIME 等部分评估任务中,这会导致阶段性转变。在初始阶段,模型通过延长思考时间来提升性能;之后,思考时间的惩罚会促使模型进行思维压缩——Muse Spark 会压缩其推理过程,从而使用更少的 token 解决问题。压缩之后,模型会再次扩展其解决方案,以获得更强的性能。
为了在不显著增加延迟的情况下,将更多时间用于测试时的推理,可以扩展协作解决难题的并行智能体的数量。下图展示了这种方法的优势。标准的测试时扩展方法会使单个智能体思考更长时间,而采用多智能体思维的 Muse Spark 扩展方法则可以在保持相当延迟的情况下实现更高的性能。
在安全层面,meta 表示已在部署前对 Muse Spark 进行系统性评估,依据其更新后的“高级人工智能扩展框架”(Advanced AI Scaling framework),对威胁模型、评估流程及上线标准进行了统一规范。
评估重点覆盖前沿风险(如生物与化学领域)、行为一致性以及对抗鲁棒性,并在安全措施实施前后进行对比测试。结果显示,Muse Spark 在涉及高风险内容时表现出明显的拒绝倾向,这主要得益于数据过滤、后训练安全对齐及系统级防护的多层机制。
meta 同时指出,在网络攻击或“失控”场景中,当前模型尚不具备执行复杂威胁任务的自主能力。整体来看,Muse Spark 在已评估的风险范围内处于可控水平,更多细节将于后续《安全与准备报告》中披露。
网友:模型强不强不知道,
但闭源让人失望
Muse Spark 的发布在技术社区引发了巨大反响 ,Stability AI 创始人 Emad Mostaque 及 meta 前首席科学家 Yann LeCun、Coinbase 联创兼 CEO Brian Armstrong 等大佬纷纷在 x 上向 Alexandr Wang 和 meta 表示祝贺。
另一方面,普通网友和部分开发者则聚焦于实际应用层面相关问题展开了争论。
有网友表示,该模型在排行榜上的表现令人印象深刻,但好奇 meta 是否也会在智能体编码领域展开竞争?
还有网友表示,新模型的多代理编排部分很有意思,Muse Spark 能原生处理这个问题,是一个真正的突破。他写道:“我一直在单体仓库的不同模块上运行并行的 Claude Code 代理,协调开销非常大。如果 Muse Spark 能原生处理这个问题,对于大型代码库的复杂重构来说,这将是一个真正的突破。”
有网友认为,meta 能在短时间内构建出性能如此强大的模型,为以后的基础设施建设打下了坚实基础。他评论:
“从零开始重建了整个堆栈,计算能力比 Maverick 低 10 倍,性能却与之匹敌。这 9 个月的基础设施建设工作构成了制胜的护城河。”
还有网友将 meta 的新模型与 Opus 4.5 进行了对比,认为“牛油果”表现逊色于 Opus 4.5。
值得注意的是,meta 此次发布的新模型走的是闭源路线,与此前一直主张的开源模型完全相反,这样一些 x 用户感到失望。
也有网友认为,meta 这次之所以将模型闭源,是因为此前的一系列开源没有为股东创造足够价值。
迈向“个人超级智能”,
仍有很长的路要走
尽管 meta 将 Muse Spark 定义为“个人超级智能”的起点,但其也明确承认,目前仍存在明显短板。尤其是在两个关键领域:
长时程智能体(long-horizon agents)
编码与复杂工作流
这意味着,虽然模型已经具备多模态与推理能力,但在持续执行复杂任务、长链条决策等方面,仍未达到真正“代理人级别”的能力。
虽然 meta 利用生成式 AI 的进步以及自身在该技术领域的投资来增强其广告业务并提高公司整体效率,但它尚未在大模型市场取得显著突破,而其在该领域的主要竞争对手已经遥遥领先。
OpenAI 和 Anthropic 的估值总和现已超过 1 万亿美元,谷歌的 Gemini 技术和服务也获得了广泛认可,尤其是在消费市场。
据 Grand View Research 称,全球生成式人工智能市场预计将以每年 40% 以上的速度增长,从 2025 年的约 220 亿美元增长到 2033 年的近 3250 亿美元,因此,该市场前景十分广阔。
与此同时,meta 正在加大对人工智能基础设施的投入,力图赶上其他超大规模数据中心运营商。meta 在其最新财报中表示,其 2026 年与人工智能相关的资本支出将在 1150 亿美元至 1350 亿美元之间,几乎是去年的两倍。
meta 公司也在尝试一种新的 AI 模型盈利模式,即通过 API 向第三方开发者提供 Muse Spark 底层技术的访问权限。meta 公司表示,目前只有部分“特邀合作伙伴”可以访问该 AI 模型的“私有 API 预览版”,但计划在未来某个时候向更广泛的用户群体提供付费 API 访问权限。
meta 公司表示,其全新模型 Muse Spark 目前已应用于公司独立的 meta AI 应用程序和桌面网站中的数字助理功能。该公司还表示,Muse Spark 将在未来几周内率先登陆 Facebook、Instagram、WhatsApp 和 Messenger,以及公司与 Ray-Ban 合作推出的 meta AI 眼镜。
meta 还计划最终让 Muse Spark 为 meta AI 应用程序中的 Vibes AI 视频功能提供支持。meta 指出,该服务目前使用的是来自 Black Forest Labs 等第三方公司的 AI 模型。
meta 表示:“购物模式借鉴了我们应用程序中已有的造型灵感和品牌故事,展现了创作者和人们已经关注的社群的创意。”










