ITBear旗下自媒体矩阵:

智源“悟界·Emu3”登Nature正刊:自回归路线或成多模态世界模型新方向

   时间:2026-02-02 14:18:13 来源:快讯编辑:快讯 IP:北京 发表评论无障碍通道
 

北京智源人工智能研究院推出的多模态大模型“悟界·Emu3”近日登上国际顶级学术期刊《自然》(Nature)正刊,成为继DeepSeek之后第二个获此殊荣的中国大模型团队研究成果。这一突破标志着中国在多模态人工智能领域的研究迈入国际前沿,为构建可扩展、统一的多模态智能系统提供了全新路径。

“悟界·Emu3”模型的核心创新在于仅通过“预测下一个token”的自回归技术路线,实现了文本、图像和视频的统一学习。这一方法摒弃了传统多模态模型中复杂的组合式架构,以极简的架构设计同时支持生成与感知任务。Nature编辑在点评中指出,该成果在性能上可媲美专用模型,为原生多模态助手、世界模型及具身智能等方向的发展奠定了基础。

自2024年10月发布以来,Emu3在多项基准测试中表现优异。在文本到图像生成任务中,其性能超越SDXL等扩散模型,接近DALL-E 3等顶尖水平;视频生成方面,VBench评分达81,超过Open-Sora 1.2;视觉语言理解得分62.1,略高于LLaVA-1.6。研究团队通过大规模消融实验验证了多模态学习的规模定律,证明模型能力随数据规模增长而显著提升。

该模型的研发历程充满挑战。2024年初,团队面临技术路径选择的关键决策:是沿用主流的扩散模型架构,还是探索自回归路线的统一可能性。最终,团队组建了50人的专项攻关组,以离散token方式重构视觉模态表示,将图像、文本和视频统一到同一表示空间中。这一过程中,团队解决了图像压缩效率低、训练稳定性差等技术难题,历经近一年时间完成模型训练。

Emu3的架构设计体现了“极简主义”理念。模型基于Transformer解码器架构,扩展了嵌入层以容纳视觉标记,通过两阶段优化方案实现高效训练。在推理阶段,模型支持无分类器引导和低延迟生成,可自然扩展至机器人操作、多模态交错生成等复杂任务。研究团队还开源了模型代码和关键技术,推动社区持续创新。

2025年10月,团队进一步推出Emu3.5版本,实现了从“预测下一个token”到“预测下一个状态”的能力跃迁。该版本通过大规模长时序视频训练,学习到时空与因果关系,在虚拟世界探索任务中超越谷歌Nano Banana等模型,首次提出多模态Scaling新范式。这一进展为具身智能等物理AI领域提供了重要技术支撑。

北京智源研究院自成立以来,始终聚焦大模型原始创新。其发布的“悟道”系列模型曾创下全球最大语言模型纪录,开源的200余款模型累计下载量超7.6亿次。此次Emu3登上Nature正刊,不仅验证了中国AI研究的技术实力,也为全球多模态大模型发展提供了新思路。随着开源生态的完善和产业链的协同发展,中国在人工智能基础研究领域的国际影响力将持续扩大。

 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  争议稿件处理  |  English Version