ITBear旗下自媒体矩阵:

智源研究院Emu3模型登《自然》:自回归路线统一多模态学习获突破

   时间:2026-01-30 03:05:52 来源:互联网编辑:快讯 IP:北京 发表评论无障碍通道
 

国际顶级学术期刊《自然》即将在纸质版刊发一项来自中国科研机构的重要成果——北京智源人工智能研究院研发的多模态大模型“通过预测下一个词元进行多模态学习的多模态大模型”成功入选。这一突破标志着我国科研机构主导的大模型研究首次登上《自然》正刊,为生成式人工智能领域开辟了新路径。

自2018年GPT通过“预测下一个词元(NTP)”的自回归技术实现语言大模型重大突破以来,生成式人工智能浪潮席卷全球。然而,多模态模型的发展长期依赖对比学习、扩散模型等独立技术路线,自回归路线能否成为统一多模态学习的通用方案,一直是学界悬而未决的难题。智源研究院提出的Emu3模型,以“预测下一个词元”为核心,首次将图像、文本和视频数据统一离散化至同一表示空间,并通过单一Transformer架构实现多模态序列的联合训练,为这一难题提供了创新性解答。

Emu3模型的架构设计突破了传统多模态模型的局限。研究团队摒弃了针对不同模态分别训练的思路,转而构建了一个能够同时处理文本、图像和视频的统一框架。通过将多模态数据转化为离散词元序列,模型在训练过程中自动学习跨模态关联,无需依赖外部对齐工具或预训练模型。这一设计不仅简化了模型结构,还显著提升了计算效率,为原生多模态大模型的训练提供了新范式。

实验数据显示,Emu3在生成与感知任务中展现出卓越性能。在文生图任务中,其生成质量达到扩散模型水平;在视觉语言理解任务中,表现可与融合CLIP和大语言模型的主流方案媲美。更引人注目的是,Emu3突破了传统视频生成模型的局限,通过自回归方式逐词元预测视频序列,实现了基于因果关系的视频生成与延展。这一特性使其能够初步模拟物理世界中的环境变化、人类行为和动物动作,为视频生成领域带来了新的可能性。

《自然》期刊编辑在点评中指出,Emu3模型仅凭“预测下一个词元”这一简单机制,便实现了文本、图像和视频的统一学习,其性能与使用专门路线的模型相当。这一成果不仅验证了自回归路线在多模态学习中的可行性,更为构建可扩展、统一的多模态智能系统奠定了基础。研究团队还开源了多项关键技术与模型代码,为全球科研人员进一步探索多模态学习提供了重要资源。

据悉,Emu3模型的研发团队在训练过程中采用了大规模多模态序列混合数据集,覆盖了文本、图像和视频的多种组合形式。通过联合训练,模型能够自动捕捉不同模态之间的内在联系,例如将图像中的视觉元素与文本描述对应,或将视频中的动作序列与语言指令关联。这种跨模态理解能力使Emu3在机器人操作、多模态交互等复杂任务中具有潜在应用价值。

 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  争议稿件处理  |  English Version