人工智能领域迎来重要突破,智源研究院近日正式推出“悟界 EMU3.5”多模态世界大模型。这一成果被视为行业迈向新阶段的关键标志,尤其在大语言模型文本能力发展趋缓、寻求新突破的背景下,多模态技术成为备受瞩目的方向。
多模态技术发展面临的核心难题,是如何有效融合文本、图像、视频等不同类型的数据。目前行业内存在两条主要技术路径:一条是DiT架构,在文生图、文生视频等生成任务中表现优异;另一条是以智源Emu系列为代表的“原生多模态”架构,试图从基础层面构建统一处理所有模态的模型。
EMU3.5的发布被认为开启了人工智能从“语言学习”向“多模态世界学习”转变的新纪元。该模型在技术路径上延续了Emu系列的原生多模态理念,采用统一的自回归架构,将文本、图像、视频等数据统一转化为Token进行预测。这种设计在理论上实现了模态统一,但过去面临推理效率低下的问题——生成图像时需逐个Token输出,速度远慢于并行生成的Diffusion模型。
为解决这一瓶颈,研发团队提出“DiDA(离散扩散自适应)”技术。这项创新允许自回归模型在推理阶段并行预测大规模Token,显著提升生成效率。据测试,在保持性能不变的前提下,图像生成速度提升近20倍,首次使自回归架构达到与顶尖闭源扩散模型相当的水平。这一突破为原生多模态路线的实际应用扫清了关键障碍。
效率问题解决后,规模化发展成为可能。EMU3.5通过大幅增加模型参数和训练数据验证了多模态领域的“规模定律”:参数规模从80亿跃升至340亿,训练视频数据时长从15年增至790年。基于这一实践,研发团队提出“第三种Scaling范式”,其核心优势包括:统一的自回归架构为规模化提供基础;可复用现有语言模型训练基础设施;首次在多模态领域引入大规模强化学习技术。
该模型的技术升级不仅体现在规模扩张,更在于核心范式的转变——从“预测下一个Token”升级为“预测下一个状态”。这一转变要求模型理解事物背后的因果关系和物理规律,而非简单续写数据。例如,当输入“叠衣服”指令时,模型能生成包含完整步骤的机器人操作序列;在图案推理任务中,模型需先理解规律才能生成正确结果;面对建筑正面图转换俯视图的需求,模型需构建三维空间关系模型。
这种“预测状态”的能力为具身智能发展提供了新路径。当前机器人训练面临真实数据匮乏的困境,而EMU3.5可通过模拟物理世界生成高质量训练数据。测试显示,在未见过的新场景中,搭载该模型的机器人任务成功率从0%提升至70%,表明其具备理解、规划和泛化的核心智能,可担任具身智能的“大脑”角色。











