ITBear旗下自媒体矩阵:

智源发布Emu3.5多模态世界大模型,开启AI迈向物理世界新征程

   时间:2025-11-03 09:22:59 来源:互联网编辑:快讯 IP:北京 发表评论无障碍通道
 

智源研究院在北京举办的“悟界·Emu系列技术交流会”上,正式推出Emu3.5多模态世界大模型。这款由智源院长王仲远与多模态大模型负责人王鑫龙联合发布的成果,标志着人工智能从语言认知向多模态世界建模的跨越式发展。该模型通过单一自回归Transformer架构实现端到端原生多模态训练,在10万亿token级数据上完成预训练,视频数据训练时长从15年激增至790年,参数规模从80亿扩展至340亿,为多模态大模型的规模化发展开辟新路径。

技术突破方面,智源独创的“离散扩散自适应”(DiDA)技术将图像推理效率提升20倍,使自回归模型首次达到闭源扩散模型的生成速度。模型采用“预测下一个状态”的核心训练目标,通过海量多模态数据自发学习物理世界的运行规律,形成对时空连续性和因果关系的内在表征。这种非硬编码的知识获取方式,使Emu3.5具备长时程环境交互能力,与单纯内容生成模型形成本质区别。

作为新一代世界模型,Emu3.5构建了完整的预测系统,在理解、预测、规划三个维度形成闭环。其独特能力体现在:可解析高层意图并生成多步骤行动方案,如规划“宇宙飞船制造流程”或“咖啡拉花步骤”;在统一框架内实现物理动态模拟与因果关系推演;通过涌现的因果推理能力支持具身交互,为机器人操控提供认知基础。这些特性使模型既能生成行动指南,又具备基础物理直觉,可在多场景中实现可控探索。

在功能表现上,Emu3.5展现出跨模态时序一致性优势。其多模态叙事能力可围绕任意主题创建沉浸式故事体验,具身操作模块支持跨场景动作规划与复杂交互。在图文编辑领域,模型通过自然语言指令实现精准时空变换,文图生成质量超越多数闭源模型。基准测试显示,该模型在多维度评估中均达到行业领先水平。

研发路径上,智源研究院延续其创新定位,聚焦高校与企业未涉足的AI前沿领域。作为国内最早开展大模型研究的机构,团队曾成功孵化悟道系列模型,培养众多行业领军人才。近两年转向多模态与物理世界AI研发,基于对技术演进趋势的判断,主张通过原生多模态架构统一感知与生成能力。2024年发布的Emu3已验证自回归架构的可行性,此次Emu3.5进一步证明模型性能可随数据、算力、参数规模同步提升。

王仲远在发布会上强调,Emu3.5开创了多模态Scaling的新范式,为构建通用世界模型提供可量化的实践路径。模型通过模拟人类自然学习方式,在“下一状态预测”框架下实现世界建模能力的泛化。目前,智源已启动学术合作计划,将向科研机构开放Emu3.5体验版,同时通过官方渠道启动产业界邀请测试,推动多模态世界模型的技术生态建设。

 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  争议稿件处理  |  English Version