ITBear旗下自媒体矩阵:

智源Emu3.5大模型发布:以NSP架构引领多模态AI迈向“智能操作”新时代

   时间:2025-10-31 00:51:02 来源:互联网编辑:快讯 IP:北京 发表评论无障碍通道
 

北京智源人工智能研究院近日推出新一代多模态世界模型Emu3.5,通过创新性引入自回归式“下一状态预测”(NSP)架构,推动人工智能从单一模态理解向跨场景智能操作跨越。该模型首次将文本、图像、动作指令等多元信息整合为连续状态序列,通过预测后续状态变化实现端到端决策,标志着AI系统开始具备“预判-规划-执行”的完整能力链。

在核心技术层面,Emu3.5突破传统多模态模型的特征对齐局限,构建了统一的状态流编码体系。模型接收用户指令后,不仅能解析当前场景要素,更能模拟操作对环境的影响。例如当用户要求“将咖啡杯移至桌角并增强画面亮度”时,系统会同步计算物体移动轨迹、光照参数变化及背景协调性,确保每个操作步骤符合物理规律与视觉逻辑。

实测数据显示,该模型在复杂任务处理中展现出显著优势。在图像生成领域,可根据“蒸汽朋克风格的海底城市,气泡折射着机械生物的光泽”等精细描述,自动生成具有物理可信度的画面;图像编辑场景下,支持“将人物服饰改为1920年代爵士风”等语义级修改,无需人工选取操作区域;视频处理方面,能对连续帧进行动态调整,如实现“奔跑者突然急停并反向跳跃”的时空连贯编辑。

这种跨模态协同能力为机器人控制、虚拟助手开发、智能设计等领域开辟新路径。在医疗场景中,模型可同步分析CT影像与电子病历,生成包含三维重建与诊疗建议的复合报告;教育领域能根据知识点自动生成包含互动元素的多媒体课件;娱乐产业则支持从剧本创作到镜头设计的全流程AI辅助。

研发团队强调,Emu3.5通过消除文本、视觉、动作间的信息壁垒,实现了真正意义上的模态自由切换。科研人员可基于统一框架处理异构数据,普通用户则能通过自然语言完成专业软件操作。目前该模型已启动教育、医疗、文娱等领域的商业化应用,并计划分阶段开源核心模块,推动构建开放的多模态技术生态。

这项突破重新定义了AI系统的角色定位——从被动执行指令的工具,转变为具备主动规划能力的协作者。当模型开始预测环境变化并自主规划最优路径时,人工智能正沿着通用智能的方向迈出关键步伐。智源研究院通过NSP架构的创新,为多模态技术发展找到了新的突破口。

 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  争议稿件处理  |  English Version