智源Emu3.5大模型发布：以NSP架构引领多模态AI迈向“智能操作”新时代

时间：2025-10-31 00:51:02 来源：互联网编辑：快讯 IP：北京 发表评论无障碍通道

北京智源人工智能研究院近日推出新一代多模态世界模型Emu3.5，通过创新性引入自回归式“下一状态预测”（NSP）架构，推动人工智能从单一模态理解向跨场景智能操作跨越。该模型首次将文本、图像、动作指令等多元信息整合为连续状态序列，通过预测后续状态变化实现端到端决策，标志着AI系统开始具备“预判-规划-执行”的完整能力链。

在核心技术层面，Emu3.5突破传统多模态模型的特征对齐局限，构建了统一的状态流编码体系。模型接收用户指令后，不仅能解析当前场景要素，更能模拟操作对环境的影响。例如当用户要求“将咖啡杯移至桌角并增强画面亮度”时，系统会同步计算物体移动轨迹、光照参数变化及背景协调性，确保每个操作步骤符合物理规律与视觉逻辑。

实测数据显示，该模型在复杂任务处理中展现出显著优势。在图像生成领域，可根据“蒸汽朋克风格的海底城市，气泡折射着机械生物的光泽”等精细描述，自动生成具有物理可信度的画面；图像编辑场景下，支持“将人物服饰改为1920年代爵士风”等语义级修改，无需人工选取操作区域；视频处理方面，能对连续帧进行动态调整，如实现“奔跑者突然急停并反向跳跃”的时空连贯编辑。

这种跨模态协同能力为机器人控制、虚拟助手开发、智能设计等领域开辟新路径。在医疗场景中，模型可同步分析CT影像与电子病历，生成包含三维重建与诊疗建议的复合报告；教育领域能根据知识点自动生成包含互动元素的多媒体课件；娱乐产业则支持从剧本创作到镜头设计的全流程AI辅助。

研发团队强调，Emu3.5通过消除文本、视觉、动作间的信息壁垒，实现了真正意义上的模态自由切换。科研人员可基于统一框架处理异构数据，普通用户则能通过自然语言完成专业软件操作。目前该模型已启动教育、医疗、文娱等领域的商业化应用，并计划分阶段开源核心模块，推动构建开放的多模态技术生态。

这项突破重新定义了AI系统的角色定位——从被动执行指令的工具，转变为具备主动规划能力的协作者。当模型开始预测环境变化并自主规划最优路径时，人工智能正沿着通用智能的方向迈出关键步伐。智源研究院通过NSP架构的创新，为多模态技术发展找到了新的突破口。

在这篇名为《DeepSeek Math-V2：迈向可自验证的数学推理》的论文中，DeepSeek指出，大语言模型已经在数学推理方面取得了重大进展，这是人工智能的重要试验台，如果进一步推进，可能会对科学研究产…

根据华为官方公布的维修价格，华为Mate80 RS非凡大师主板维修6499元起步，甚至比小米17 ProMax起售价格还要高。华为Mate80 RS非凡大师作为年度顶级旗舰，其核心配置为华为历代最强，维修价…

当你将三定律融会贯通，便能打造具有强大吸引力的个人IP：清晰的专业定位（相关性）、广泛的高质量连接（人气质量）和坚定的自我价值认知（自信心）。在这个充满不确定性的时代，愿你能以百度定律为舟，以人文温度为帆，…

在兜兜转转了一圈之后，字节才终于在社交持久战中为多闪找到了新坐标：放弃“再造一个微信”的野心，转而追求社交生态的内循环，防止抖音内产生的社交关系流失至外部平台。对于字节而言，相比从零开始冷启动一款新应用，…

最近团队里的测试任务越来越繁重，特别是那些重复性的功能验证和测试数据准备，几乎占用了我们大部分时间。直到上个月，我偶然接触到了字节跳动的Coze平台，这个零代码的AI工具彻底改变了我们的测试工作流程。就在…

11月28日报道，小米创办人、董事长兼CEO雷军接受媒体专访，表示下一个五年，人工智能将深刻影响传统产业：“所有产业都值得用AI做一遍。” 雷军以小米汽车工厂举例：大压铸件用人眼很难完成检测，但通过X光机和A…

General Agents由前OpenAI研究员威廉·格斯（William Guss）于2024年创办，汇聚了来自麻省理工大学、谷歌大脑等高校和机构的研究人员，专注计算机Agent赛道，目前已发布一款Ag…

他特别提到，未来五年，人形机器人将大规模进入小米工厂，“这还只是第一步”，家庭场景对人形机器人的需求潜力更大、要求更高、市场更广阔。他还建议，北京应进一步开放智能制造应用场景，支持龙头企业牵头建设示范工厂，…

这场从年度亏损158亿元到持续盈利的蜕变，不仅是优酷自身的战略升级成果，更折射出长视频行业从"烧钱换增长"到"提质增效"的转型拐点。用户获得优质内容体验，广告商实现精准高效营销，平台则收获持续盈利，这种良性循…

反舌鸟科技表示，本轮融资后，他们将推进三大战略：其一，升级AI工具链，深化Agent模型在游戏逻辑生成与运营优化中的应用；其二，加速产品落地，年内完成多款UGC游戏开发及全球合作产品发行；其三，构建硬件生态…

IT之家 11 月 28 日消息，据《商业内幕》今日报道，谷歌 CEO 桑达尔・皮查伊认为，氛围编程（Vibe coding）正在为非技术背景的工作者打开同样的大门，就像博客曾让普通写作者找到职业入口，You…

雷军以小米汽车工厂为例，生动阐述了AI在提升生产效率与精度方面的巨大潜力。这一变革不仅大幅提升了生产效率，还显著降低了人为因素导致的误差，为产品质量提供了有力保障。雷军的这番言论不仅展现了他对AI技术的深…

本网站LOGO小熊标志受版权保护，版权登记号：鲁作登字-2015-F-025467，未经ITBEAR官方许可，严禁使用。
声明：本网站是公益性科普网站，为网友提供科技类资讯内容，无障碍技术由太阳湾捐增，为阅读障碍用户提供内容听读服务。如本站内容侵犯了您的权利，请通知我们及时删除。
中国（山东）自由贸易试验区鲁ICP备11015305号-1 联系入口
Copyright © 小熊科技资讯 2007-2024 ITBEAR.COM.CN All rights reserved.