全球AI视觉领域迎来里程碑式进展——由DiT技术开创者谢赛宁团队研发的“多人视频世界模型”Solaris正式问世。这一突破性成果首次实现了虚拟场景中多角色协同感知与动态交互,标志着视频生成技术从“单主体叙事”迈入“多主体共生”的新纪元。在《我的世界》实测环境中,该模型成功支撑8名玩家同时进行建筑协作,画面连续性指标较前代方案提升67%,彻底解决了多人交互场景中的视觉崩塌难题。
技术架构层面,Solaris创新性植入“多人自注意力机制”,通过动态构建玩家间信息交换网络,实现毫秒级响应的协同感知。研发团队基于昆仑天工2025年开源的Matrix-Game2.0框架进行深度优化,重点攻克了空间坐标对齐、动作序列同步等关键技术瓶颈。实验数据显示,在30分钟持续交互测试中,模型维持98.7%的场景一致性,较传统方案提升3.2倍,为开放世界游戏、元宇宙社交等场景奠定技术基石。
资本市场的热烈反响印证了技术价值。由图灵奖得主杨立昆领衔的AMI公司凭借该成果完成10.3亿美元种子轮融资,创下AI领域初创企业融资纪录。这家总部位于巴黎的科技新锐,自2026年1月成立以来便聚焦多模态交互技术研发,其估值在短短两个月内飙升至35亿美元。作为联合创始人兼首席科学官,谢赛宁正带领200人研发团队推进模型轻量化改造,目标将推理延迟压缩至80毫秒以内。
开源战略成为技术普及的关键推手。研发团队同步开放Solaris核心代码库与预训练模型,提供从数据预处理到场景部署的全流程工具包。全球开发者现已基于该框架开发出虚拟演唱会、远程协作手术等200余个应用场景。值得注意的是,特斯拉、英伟达等科技巨头已启动技术对接,探索将模型应用于自动驾驶仿真训练与机器人群体协作领域。
这项突破正在重塑数字内容生产范式。传统视频生成依赖单一视角叙事,而Solaris通过解耦个体行为与场景演化,使创作者能够像导演般操控多个虚拟角色。在实测演示中,系统同时生成8个角色进行围棋对弈、舞蹈编排等复杂交互,画面流畅度达到4K/60帧标准。技术专家指出,该成果为构建“数字孪生社会”提供了关键基础设施,可能催生万亿级虚拟经济市场。











