滚动资讯

当前位置：首页 > 资讯 > 信息流 > 正文内容

中科院NeurIPS新成果SpaceServe：以“空分复用”破局MLLM推理行头阻塞难题

时间：2025-10-12 22:07:34 来源：互联网编辑：快讯 IP：北京 发表评论无障碍通道

中国科学院计算技术研究所的研究团队在NeurIPS 2025会议上发布了一项突破性成果——SpaceServe架构，该架构首次将大语言模型（LLM）推理中的并行-解码（P/D）分离技术扩展至多模态场景，通过创新的“空分复用”机制彻底解决了多模态大语言模型（MLLM）推理中的行头阻塞问题。

随着MLLM在图像理解、视频分析等高分辨率任务中的广泛应用，其推理流程中的多模态编码阶段逐渐成为性能瓶颈。传统系统如vLLM采用“时间复用”策略，即GPU需先完成视觉或音频编码任务后，才能切换至文本解码任务。这种设计在高并发场景下会引发严重问题：一个高分辨率图像的编码可能耗时数百毫秒，导致所有等待生成文本的解码请求被迫阻塞，造成解码器“饥饿”，输出token耗时（TPOT）随请求量激增而急剧上升，系统吞吐量大幅下降。

研究团队提出的SpaceServe架构通过“空分复用”技术，将传统的时间串行执行模式转变为空间并行执行模式。定量分析显示，视觉编码器具有计算密集、内存带宽需求低的特点，而文本解码器则内存密集、高度依赖HBM带宽存储KV Cache。二者资源需求互补，却在时间复用架构下被迫串行执行，导致GPU资源浪费。SpaceServe的核心创新在于将编码器与解码器解耦，并利用现代GPU的细粒度流式多处理器（SM）分区能力，实现二者在同一GPU上的并发执行。

该架构包含三大关键技术：首先，通过EPD（Encoder-Prefill-Decode）三阶段逻辑解耦与物理共置，将多模态编码器从共享文本解码器中完全分离，支持独立调度；其次，采用TWSRFT（Time-Window Shortest Remaining Work First）编码器调度策略，按剩余工作量最短优先原则批处理编码请求，避免大图阻塞小图，平滑解码器输入流；最后，开发基于资源利用曲线的动态分配运行时（Space Inference Runtime），离线构建资源-效用曲线，在线根据请求元数据动态分配SM计算单元，最小化端到端延迟。

在Qwen2-VL系列模型（2B–72B）上的实测数据显示，SpaceServe显著优于传统vLLMv1系统。当请求率增加时，vLLM的TPOT从101ms急剧恶化至365ms，而SpaceServe仅从8.85ms微增至12.62ms。根本原因在于，vLLM中编码器独占GPU时解码器无法推进，而SpaceServe通过空分复用使解码器在编码器运行期间持续生成token，彻底解耦了执行流程。

与NVIDIA MPS（Multi-Process Service）方案的对比进一步验证了SpaceServe的优势。在10 RPS（每秒请求数）条件下，MPS版本的TPOT为132ms，而SpaceServe通过细粒度SM分区将延迟降至40.68ms，提速3.3倍。这是因为MPS仅在进程级隔离资源，编码器与解码器仍会争抢同一SM内的寄存器、L1缓存等资源，导致缓存污染与执行效率下降。而SpaceServe通过SM级物理分区实现了真正的资源隔离，最大化各自执行效率。

这项研究无需修改现有模型结构，即可兼容Qwen2-VL、Kimi-VL等主流MLLM，且代码已开源，有望集成至vLLM、SGLang等框架，推动多模态服务的高效落地。值得注意的是，SpaceServe主要优化稳态吞吐（TPOT），对首token延迟（TTFT）影响有限，这与设计目标一致——聚焦于解码器的持续高吞吐，而非单次编码加速。

项目地址：https://github.com/gofreelee/SpaceServe

更多>同类资讯

索尼着手软件优化PS5游戏，为下一代PlayStation掌机适配提前筹备

12-19

Epic本周福利来袭！《巨人杀手：暗黑之潮》免费畅玩

12-19

蒸发冷却助力3D打印新突破：无冷冻设备也能雕出微型冰制圣诞树

12-19

寒武纪注册资本增至4.22亿工商信息变更部分高管同步调整

12-19

康师傅高层变动：创始人之子魏宏丞2026年接棒，职业经理人时代落幕

12-19

海辰储能：以技术创新为笔绘就长时储能从技术到生态的升维画卷

12-19

葛卫东：草根逆袭成传奇，沐曦上市再创投资神话，一日获利超200亿

12-19

种业振兴成效显著：自主选育成果丰硕农业用种安全保障再升级

12-19

职场晋升别急躁：厚积薄发，三十而立四十才是冲刺黄金期

12-19

港交所延长交易时间引热议，利弊交织下如何权衡与破局？

12-19

中美传统行业：上证50与道琼斯实力渐近，科技领域差距待追赶

12-19

并网式光伏气象站：精准监测气象，为光伏电站高效并网保驾护航

并网式光伏气象站可提前预警暴雨、大风、高温等恶劣天气，让运维人员及时采取防护措施，避免设备损坏影响并网运行。湛江华润水泥厂光伏监测项目中，平台根据气象站传输的实时数据，自动优化并网发电方案，在光照充足时段最大…

12-19

2025年太阳能恶臭检测仪怎么选？从需求到趋势的全面指南

集成太阳能供电技术与先进传感单元的恶臭在线监测系统应运而生，为解决这一行业痛点提供了切实可行的技术路径。金叶仪器不仅提供标准化设备，更能根据客户的特定监测需求与环境条件，对传感器组合、供电配置和数据分析模型进…

12-19

盛路通信：掌握卫星通信核心技术推进产品研发与客户深度合作

12-19

层次化新突破：伊利诺伊大学团队让AI训练数据选择更精准高效

12-19

点击查看更多 +

全站最新

OxyGent多智能体协作框架新版本来袭，赋能AI应用创新与发展

长虹云模具：以“云智”之力，撬动模具管理变革与产业升级新未来

驼铃古道焕新篇！洛阳跨境电商借“一带一路”东风扬帆全球

2025年太阳能恶臭检测仪怎么选？从需求到趋势的全面指南

合资新能源破局者：东风日产N7凭啥半年狂揽5万销量？

2026款电动MINI COOPER上市，经典设计邂逅5G科技与多样配置

热门内容

本栏最新

2025年太阳能恶臭检测仪怎么选？从需求到趋势的全面指南

四缸动力猛如虎操控休闲两不误追600RS性能街车实力出圈

爱奇艺成都“时空魔盒”：科技与文化交融，藏着你的追剧时光

土巴兔王国彬：以不变价值创造为基，借AI之势赋能家装未来

航班管家预测2025年中国民航：旅客运输量创新高，多维度数据揭示市场新趋势

蓝凌OA助力FESCO数智转型，以智慧协同打造人资服务新标杆

本网站LOGO小熊标志受版权保护，版权登记号：鲁作登字-2015-F-025467，未经ITBEAR官方许可，严禁使用。
声明：本网站是公益性科普网站，为网友提供科技类资讯内容，无障碍技术由太阳湾捐增，为阅读障碍用户提供内容听读服务。如本站内容侵犯了您的权利，请通知我们及时删除。
中国（山东）自由贸易试验区鲁ICP备11015305号-1 联系入口
Copyright © 小熊科技资讯 2007-2024 ITBEAR.COM.CN All rights reserved.