在人工智能领域,一场关于推理架构的变革正悄然兴起。一种名为“解耦推理”的新理念,从实验室概念迅速成长为行业新标准,被众多主流大模型推理框架采纳,推动AI迈向模块化智能的新阶段。这一变革的背后,是加州大学圣地亚哥分校“Hao AI Lab”提出的DistServe系统,其通过将大模型推理过程拆分为“预填充”和“解码”两个独立阶段,为行业带来了全新的思路。
在DistServe出现之前,大多数推理框架采用“同址部署”方式,即在同一块GPU上同时执行“预填充”和“解码”。这种“连续批处理”技术虽曾成为业界标准,却存在两个根本性限制。一方面,“预填充”和“解码”共享GPU,延迟会相互干扰,即便采取缓解措施,大型预填充请求仍可能导致输出延迟大幅增加,尤其在负载突发时更为明显。另一方面,二者耦合伸缩,资源分配器需同时满足两种最坏情况的延迟需求,导致计算资源利用率低下,整体效率不佳。随着部署规模扩大和延迟要求提高,这些问题带来的成本剧增,促使DistServe应运而生。
DistServe通过将“预填充”与“解码”拆分为独立计算池,彻底打破二者干扰,实现独立伸缩,使其能各自满足关键延迟指标要求,同时保持高整体效率。然而,这一颠覆性想法最初并未获得广泛采用。2024年大部分时间里,开源社区因对原有推理系统进行深度架构重构需大量工程投入,对其持保留态度。但到了2025年,局面逆转,几乎所有主流大模型推理栈都将“解耦”视为默认方案。
这一转变主要源于多方面因素。首先,企业将大模型作为核心业务组件,“延迟控制”成为关键,DistServe让“预填充”和“解码”延迟易于观测和控制,且在真实生产环境中可持续优化。其次,随着模型体量扩大和访问流量激增,推理系统需扩展到数百乃至上千张GPU,解耦架构优势凸显,可为不同阶段独立分配资源,灵活配合多种并行策略,实现极高资源利用率。“解耦”增强了系统架构的可组合性。
如今,“解耦推理”已成为大模型推理的主要设计原则之一,在多个层面得到广泛应用。在编排层,NVIDIA Dynamo是专为“预填充-解码解耦”设计的先进开源数据中心级分布式推理框架,llm-d、Ray Serve等也基于解耦推理架构。在存储层,芝加哥大学团队开发的LMCache通过加速“预填充”实例到“解码”实例的KV缓存移动优化解耦过程,Kimi AI团队开发的MoonCake以“KVCache中心化”为核心,构建面向解耦的LLM推理平台,二者已成为大规模LLM推理系统的标准存储后端。在核心引擎层,几乎所有开源LLM推理引擎,如SGLang与vLLM,都原生支持“解耦推理”。
随着“预填充-解码解耦”理念逐渐成熟,学术界和工业界正探索新方向,推动解耦架构迈向“通用分解式推理”阶段。在计算层面,研究者开始在模型层级上细化解耦粒度。2025年,MIT CSAIL与DeepSeek Research提出“Attention–FFN Disaggregation”框架,将Transformer的注意力模块与前馈层分别放置于不同计算节点,使不同节点利用异构硬件优势,未来推理系统可能每个节点运行模型的一个功能子模块。跨层级的流水线分解也成为解耦架构的自然延伸,多个研究团队提出框架,如Stanford DAWN的“DisPipe”系统、meta AI的“HydraPipe”、Alibaba DAI-Lab的“PipeShard”,这些系统让推理过程在不同节点间以“阶段流”方式流动,实现全局流水线化推理,更适合未来多芯片异构系统。
在跨模态与多模型方面,随着多模态大模型出现,推理系统面临更复杂资源编排问题,未来趋势是将多模态推理解耦为多个模态子推理流,再在编排层通过调度器异步融合。同时,在推理系统中同时运行多个LLM或专用子模型变得常见,这些架构天然适合解耦化设计。
内存与缓存体系的解耦也是未来研究方向。当前解耦体系依赖“集中式KV缓存池”或“共享SSD集群”,未来要让缓存体系实现多层解耦与自治调度。MIT与ETH Zürich的研究者提出HiKV框架,将KV缓存划分为GPU本地缓存、节点共享缓存、分布式持久缓存三个层次,系统根据上下文热度自动迁移KV片段,使解耦推理的内存管理更具弹性。一些硬件厂商已探索原生支持解耦架构的芯片,未来“解耦推理”将演化为软硬件一体化体系。
从深度学习系统“从分散到集中”的趋势,到如今“从集中到解耦”的反转,并非倒退,而是成熟的标志。AI系统正走向模块化智能,不同功能模块可独立演化、扩展和优化,“解耦推理”正是这一趋势的起点,未来或许将看到“解耦学习”“解耦推理”“解耦认知”三者融合的智能架构体系。









