大语言模型(LLM)的工业化应用正面临算力资源分配的挑战,而一项由国内科研团队提出的新型架构为破解这一难题提供了新思路。近日,Moonshot AI联合清华大学研究团队发布了一项名为“预填充即服务”(PrfaaS)的技术成果,通过重构传统推理流程,实现了跨地域算力资源的高效协同,显著提升了模型服务效率。
当前大语言模型的推理过程主要分为两个阶段:预填充阶段需完成输入文本的向量计算并生成键值缓存(KVCache),对计算资源需求极高;解码阶段则依赖内存带宽逐字生成输出,两者硬件需求差异显著。传统架构将这两个阶段强制捆绑在同一服务器或数据中心内处理,导致计算资源与带宽资源分配失衡,尤其在处理长文本时易引发服务拥堵。
PrfaaS架构的创新性在于将预填充与解码任务解耦。研究团队将计算密集型的预填充任务迁移至专用高算力集群,通过通用以太网将生成的KVCache实时传输至本地解码集群。这种设计使两个阶段可在不同地理位置的数据中心并行运行,彻底打破了物理空间限制。为保障传输效率,系统引入双时间尺度调度机制,既能根据实时流量动态调整资源分配,又通过精准路由算法确保长文本传输的稳定性,有效避免了资源竞争导致的延迟。
实际测试数据显示,该架构在多项核心指标上表现优异:服务吞吐量较传统方案提升54%,单位时间内可处理更多请求;用户端首字生成延迟显著降低,交互响应速度更快;通过分离计算、网络和存储子系统,资源利用率得到优化,传统架构中常见的拥堵问题得到根本性解决。这些改进使得大规模AI推理服务在保持低成本的同时,具备了更强的工业级部署能力。
这项成果不仅为优化现有数据中心算力分配提供了工程范式,更通过验证跨地域算力协同的可行性,为构建全球算力网络奠定了技术基础。其提出的“预填充即服务”模式,或将推动大语言模型从实验室研究向规模化商业应用的关键跨越。











