智谱科技近日发布技术博客,首次公开GLM-5系列模型大规模应用中遭遇的"Scaling Pain"现象。该团队在服务数亿次Coding Agent调用过程中,发现模型在高并发场景下出现乱码输出、重复生成和异常字符三类问题,这些问题在标准测试环境中难以复现,给系统稳定性带来严峻挑战。
工程师团队通过本地回放用户请求发现,单纯重复运行相同指令无法触发异常。经过数周排查,在模拟在线环境并调整PD分离比例后,终于在每万次请求中复现3-5个异常案例。研究指出,问题根源在于高负载下的推理状态管理,特别是KV Cache(键值缓存)的竞态条件导致缓存损坏。
技术团队创新性地引入投机采样(Speculative Decoding)指标作为异常检测工具。通过分析发现,乱码和异常字符案例中,目标模型与草稿模型的KV缓存状态存在显著不匹配,而重复生成案例则呈现过高的spec_accept_length值。基于此建立的监控策略,当spec_accept_length持续低于1.4且生成长度超过128 token,或spec_accept_rate超过0.96时,系统将自动终止当前生成任务。
针对KV Cache竞态问题,研发团队重构了推理引擎的时序控制机制。在请求终止与缓存写入之间建立显式同步,确保解码阶段发出的中止指令必须等待预填充阶段确认所有RDMA写入完成,才能回收缓存槽位。这项改进使异常发生率从万分之十几降至万分之三以下。
另一个关键突破是解决HiCache加载时序缺陷。通过在Indexer算子前插入同步点,确保数据加载完成后再启动计算流程,彻底消除了未就绪缓存被访问的情况。这种显式同步约束机制,有效避免了read-before-ready的竞态条件。
为应对长上下文场景的性能瓶颈,团队开发了KV Cache分层存储方案LayerSplit。该方案将不同层的缓存分散存储在多个GPU上,执行Attention计算前动态广播所需层数据。通过重叠通信与计算过程,将额外通信开销控制在KV Cache大小的八分之一,在40k-120k请求长度区间实现10%-132%的吞吐量提升。
这些技术突破不仅解决了GLM-5系列模型的现实问题,更为大规模AI系统的工程化实践提供了重要参考。特别是在高并发、长上下文的Coding Agent场景中,系统稳定性和输出质量已成为与模型能力同等重要的考量因素。智谱的实践表明,推动AI规模化应用需要模型架构创新与系统工程优化的双重突破。








