阿里云提出的计算池化方案“Aegaeon”近日在计算机系统领域引发广泛关注。该方案凭借突破性的GPU资源优化技术,成功入选国际顶级学术会议SOSP 2025,标志着系统软件与AI大模型技术融合取得重要进展。作为ACM SIGOPS主办的操作系统原理研讨会,SOSP年均论文收录量不足百篇,被誉为计算机系统领域的“学术巅峰”,其入选成果均代表该领域前沿研究水平。
在为期三个月的阿里云模型市场Beta测试中,Aegaeon系统展现出惊人的资源优化能力。面对参数量达720亿的数十个大模型服务需求,系统将所需英伟达H20 GPU数量从1192个锐减至213个,降幅达82%。这一数据直接反映出硬件采购成本的显著下降,对于依赖数千张GPU运行的大型AI服务商而言,这种技术突破具有重大经济价值。测试数据显示,传统架构下17.7%的GPU算力仅用于处理1.35%的请求,资源闲置问题极为突出。
该系统的核心创新在于打破“模型-GPU”一对一绑定模式。通过GPU资源池化技术,Aegaeon实现了多模型共享计算资源。其独创的Token级动态调度机制,能在每次生成新token后实时判断是否切换模型,配合组件复用、显存精细管理和KV缓存同步优化等全栈技术,将模型切换开销降低97%。这种设计确保了亚秒级响应能力,使单GPU可同时服务7个不同模型,有效吞吐量较主流方案提升1.5至9倍,请求处理能力增强2至2.5倍。
当前AI模型服务存在显著资源分配失衡问题。以阿里云模型市场为例,少数热门模型(如Qwen系列)承担绝大多数用户请求,而大量“长尾”模型却长期独占GPU资源。Aegaeon系统通过精细化资源管理,使GPU利用率获得质的提升。其技术路线显示,系统级软件创新正在成为挖掘硬件潜力的关键路径,这为AI产业发展提供了新的优化方向。
随着AI模型规模持续扩大,单纯依赖硬件算力提升已难以满足发展需求。Aegaeon系统的实践表明,通过底层系统软件优化,可显著提升现有硬件的使用效率。这种技术路径不仅降低企业运营成本,更为AI技术普惠化创造了条件。目前该方案核心技术已应用于阿里云百炼平台,为行业提供了可复制的资源优化范本。