ITBear旗下自媒体矩阵:

阿里云Aegaeon系统亮相:token级调度让213块GPU完成1192块工作

   时间:2025-10-22 09:15:00 来源:快讯编辑:快讯 IP:北京 发表评论无障碍通道
 

阿里云与北京大学联合研发的GPU池化系统Aegaeon,在计算机系统领域顶会SOSP上引发行业震动。该系统通过创新性的资源调度技术,成功将英伟达GPU需求量降低82%,这项突破性成果背后,是对云计算资源利用效率的深度重构。

研究团队在阿里云Model Studio平台的运营中发现,17.7%的GPU资源被分配给仅处理1.35%请求的冷门模型,而这类长尾模型在779个统计样本中占比高达94.1%,平均每秒请求量不足0.2次。传统"一对一"的GPU分配模式导致两种极端现象:冷门模型GPU长期闲置,热门模型在突发流量时又因资源预留不足出现过载。

Aegaeon系统突破性地引入token级动态调度机制,在生成每个token时实时判断是否需要切换模型。这种"见缝插针"式的资源分配方式,使单个GPU可同时服务7个不同模型。通过组件复用技术减少80%的初始化开销,显式内存管理消除碎片化问题,配合细粒度KV缓存同步机制,将模型切换时间从数十秒压缩至1秒以内。

在16块H800 GPU组成的测试集群中,系统成功支撑了从60亿到720亿参数规模的模型服务。与ServerlessLLM、MuxServe等现有系统相比,Aegaeon的请求到达率提升2-2.5倍,有效吞吐量实现1.5至9倍增长。更关键的是,这套系统已在阿里云百炼平台完成三个月生产环境验证。

实际部署数据显示,系统服务47个不同规模模型(含28个18亿-70亿参数小模型和19个320亿-720亿参数大模型)期间,GPU利用率从13.3%-33.9%提升至48.1%,且未出现任何服务等级目标(SLO)违规或中断情况。这种资源利用效率的跃升,相当于在相同计算能力下可处理9倍于前的业务量。

 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  争议稿件处理  |  English Version