近日,国内极具影响力的AI工程化实践峰会——第十届A2M峰会(北京站)如期举办,作业帮基础架构研发工程师张浩然受邀发表主题演讲《AI时代资源效率困境和破局之道》,以多地域集群大规模GPU调度实战为核心内容,系统拆解了AI基础设施领域“规模扩张与效率停滞”的行业困境,并首次公开作业帮自研的三大核心破局方案。
规模越大,浪费越严重:AI算力效率的行业性悖论
演讲伊始,张浩然抛出一个令现场数百名技术专家深感共鸣的核心困境:过去5年AI训练算力每六个月翻一番,远超摩尔定律;但与此同时,行业智算中心GPU平均利用率却长期低于30%。
“花了十倍的钱,买了十倍的卡,实际有效算力可能只涨了2到3倍。”他直言,这一现象的本质是规模扩张与效率停滞的双重叠加——投入越多硬件,浪费反而越严重,成本压力越来越大。结合全球数据中心电力消耗年均增速已达15%、是其他所有行业总增速四倍以上的宏观背景,张浩然指出:单靠“堆硬件”的路已经走不通,AI算力的下一个战场,是效率。
与教科书中理想化的单一超大集群不同,作业帮的算力版图是一张遍布全国多云、多地域的异构网络——面临的是各地域GPU型号不统一、数量随业务和成本动态增减、多集群部署缺乏统一通信与调度、资源潮汐空转浪费等现实问题。
作业帮分享三大核心破局实践经验
面对上述挑战,作业帮基础架构团队历经多年迭代,形成了一套层层递进、相互配合的系统性解法,实现了“用更少的资源,跑更多的AI服务/任务”的核心目标。
第一,跨地域算力网络创新——作业帮自研了一套统一流量调度系统,核心理念是让调用方对变动零感知:从部署方面看,作业帮团队自容器化之初就创建了多云容灾,超前地搭建了多集群部署、镜像分发等能力;而部署之后的核心难点是通信问题,作业帮基础架构团队创新性尝试,让流量调度器根据各地域健康度和配比自动分发,对于无专线的地区,集群间会通过公网进行通信,并在协议层级进行加密;对于有专线的地区,则能进行专线和公网的切换,以避免专线故障带来的资源缺口。这一系统的搭建让即使单地域资源发生剧烈波动,服务SLA(Service Level Agreement)依然稳定维持在99.99%以上。
第二,单集群内的碎片化治理——对于效率提升的最大贡献点,则是单集群内的碎片化治理。作业帮基础架构团队自研了GPU调度器、RS-Webhook和碎片整理任务三件套,从调度、回收、整理三个层面协同作战:调度策略上,整卡的模型不同服务优先堆叠,同服务尽量分散;显存模型则按照显存维度极致堆叠。回收策略方面,废弃K8s默认Pod回收逻辑,改为向计算“哪台机器缩容后能空出最多卡”的方向推进。而在碎片化治理阶段,经资源逐层检查与预调度,确认不影响在线服务后,对回收的资源进行标记,根据高峰和非高峰的策略,把散落的卡Pod迁走,尽可能空出资源。
第三,在离线混合部署——前两套方案打好基础后,作业帮将在离线混部策略升级为“只要有空闲整机,则立刻填充离线训练任务”的高效模式,彻底告别固定时间窗口的潮汐离线。当在线Pod预调度失败时,系统自动驱逐任务量最少的离线任务,确保在线SLA不受影响。
经过上述系统性优化,作业帮跨地域算力网络彻底打破地域限制,业务扩容再也不受单云/单地域束缚:GPU平均利用率长期维持在90%以上,可用算力增加约20%,这些成果直接转化为业务价值和成本节约。
“AI时代,规模只是入场券,效率才是生死线。”这句张浩然在演讲结尾送给全场的话,也是作业帮基础架构团队多年实战的凝练。作为一家深耕教育AI的科技公司,作业帮在基础架构侧的技术积累已远超行业平均水准,不仅在复杂异构、多云分散的真实生产环境中跑通了GPU利用率90%+的方案,更将这套工程化经验开放分享,为整个AI基础设施行业的降本提效探路。
据悉,A2M峰会是国内最早聚焦AI工程化实践的技术盛会之一,本届峰会北京站于2026年6月13日至14日在中关村国家自主创新示范区会议中心举办,吸引了数百名来自互联网、AI、制造业等领域的技术决策者、架构师与研发骨干出席。











